|
(1)你编写了一个java lib,封装成了jar,然后再写了一个Hadoop程序,调用这个jar完成mapper和reducer的编写
(2)你编写了一个Hadoop程序,期间调用了一个第三方java lib。
之后,你将自己的jar包或者第三方java包分发到各个TaskTracker的HADOOP_HOME目录下,运行你的JAVA程序,报了以上错误。
2. 解决方法
(1) 在运行脚本中添加classpath.
在$HADOOP_HOME/conf/hadoop_env.sh 或者$HADOOP_HOME/bin/hadoop-config.sh中添加:
export HADOOP_CLASSPATH=$HADOOP_HOME/my_jars
然后将你自己的jar包和第三方jar包分发到各个TaskTracker的HADOOP_CLASSPATH目录下(别忘了所有TaskTracker上的hadoop_env.sh和hadoop-config.sh均按以上方法添加HADOOP_CLASSPATH环境变量)
【注】hadoop_env.sh和hadoop-config.sh是所有hadoop运行脚本(start-all.sh, start-dfs.sh等)一定会引用的配置脚本,可以将一些最基本的环境变量或者配置参数加到这两个文件中。
(2) 使用“-D libjars“参数
public class MyHadoopJob extends Configured implements Tool { public static class MapClass extends Mapper<LongWritable, Text, IntPair, IntWritable> { //your mapper }
public static class Reduce extends Reducer<IntPair, IntWritable, Text, IntWritable> { //your reducer } //设定并读取应用程序相关的,自己定义的一些参数
public int run(String[] args) throws Exception { if(args.length < 2) { printUsage(); return 2; } Job job = new Job(getConf()); …...... } //真正的main函数 public static void main(String[] args) throws Exception{ int res = ToolRunner.run(new Configuration(), new SleepJob(), args); System.exit(res); } }
运行作业:
#run_myjob.sh
bin/hadoop jar myjob.jar MyHadoopJob \
-D mapred.job.name=MyHadoopJob \
-D mapred.map.tasks=24 \
-D mapred.mreduce.tasks=12 \
-D mapred.input.dir=/test/input1,test/input2 \
-D mapred.output.dir=/test/output \
-D libjars=myjob.jar,third-party.jar
-my1 5 \
-my2 china
运行./run_myjob.sh
其中 “-D libjars“指定本地两个jar文件,Hadoop自动会把这两个文件分发到各个TaskTracker的临时工作目录下,用完后自动删除。
3. 解决方案比较
第一种方法过于笨拙,每次都要人工地将jar包分发到各个TaskTracker上,如果集群很大,非常耗时;第二种方法利用了Hadoop内部机制进行jar包分发,非常方便。实际上,在Hadoop example中,除了WordCount例子外,其他所有例子均采用了方案2的设计方法。 |
|
|