总结hadoop mapreduce job添加第三方依赖的方法

qqruser · 发表于 2016-12-11 06:24:40

总结hadoop mapreduce job添加第三方依赖的方法
hadoopclasspathmapreduce

最近在开发mapreduce程序，输入有hdfs、hbase形式，输出有hdfs、mysql等形式。碰到了如何添加第三方依赖jar的问题，在网上查了很多资料，记录下来，免得再走弯路。

下面所有方法基于hadoop-1.0.1版本实现，其它版本可能略有不同。
总结了一下，总共有五种方法：

方法1和2的思想是一样的，都是把所有的依赖放入到一个jar包中。但这些方法不利于版本的维护，不推荐使用。
方法3则需要配置集群中所有的node，而且也让hadoop本身依赖了第三方不相关的jar。
方法4必须由代码去控制第三方的jar依赖，也不利于依赖的管理。
方法5则没有上述问题，推荐使用。
不过使用方法5有一些注意事项，否则你会发现即使设置了-libjars，还是找不到依赖的类。
这个方法：如果包是在map 类，reudce类中使用没问题，如果你的依赖包在main方法或job提交之前使用中还是会找不到类
因为以下原因
conf.setClassLoader(new URLClassLoader(libjars, conf.getClassLoader()));
Thread.currentThread().setContextClassLoader(...)
这意味着，这些包都被加载到当前classloader的子loader中，不是当前classloader中，所以，你不能在当前的job中直接使用这些包。

方法5具体使用步骤：
1、提交jar参数设置
Java代码

hadoop jar my-example.jar com.example.MyTool -libjars mysql-connector-java.jar,abc.jar

多个jar包间使用逗号分隔。

2、main函数的参数必须使用GenericOptionsParser解析。
Java代码

public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
....
}

或者通过ToolRunner.run去解析参数
Java代码

public static void main(final String[] args) throws Exception {
Configuration conf = new Configuration();
int res = ToolRunner.run(new MyTool(), args);
System.exit(res);
}

Java代码

public class MyTool extends Configured implements Tool {
public final int run(final String[] args) throws Exception {
Job job = new Job(super.getConf());
...
job.waitForCompletion(true);
return ...;
}

详细代码可以参照mapreduce内的examples。

实际上ToolRunner.run的内部也是调用了GenericOptionsParser去解析参数。跟踪源码就会发现GenericOptionsParser有这样的一段代码：
Java代码

if (line.hasOption("libjars")) {
conf.set("tmpjars",
validateFiles(line.getOptionValue("libjars"), conf));
//setting libjars in client classpath
URL[] libjars = getLibJars(conf);
if(libjars!=null && libjars.length>0) {
conf.setClassLoader(new URLClassLoader(libjars, conf.getClassLoader()));
Thread.currentThread().setContextClassLoader(
new URLClassLoader(libjars,
Thread.currentThread().getContextClassLoader()));
}
}

最终是往Configuration里设置了tmpjars的属性。

参考文献：
1、http://blog.cloudera.com/blog/2011/01/how-to-include-third-party-libraries-in-your-map-reduce-job/
2、http://grepalex.com/2013/02/25/hadoop-libjars/

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] 总结hadoop mapreduce job添加第三方依赖的方法

浏览过的版块

扫码加入运维网微信交流群