hadoop中mapreduce的常用类（一）

dsfsfs · 发表于 2018-10-30 09:18:46

　　云智慧（北京）科技有限公司陈鑫
　　写这个文章的时候才意识到新旧API是同时存在于1.1.2的hadoop中的。以前还一直纳闷儿为什么有时候是jobClient提交任务，有时是Job...不管API是否更新，下面这些类也还是存在于API中的，经过自己跟踪源码，发现原理还是这些。只不过进行了重新组织，进行了一些封装，使得扩展性更好。所以还是把这些东西从记事本贴进来吧。
　　关于这些类的介绍以及使用，有的是在自己debug中看到的，多数为纯翻译API的注释，但是翻译的过程受益良多。
　　GenericOptionsParser
　　parseGeneralOptions(Optionsopts, Configuration conf, String[] args)解析命令行参数
　　GenericOptionsParser是为hadoop框架解析命令行参数的工具类。它能够辨认标准的命令行参数，使app能够轻松指定namenode，jobtracker，以及额外的配置资源或信息等。它支持的功能有：
　　-conf 指定配置文件；
　　-D 指定配置信息；
　　-fs    指定namenode
　　-jt    指定jobtracker
　　-files  指定需要copy到MR集群的文件，以逗号分隔
　　-libjars指定需要copy到MR集群的classpath的jar包，以逗号分隔
　　-archives指定需要copy到MR集群的压缩文件，以逗号分隔，会自动解压缩
　　1.String[] otherArgs = new GenericOptionsParser(job, args)
　　2.    .getRemainingArgs();
　　3.if (otherArgs.length != 2) {
　　4. System.err.println("Usage: wordcount  ");
　　5. System.exit(2);
　　6.}
　　ToolRunner
　　用来跑实现Tool接口的工具。它与GenericOptionsParser合作来解析命令行参数，只在此次运行中更改configuration的参数。
　　Tool
　　处理命令行参数的接口。Tool是MR的任何tool/app的标准。这些实现应该代理对标准命令行参数的处理。下面是典型实现：
　　1.public class MyApp extends Configured implements Tool {
　　2.
　　3. public int run(String[] args) throws Exception {
　　4.    // 即将被ToolRunner执行的Configuration
　　5.    Configuration conf = getConf();
　　6.
　　7.    // 使用conf建立JobConf
　　8.    JobConf job = new JobConf(conf, MyApp.class);
　　9.
　　10.    // 执行客户端参数
　　11.    Path in = new Path(args[1]);
　　12.    Path out = new Path(args[2]);
　　13.
　　14.    // 指定job相关的参数
　　15.    job.setJobName("my-app");
　　16.    job.setInputPath(in);
　　17.    job.setOutputPath(out);
　　18.    job.setMapperClass(MyApp.MyMapper.class);
　　19.    job.setReducerClass(MyApp.MyReducer.class);
　　20.*
　　21.    // 提交job，然后监视进度直到job完成
　　22.    JobClient.runJob(job);
　　23. }
　　24.
　　25. public static void main(String[] args) throws Exception {
　　26.    // 让ToolRunner 处理命令行参数
　　27.    int res = ToolRunner.run(new Configuration(), new Sort(), args);  //这里封装了GenericOptionsParser解析args
　　28.
　　29.    System.exit(res);
　　30. }
　　31. }
　　MultipleOutputFormat
　　自定义输出文件名称或者说名称格式。在jobconf中setOutputFormat(MultipleOutputFormat的子类)就行了。而不是那种part-r-00000啥的了。。。并且可以分配结果到多个文件中。
　　MultipleOutputFormat继承了FileOutputFormat, 允许将输出数据写进不同的输出文件中。有三种应用场景：
　　a. 最少有一个reducer的mapreduce任务。这个reducer想要根据实际的key将输出写进不同的文件中。假设一个key编码了实际的key和为实际的key指定的位置
　　b. 只有map的任务。这个任务想要把输入文件或者输入内容的部分名称设为输出文件名。
　　c. 只有map的任务。这个任务为输出命名时，需要依赖keys和输入文件名。
　　1.//这里是根据key生成多个文件的地方，可以看到还有value，name等参数
　　2.@Override
　　3.protected String generateFileNameForKeyValue(Text key,
　　4.    IntWritable value, String name) {
　　5. char c = key.toString().toLowerCase().charAt(0);
　　6. if (c >= 'a' && c

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] hadoop中mapreduce的常用类（一）

浏览过的版块

扫码加入运维网微信交流群