dsfsfs 发表于 2018-10-30 09:18:46

hadoop中mapreduce的常用类(一)

  云智慧(北京)科技有限公司陈鑫
  写这个文章的时候才意识到新旧API是同时存在于1.1.2的hadoop中的。以前还一直纳闷儿为什么有时候是jobClient提交任务,有时是Job...不管API是否更新,下面这些类也还是存在于API中的,经过自己跟踪源码,发现原理还是这些。只不过进行了重新组织,进行了一些封装,使得扩展性更好。所以还是把这些东西从记事本贴进来吧。
  关于这些类的介绍以及使用,有的是在自己debug中看到的,多数为纯翻译API的注释,但是翻译的过程受益良多。
  GenericOptionsParser
  parseGeneralOptions(Optionsopts, Configuration conf, String[] args)解析命令行参数
  GenericOptionsParser是为hadoop框架解析命令行参数的工具类。它能够辨认标准的命令行参数,使app能够轻松指定namenode,jobtracker,以及额外的配置资源或信息等。它支持的功能有:
  -conf 指定配置文件;
  -D 指定配置信息;
  -fs      指定namenode
  -jt   指定jobtracker
  -files指定需要copy到MR集群的文件,以逗号分隔
  -libjars指定需要copy到MR集群的classpath的jar包,以逗号分隔
  -archives指定需要copy到MR集群的压缩文件,以逗号分隔,会自动解压缩
  1.String[] otherArgs = new GenericOptionsParser(job, args)
  2.   .getRemainingArgs();
  3.if (otherArgs.length != 2) {
  4.   System.err.println("Usage: wordcount");
  5.   System.exit(2);
  6.}
  ToolRunner
  用来跑实现Tool接口的工具。它与GenericOptionsParser合作来解析命令行参数,只在此次运行中更改configuration的参数。
  Tool
  处理命令行参数的接口。Tool是MR的任何tool/app的标准。这些实现应该代理对标准命令行参数的处理。下面是典型实现:
  1.public class MyApp extends Configured implements Tool {
  2.
  3.   public int run(String[] args) throws Exception {
  4.   // 即将被ToolRunner执行的Configuration
  5.   Configuration conf = getConf();
  6.
  7.   // 使用conf建立JobConf
  8.   JobConf job = new JobConf(conf, MyApp.class);
  9.
  10.   // 执行客户端参数
  11.   Path in = new Path(args);
  12.   Path out = new Path(args);
  13.
  14.   // 指定job相关的参数
  15.   job.setJobName("my-app");
  16.   job.setInputPath(in);
  17.   job.setOutputPath(out);
  18.   job.setMapperClass(MyApp.MyMapper.class);
  19.   job.setReducerClass(MyApp.MyReducer.class);
  20.*
  21.   // 提交job,然后监视进度直到job完成
  22.   JobClient.runJob(job);
  23.   }
  24.
  25.   public static void main(String[] args) throws Exception {
  26.   // 让ToolRunner 处理命令行参数
  27.   int res = ToolRunner.run(new Configuration(), new Sort(), args);//这里封装了GenericOptionsParser解析args
  28.
  29.   System.exit(res);
  30.   }
  31. }
  MultipleOutputFormat
  自定义输出文件名称或者说名称格式。在jobconf中setOutputFormat(MultipleOutputFormat的子类)就行了。而不是那种part-r-00000啥的了。。。并且可以分配结果到多个文件中。
  MultipleOutputFormat继承了FileOutputFormat, 允许将输出数据写进不同的输出文件中。有三种应用场景:
  a. 最少有一个reducer的mapreduce任务。这个reducer想要根据实际的key将输出写进不同的文件中。假设一个key编码了实际的key和为实际的key指定的位置
  b. 只有map的任务。这个任务想要把输入文件或者输入内容的部分名称设为输出文件名。
  c. 只有map的任务。这个任务为输出命名时,需要依赖keys和输入文件名。
  1.//这里是根据key生成多个文件的地方,可以看到还有value,name等参数
  2.@Override
  3.protected String generateFileNameForKeyValue(Text key,
  4.   IntWritable value, String name) {
  5.   char c = key.toString().toLowerCase().charAt(0);
  6.   if (c >= 'a' && c
页: [1]
查看完整版本: hadoop中mapreduce的常用类(一)