Hadoop自定义类型处理手机上网日志

xy123321 · 发表于 2017-12-17 17:32:54

package mapreduce;　　

　　
import java.io.DataInput;
　　
import java.io.DataOutput;
　　
import java.io.IOException;
　　

　　
import org.apache.hadoop.conf.Configuration;
　　
import org.apache.hadoop.fs.Path;
　　
import org.apache.hadoop.io.LongWritable;
　　
import org.apache.hadoop.io.Text;
　　
import org.apache.hadoop.io.Writable;
　　
import org.apache.hadoop.mapreduce.Job;
　　
import org.apache.hadoop.mapreduce.Mapper;
　　
import org.apache.hadoop.mapreduce.Reducer;
　　
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
　　
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
　　
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
　　
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
　　
import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;
　　

　　
public>　　
   static final String INPUT_PATH = "hdfs://chaoren:9000/wlan";//wlan是个文件夹，日志文件放在/wlan目录下
　　
   static final String OUT_PATH = "hdfs://chaoren:9000/out";
　　

　　
   public static void main(String[] args) throws Exception {
　　
      final Job job = new Job(new Configuration(),
　　
               KpiApp.class.getSimpleName());
　　
      // 1.1 指定输入文件路径
　　
      FileInputFormat.setInputPaths(job, INPUT_PATH);
　　
      // 指定哪个类用来格式化输入文件
　　
      job.setInputFormatClass(TextInputFormat.class);
　　

　　
      // 1.2指定自定义的Mapper类
　　
      job.setMapperClass(MyMapper.class);
　　
      // 指定输出<k2,v2>的类型
　　
      job.setMapOutputKeyClass(Text.class);
　　
      job.setMapOutputValueClass(KpiWritable.class);
　　

　　
      // 1.3 指定分区类
　　
      job.setPartitionerClass(HashPartitioner.class);
　　
      job.setNumReduceTasks(1);
　　

　　
      // 1.4 TODO 排序、分区
　　

　　
      // 1.5 TODO （可选）归约
　　

　　
      // 2.2 指定自定义的reduce类
　　
      job.setReducerClass(MyReducer.class);
　　
      // 指定输出<k3,v3>的类型
　　
      job.setOutputKeyClass(Text.class);
　　
      job.setOutputValueClass(KpiWritable.class);
　　

　　
      // 2.3 指定输出到哪里
　　
      FileOutputFormat.setOutputPath(job, new Path(OUT_PATH));
　　
      // 设定输出文件的格式化类
　　
      job.setOutputFormatClass(TextOutputFormat.class);
　　

　　
      // 把代码提交给JobTracker执行
　　
      job.waitForCompletion(true);
　　
   }
　　

　　
   static>　　
      protected void map(
　　
               LongWritable key,
　　
               Text value,
　　
               org.apache.hadoop.mapreduce.Mapper<LongWritable, Text, Text, KpiWritable>.Context context)
　　
               throws IOException, InterruptedException {
　　
         final String[] splited = value.toString().split("\t");
　　
         final String msisdn = splited[1];
　　
         final Text k2 = new Text(msisdn);
　　
         final KpiWritable v2 = new KpiWritable(splited[6], splited[7],
　　
                  splited[8], splited[9]);
　　
         context.write(k2, v2);
　　
      };
　　
   }
　　

　　
   static>　　
         Reducer<Text, KpiWritable, Text, KpiWritable> {
　　
      /**
　　
      * @param k2
　　
      *          表示整个文件中不同的手机号码
　　
      * @param v2s
　　
      *          表示该手机号在不同时段的流量的集合
　　
      */
　　
      protected void reduce(
　　
               Text k2,
　　
               java.lang.Iterable<KpiWritable> v2s,
　　
               org.apache.hadoop.mapreduce.Reducer<Text, KpiWritable, Text, KpiWritable>.Context context)
　　
               throws IOException, InterruptedException {
　　
         long upPackNum = 0L;
　　
         long downPackNum = 0L;
　　
         long upPayLoad = 0L;
　　
         long downPayLoad = 0L;
　　

　　
         for (KpiWritable kpiWritable : v2s) {
　　
               upPackNum += kpiWritable.upPackNum;
　　
               downPackNum += kpiWritable.downPackNum;
　　
               upPayLoad += kpiWritable.upPayLoad;
　　
               downPayLoad += kpiWritable.downPayLoad;
　　
         }
　　

　　
         final KpiWritable v3 = new KpiWritable(upPackNum + "", downPackNum
　　
                  + "", upPayLoad + "", downPayLoad + "");
　　
         context.write(k2, v3);
　　
      };
　　
   }
　　
}
　　

　　
>　　
   long upPackNum;
　　
   long downPackNum;
　　
   long upPayLoad;
　　
   long downPayLoad;
　　

　　
   public KpiWritable() {
　　
   }
　　

　　
   public KpiWritable(String upPackNum, String downPackNum, String upPayLoad,
　　
         String downPayLoad) {
　　
      this.upPackNum = Long.parseLong(upPackNum);
　　
      this.downPackNum = Long.parseLong(downPackNum);
　　
      this.upPayLoad = Long.parseLong(upPayLoad);
　　
      this.downPayLoad = Long.parseLong(downPayLoad);
　　
   }
　　

　　
   public void readFields(DataInput in) throws IOException {
　　
      this.upPackNum = in.readLong();
　　
      this.downPackNum = in.readLong();
　　
      this.upPayLoad = in.readLong();
　　
      this.downPayLoad = in.readLong();
　　
   }
　　

　　
   public void write(DataOutput out) throws IOException {
　　
      out.writeLong(upPackNum);
　　
      out.writeLong(downPackNum);
　　
      out.writeLong(upPayLoad);
　　
      out.writeLong(downPayLoad);
　　
   }
　　

　　
   @Override
　　
   public String toString() {
　　
      return upPackNum + "\t" + downPackNum + "\t" + upPayLoad + "\t"
　　
               + downPayLoad;
　　
   }
　　
}

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] Hadoop自定义类型处理手机上网日志

扫码加入运维网微信交流群