hadoop streaming多路输出方法和注意点（附超大数据diff对比源码）

lyl801013 · 发表于 2015-7-12 08:57:23

简介
　　hadoop 支持reduce多路输出的功能，一个reduce可以输出到多个part-xxxxx-X文件中，其中X是A-Z的字母之一，程序在输出对的时候，在value的后面追加"#X"后缀，比如#A，输出的文件就是part-00000-A，不同的后缀可以把key,value输出到不同的文件中，方便做输出类型分类， #X仅仅用做指定输出文件后缀，不会体现到输出的内容中

使用方法
　　启动脚本中需要指定-outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat或者-outputformat org.apache.hadoop.mapred.lib.SuffixMultipleSequenceFileOutputFormat，输出就会按照多路输出的方式进行分文件输出
　　所有标准输出的value中都要加上 #X后缀，X代表A-Z，不然会报invalid suffix错误
　　简单示例如下：

$HADOOP_HOME_PATH/bin/hadoop streaming \
-Dhadoop.job.ugi="$HADOOP_JOB_UGI" \
-file ./map.sh \
-file ./red.sh \
-file ./config.sh \
-mapper "sh -x map.sh" \
-reducer "sh -x red.sh" \
-input $NEW_INPUT_PATH \
-input $OLD_INPUT_PATH \
-output $OUTPUT_PATH \
-jobconf stream.num.map.output.key.fields=1 \
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \
-outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat \
-jobconf mapred.job.name="test-shapherd-dist-diff" \
-jobconf mapred.job.priority=HIGH \
-jobconf mapred.job.map.capacity=100 \
-jobconf mapred.job.reduce.capacity=100 \
-jobconf mapred.reduce.tasks=3
　　在red脚本中可以所以的输出都加上后缀，这样输出就是分part的了，比如大数据diff对比的脚本
　　map.sh如下：

source ./config.sh
awk 'BEGIN{
}
{
if(match("'${map_input_file}'","'$OLD_INPUT_PATH'"))
{
print $0"\t"0
next
}
if(match("'${map_input_file}'","'$NEW_INPUT_PATH'"))
print $0"\t"1
}'
exit 0

　　
　　red.sh如下：

awk -F"\t" 'BEGIN{
key=""
flag=0
num=0
old_num=0
new_num=0
diff_num=0
}
{
if($NF == "0")
old_num++
else
new_num++
if($1 != key)
{
if(key != "")
{
if(num

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] hadoop streaming多路输出方法和注意点（附超大数据diff对比源码）

扫码加入运维网微信交流群