读书笔记2：Hadoop组件-（3）读与写

gxh1968 · 发表于 2016-12-11 08:15:46

4,读和写
MapReduce读取输入数据以及写入数据支持多种数据格式。输入数据通常驻留在较大的文件中（通常是几十或者几百GB甚至更大），MapReduce处理数据的原理是将其分割成为块，这些块可以在多个计算机上并行处理，在hadoop中这样的操作被称为“分片”。每个分片足够小以实现更细粒度的并行，但是也不能太小，否则启动和停止各个分片处理所需的时间开销比较大。
Hadoop读取文件使用FSDataInputStream而不是用DataInputStream是因为FSDataInputStream对DataInputStream进行了改进，FSDataInputStream可以实现随机读取，这就更加符合hadoop处理数据的“分块”策略了。
Hadoop默认将每一行作为一条记录，而键值分别为改行的字节偏移和内容。也许不会所有的数据都如此记录，所以hadoop支持多种数据格式，也支持自定义数据格式。
<1>InputFormat
Hadoop分割和读取文件的方式被定义在InputFormat接口的一个实现中。TextInputFormat是InputFormat的一个默认的实现。
常用的InputFormat的实现类：

TextInputFormat	在文本文件中的每一行为一个记录，键为一行的字节偏移，值为一行的内容 Key：LongWritable Value：Text
KeyValueTextInputFormat	在文本文件中的每一行为一个记录，以每行的第一个分隔符为界，分隔符之前的是键，之后的是值，分离器在属性key,value.separator.in.input.line中设定，默认为制表符(\t) Key:Text Value:Text
SequenceFileInputFormat<K,V>	用于读取序列文件的InputFormat。键和值由用户定义。序列文件为Hadoop专用的压缩二进制文件格式，他专用于一个MapReduce作业和其他MapReduce作业之间传递数据。 Key，Value：用户自定义
NLineInputFormat	与TextInputFormat相同，但每个分片一定有N行，N在属性mapred.line.input.format.linespermap中设定，默认是1 Key：LongWritable Value:Text

当Hadoop分割和读取文件的格式是KeyValueTextInputFormat时，那么Mapper中的map方法就必须得有新的实现来符合这个新的键的类型。（因为当分割读取格式为TextInputFormat时，key的类型是LongWirtable，而分割读取格式为KeyValueTextInputFormat时，key的类型是Text，所以map方法的实现要改）
注意：对于MapReduce的输入的数据不一定都来自于外部，可能这个MapReduce的输入数据是其他MapReduce的输出数据。并且你还可以按照自己的要求去定义自定义的InputFormat。
<2>OutputFormat
当MapReduce输出数据到文件时，用到的是OutputFormat类，输出无需分片，输出文件放在一个公用目录中，通常被命名为part-nnnnn(这里的nnnnn是reducer的分区ID)
RecordWirter将输出结果进行格式化，为RecoreReader对输入格式进行解析。
所有的OutputFormat都是从FileOutputFormat继承来的
所有的InputFormat都是从FileInputFormat继承来的

你可以通过调用JobConf对象的setOutputFormat方法来定制OutputFormat。
以下是常用的OutputFormat的实现类：

TextOutputFormat<K,V>	将每个记录写为一行文本，键和值已字符串形式写入，已制表符分割。这个分隔符可以在属性mapred.textoutputformat.sqparator中修改
SequeneceFileOutputFormat<K,V>	以Hadoop专有序列文件格式写入键值对，与SequenceFileInputFormat配合使用
NullOutputFormat<K,V>	无输出

SequenceFileOutputFormat是以序列文件格式输出数据，使其可以通过SequenceFileInputFormat来读取，有助于通过中间数据结果将MapReduce作业串起来。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] 读书笔记2：Hadoop组件-（3）读与写

浏览过的版块

扫码加入运维网微信交流群