peiyuan1030 发表于 2018-10-31 09:16:51

hadoop汇总

  1.SequenceFile用于合并大量小文件,CombineFileInputFormat把多个文件打包到一个split,来处理大量小文件。
  2.避免切分:修改最小切片大小,达到需要处理的文件;或者使用FileInputFormat子类,并且覆盖isSplitable()方法。
  3.处理xml文档:采用避免切片的方式。用StreamXmlRecordReader来进行处理。

页: [1]
查看完整版本: hadoop汇总