hadoop作业的优化常用手段

theoforce · 发表于 2016-12-12 07:49:41

在mapreduce应用机制全部完成后，常面临一个常见问题“作业运行太慢”，此时我们需要通过一下几个方面进行调优，一边提升作业运行速度

（1）通过jobtracker的web界面可以查看到本次作业使用的mapper数量，查看每个mapper的平均运行时间，如果mapper运行时间过短（如每个mapper运行10多秒），此时苗明mapper没有得到良好的利用，我们需要减少mapper的数量，使每个maper运行更长的时间。mapper的运行时间取决于mapper输入数据的格式，因此我们可以调整mapper的输入格式。

（2）通过Jobtracker的web界面查看本次作业的reducer数量，集群中的reducer数量应该略小于reducer的任务槽数，使reducer能够在同一个周期完成任务，避免因动态管理产生一个reducer处理俩个任务的情况。

（3）combiner使用是否合理，充分利用combiner可以减少shuffle传输的数据量，网络传输减少了，作业运行速度自然就快了，但combiner要谨慎使用，视情况而定，取平均值得作业尽量不要使用combiner了，会产生较大偏差。

（4）与3类似，还有一种减少网络传输的方式，对map的输出进行压缩，压缩后的数据量减小，同样减轻了网络传输的压力

（5）为了作业排序更合理，可以自定义序列，自定义comparator，但需要注意的是必须确保已实现RawComparator

（6）最后可以调整shuffle，可以调整一些内存管理的参数，以弥补性能的不足

写的比较粗糙，有时间将其中一些细节会补齐。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] hadoop作业的优化常用手段

浏览过的版块

扫码加入运维网微信交流群