设为首页 收藏本站
查看: 992|回复: 0

[经验分享] todd的hadoop world的ppt笔记

[复制链接]

尚未签到

发表于 2016-12-10 09:10:51 | 显示全部楼层 |阅读模式
todd的ppt是本次hadoop world大会上的亮点。之前知道他让hdfs随机读性能提升了2-3倍。具体他们做了哪些改进呢?这里详细记录一下原理。(都是ppt上翻译过来再加上理解的)

IO cache上的改进:
1 增加了预读,避免大量随机seek,对mapreduce这样的只读一次数据的应用很有效
2 去掉了write在OS层面的cache,因为对map reduce来说这是不必要的
3 脏页数据立即刷新。因为mapreduce会产生大量脏页,为避免OS进行脏页刷新时的block而做的改进
效果:
1 cpu利用率更加平滑
2 磁盘利用率上升

mapreduce中sort的提升:
1 cache提升:使用指针的前4个字节进行比较,让cpu可以cache更多的内容
2 writableComparator.compareBytes让cpu的利用率不高,换用sun.misc.Unsafe中的类似方法
效果:
1TB排序的速度快了20-30%

mapreduce中调度的改进
1 tt的心跳3秒一次,改成了在小集群中0.3秒一次
2 tt的心跳一次只接收一台机器,改成了一次接收多台机器
3 对小job进行优化,对每个job结束阶段的心跳进行特殊处理,让小job提前分配
效果:
小job的最小延迟缩短一倍,每秒能调度的任务提高10倍

hdfs中cpu的改进:
原先消耗了30%-50%的cpu时间在checksum上
1 将每次对512字节做checksum改为了64k字节
2 crc32的校验算法改为了crc32c算法(该sse指令会快出10倍)
效果:
随机读的响应延迟下降一倍
随机读和顺序读的cpu消耗下降1-1.5倍

hdfs随机读
每次要新建连接,有过多的tcp握手
1 把socket缓存住,类似keepalive
2 重写了BlockReader,消除一些数据拷贝
3 消除了在FSDataset类上的锁争夺
效果:
随机读的吞吐量提长了2.5-3倍
hbase随机读的tps提升了33%

mapreduce2中shuffle的改进:
1 自动修改io.sort.record.percent的值
2 reducer在一个tcp连接上获取多个map的输出值
3 shuffle的server用netty来重写了
效果:shuffle有30%的吞吐量提升

小结:可以看到todd对hadoop的改造非常给力。这在最新的hadoop-0.23中己经放出,hbase的trunk版本己经准备改用hdfs-0.23做为hdfs层了。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-312167-1-1.html 上篇帖子: Hadoop基本流程与应用开发 下篇帖子: [Hadoop]chukwa与ganglia的区别
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表