设为首页 收藏本站
查看: 615|回复: 0

[经验分享] hadoop文件存储不均衡的分析

[复制链接]

尚未签到

发表于 2016-12-9 09:14:57 | 显示全部楼层 |阅读模式
1.       Hadoop是如何判断集群内存储是否均衡的? 
1)  获取集群平均使用率-各个节点使用率的平均值
例如,ABC三台机器的DFS Used%依次为0.1%, 0.01%, 13.1%,则平均使用率为(0.1%+0.01%+13.1%)/3 = 4.4%
 
2)  判断节点的使用率与集群平均使用率之间的差值是否在容许范围内,都在范围内,则认为存储平衡(默认的容许范围是10%
 
2.       Hadoop对上传文件的处理
Hadoop有一个处理原则是,从哪个节点上传的文件,原则上就放在哪个节点,以减少网络I/O,所以基本上所有的数据都存储在了C这台机器上。此外,因为我们配置的备份因子是1,即所有的数据只存储1份,所以,其他两个节点也没有备份数据。
 
3.       分析
根据上述两个前提,我们计算出每个节点使用率与平均使用率4.4%的差值都小于10%,系统认为当前的存储是平衡的。因为所有的文件都是通过C这台机器上传,我们配置的备份因子又是1,即所有的数据只存储1份,所以,大部分文件都在C这台机器上,其他两个节点数据很少。
 
4.       处理
C这台机器上被DFS文件占用了太多的空间,导致计算出的占用百分比不高,却没有太多空间可用。可以把非DFS文件放在另外的目录下,不占用划分给DFS的目录,这样的百分比就更准确。
修改偏差百分比,调整文件存储。以下命令的含义为修改偏差范围为3%,执行存储平衡(该过程可以和分析任务一起执行)
./start-balancer.sh -threshold 3

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-311758-1-1.html 上篇帖子: hadoop文件存储不均衡的分析 下篇帖子: HADOOP工作流调度系统OOZIE
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表