【转载】Hadoop 文件副本存放的位置策略

LOCKLOSE · 发表于 2015-7-13 11:47:58

　　我在这里主要说明一下Hadoop的replication policies。
　　我们知道当我们要write data到datanode时，首先要通过namenode确定文件是否已经存在，若不存在则DataStreamer会请求namenode确定新分配的block的位置，然后就行write。
　　具体namenode如何确定选择哪个datanode存储数据呢？这里namenode会参考可靠性，读写的带宽等因素来确定。具体如下说明：
　　假设replica factor=3，Hadoop会将第一个replica放到client node里，这里node是随机选择的，当然hadoop还是想不要选择过于busy过于full的node；
　　第二个replica会随机选择和第一个不在同一rack的node；
　　第三个replica放到和第二个一样的rack里，但是随机选择一个不同的node。
　　如果replica factor更大则其他副本随即在cluster里选择。当然这里hadoop还是随机的，尽管我们都知道尽量不要吧更多的replica放到同一个rack里，这不仅影响可靠性而且读写的带宽有可能成为瓶颈。
　　当replica的location确定之后，write的pipline就会建成，里面是被分解的data packets，然后按照网络的拓扑结构进行操作。
　　总的来说，这个策略综合考虑了
　　可靠性：blocks存储在两个不同的rack里；
　　写带宽：写操作只用经过一个网络转换器network switch；
　　读性能：可以选择从两个rack中读数据；
　　分布性：client只是将block写入本地rack一次。
　　原帖：http://datasearch.ruc.edu.cn/~boliangfeng/blog

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] 【转载】Hadoop 文件副本存放的位置策略

浏览过的版块

扫码加入运维网微信交流群