Hadoop中HDFS读取和写入的工作原理

ewqw · 发表于 2015-1-27 08:20:44

介绍

HDFS和HBase是Hadoop中两种主要的存储文件系统，两者适用的场景不同，HDFS适用于大文件存储，HBASE适用于大量小文件存储。

本文主要讲解HDFS文件系统中客户端是如何从Hadoop集群中读取和写入数据的，也可以说是block策略。

正文

一写入数据

　　当没有配置机架信息时，所有的机器hadoop都默认在同一个默认的机架下，名为“/default-rack”，这种情况下，任何一台datanode机器，不管物理上是否属于同一个机架，都会被认为是在同一个机架下，此时，就很容易出现之前提到的增添机架间网络负载的情况。在没有机架信息的情况下，namenode默认将所有的slaves机器全部默认为在/default-rack下

　　而当Hadoop集群中配置了机架感知信息以后，hadoop在选择三个datanode时，就会进行相应的判断：

　　1.如果上传本机不是一个datanode，而是一个客户端，那么就从所有slave机器中随机选择一台datanode作为第一个块的写入机器(datanode1)。
　注意：而此时如果上传机器本身就是一个datanode（例如mapreduce作业中task通过DFSClient向hdfs写入数据的时候），那么就将该datanode本身作为第一个块写入机器(datanode1)。

　　2.随后在datanode1所属的机架以外的另外的机架上，随机的选择一台，作为第二个block的写入datanode机器(datanode2)。

　　3.在写第三个block前，先判断是否前两个datanode是否是在同一个机架上，如果是在同一个机架，那么就尝试在另外一个机架上选择第三个datanode作为写入机器(datanode3)。而如果datanode1和datanode2没有在同一个机架上，则在datanode2所在的机架上选择一台datanode作为datanode3。

　　4.得到3个datanode的列表以后，从namenode返回该列表到DFSClient之前，会在namenode端首先根据该写入客户端跟datanode列表中每个datanode之间的“距离”由近到远进行一个排序。如果此时DFS写入端不是datanode，则选择datanode列表中的第一个排在第一位。客户端根据这个顺序有近到远的进行数据块的写入。在此，判断两个datanode之间“距离”的算法就比较关键，hadoop目前实现如下，以两个表示datanode的对象DatanodeInfo(node1,node2)为例:
　　a)首先根据node1和node2对象分别得出两个datanode在整个hdfs集群中所处的层次。这里的层次概念需要解释一下：每个datanode在hdfs集群中所处的层次结构字符串是这样描述的，假设hdfs的拓扑结构如下：

　　每个datanode都会对应自己在集群中的位置和层次，如node1的位置信息为“/rack1/datanode1”,那么它所处的层次就为2，其余类推。得到两个node的层次后，会沿着每个node所处的拓朴树中的位置向上查找，如“/rack1/datanode1”的上一级就是“/rack1”，此时两个节点之间的距离加1，两个node分别同上向上查找，直到找到共同的祖先节点位置，此时所得的距离数就用来代表两个节点之间的距离。所以，如上图所示，node1和node2之间的距离就为4.
　　5.当根据“距离”排好序的datanode节点列表返回给DFSClient以后，DFSClient便会创建BlockOutputStream，并将这次block写入pipeline中的第一个节点（最近的节点）。
　　6.写完第一个block以后，依次按照datanode列表中的次远的node进行写入，直到最后一个block写入成功，DFSClient返回成功，该block写入操作结束。
　　通过以上策略，namenode在选择数据块的写入datanode列表时，就充分考虑到了将block副本分散在不同机架下，并同时尽量的避免了之前描述的过多的网络开销。

补充：Hadoop机架的感知策略

默认情况下，hadoop的机架感知是没有被启用的。所以，在通常情况下，hadoop集群的HDFS在选机器的时候，是随机选择的，也就是说，很有可能在写数据时，hadoop将第一块数据block1写到了rack1上，然后随机的选择下将block2写入到了rack2下，此时两个rack之间产生了数据传输的流量，再接下来，在随机的情况下，又将block3重新又写回了rack1，此时，两个rack之间又产生了一次数据流量。在job处理的数据量非常的大，或者往hadoop推送的数据量非常大的时候，这种情况会造成rack之间的网络流量成倍的上升，成为性能的瓶颈，进而影响作业的性能以至于整个集群的服务。
要将hadoop机架感知的功能启用，配置非常简单，在namenode所在机器的hadoop-site.xml配置文件中配置一个选项：

1 2	<property> <name>topology.script.file.name</name> <value>/path/to/RackAware.py</value></property>

这个配置选项的value指定为一个可执行程序，通常为一个脚本，该脚本接受一个参数，输出一个值。接受的参数通常为某台datanode机器的ip地址，而输出的值通常为该ip地址对应的datanode所在的rack，例如”/rack1”。Namenode启动时，会判断该配置选项是否为空，如果非空，则表示已经用机架感知的配置，此时namenode会根据配置寻找该脚本，并在接收到每一个datanode的heartbeat时，将该datanode的ip地址作为参数传给该脚本运行，并将得到的输出作为该datanode所属的机架，保存到内存的一个map中。

至于脚本的编写，就需要将真实的网络拓朴和机架信息了解清楚后，通过该脚本能够将机器的ip地址正确的映射到相应的机架上去。一个简单的实现如下：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

#!/usr/bin/python
#-*-coding:UTF-8 -*-
import sys

rack = {"hadoopnode-176.tj":"rack1",
      "hadoopnode-178.tj":"rack1",
      "hadoopnode-179.tj":"rack1",
      "hadoopnode-180.tj":"rack1",
      "hadoopnode-186.tj":"rack2",
      "hadoopnode-187.tj":"rack2",
      "hadoopnode-188.tj":"rack2",
      "hadoopnode-190.tj":"rack2",
      "192.168.1.15":"rack1",
      "192.168.1.17":"rack1",
      "192.168.1.18":"rack1",
      "192.168.1.19":"rack1",
      "192.168.1.25":"rack2",
      "192.168.1.26":"rack2",
      "192.168.1.27":"rack2",
      "192.168.1.29":"rack2",
      }

if __name__=="__main__":
print "/" + rack.get(sys.argv[1],"rack0")

由于没有找到确切的文档说明到底是主机名还是ip地址会被传入到脚本，所以在脚本中最好兼容主机名和ip地址，如果机房架构比较复杂的话，脚本可以返回如：/dc1/rack1 类似的字符串。

二读取数据

　　我们看一下Hadoop集群配置中如何读取数据。当对某个文件的某个block进行读取的时候，hadoop采取的策略也是一样：

　　1.首先得到这个block所在的datanode的列表，有几个副本数该列表就有几个datanode。

　　2.根据列表中datanode距离读取端的距离进行从小到大的排序：
　　a)首先查找本地是否存在该block的副本，如果存在，则将本地datanode作为第一个读取该block的datanode
　　b)然后查找本地的同一个rack下是否有保存了该block副本的datanode
　　c)最后如果都没有找到，或者读取数据的node本身不是datanode节点，则返回datanode列表的一个随机顺序。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] Hadoop中HDFS读取和写入的工作原理

相关帖子

浏览过的版块

扫码加入运维网微信交流群