hdfs的伪分布式的工作原理

ewrQ · 发表于 2015-2-26 08:35:58

【简介】1、hdfs架构

hdfs伪分布式架构只需要有三个部分即可，NameNode是老大，DataNode是小弟，Secondary NameNode是助理。

客户端Client跟NameNode通信（RPC通信机制，后面会介绍），Secondary NameNode负责数据的同步。

2、元数据的存储细节

NameNode的元数据是存放在内存当中的。

数据解读：有一个文件/test/a.log，保存了3个副本，一共被切分成了两块，第一块分别存放在了那几个地方，第二块存放在了那几个地方。
客户端需要下载该文件的时候，首先查询NameNode的元数据，知道该文件分成了哪几块，首先去h0机器下载blk_1，然后去h0下载blk_2，如果h0的blk_2损坏了（如何判断损坏?校验和机制），那么会根据路由器的就近原则去h2下载blk_2,以此类推，将这个文件下载下来。

【NameNode的工作原理】
NameNode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表（元素据）。接收用户的操作请求。
NameNode的文件包括三种，这些文件是保存在linux的文件系统中。：

（1）fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息，有Secondary NameNode负责同步，某一时段，说明并不能实时同步。
（2）edits:操作日志文件。
（3）fstime:保存最近一次checkpoint的时间，还原点。

1、NameNode的原理
Namenode始终在内存中保存metedata，用于处理“读请求”
（1）到有“写请求”到来时，namenode会首先写editlog到磁盘，即向edits文件中写日志，成功返回后，才会修改内存，并且向客户端返回
（2）Hadoop会维护一个fsimage文件，也就是namenode中metedata的镜像，但是fsimage不会随时与namenode内存中的metedata保持一致，而是每隔一段时间通过Secondary namenode将fsimage合并edits文件来更新内容。

2、Secondary NameNode的原理

Secondary NameNode是HA（高可靠行）的一个解决方案。但不支持热备（实时同步）。配置即可。
执行过程：从NameNode上下载元数据信息（fsimage,edits），然后把二者合并，生成新的fsimage，在本地保存，并将其推送到NameNode，替换旧的fsimage.
默认在安装在NameNode节点上，但这样...不安全！

3、Secondary NameNode的工作流程

（1）secondary通知namenode切换edits文件，生成edits.new
（2）NameNode复制edits和fsimage文件，传递给secondary从namenode(通过http)
（3）secondary将fsimage载入内存，然后开始合并edits，生成fsimage.ckpt
（4）secondary通过http post将fsimage.ckpt发送给NameNode
（5）NameNode将fsimage替换为fsimage.ckpt
（6）NameNode将eidts替换为edits.new
(7)等待下一次的同步（checkpoint）

何时进行checkpoint？两种情况下会进行checkpoint：
（1）fs.checkpoint.period 指定两次checkpoint的最大时间间隔，默认3600秒。即每隔3600秒checkpoint一次。
（2）fs.checkpoint.size规定了edits文件的最大值，一旦超过这个值则强制checkpoint，不管是否到达最大时间间隔。默认大小是64M。

【DateNode的工作原理】
（1）提供真实文件数据的存储服务。
（2）文件块（block）：最基本的存储单位。对于文件内容而言，一个文件的长度大小是size，那么从文件的０偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个Block。HDFS默认Block大小是128MB，以一个256MB文件，共有256/128=2个Block.
（3）不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间
（4）Replication。多复本。默认是三个。
【总结】
虽然伪分布式现在不再用，但是这些概念和思想还是非常重要的。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] hdfs的伪分布式的工作原理

相关帖子

浏览过的版块

扫码加入运维网微信交流群