2018-07-20期 Hadoop HDFS SecondaryNamenode功能

jjfjjj · 发表于 2018-10-28 11:20:36

　　NameNode主要是用来保存HDFS的元数据信息，比如命名空间信息，块信息等等。当它运行的时候，这些信息是存在内存中的。但是这些信息也可以持久化到磁盘上。如下图所示：

　　上图展示来NameNode怎么把元数据保存到磁盘上，这里有两个不同的文件：
　　fsimage：它是NameNode启动时对整个文件系统的快照。
　　edits：它是在NameNode启动后，对文件系统的改动序列。
　　只有在NameNode重启时，edits才会合并到fsimage文件中，从而得到一个文件系统的最新快照。但是在生产环境集群中的NameNode是很少重启的，这意味者当NameNode运行来很长时间后，edits文件会变的很大。在这种情况下就会出现下面这些问题：
　　edits文件会变的很大，如何去管理这个文件？
　　NameNode的重启会花费很长的时间，因为有很多改动要合并到fsimage文件上。
　　如果NameNode宕掉了，那我们就丢失了很多改动，因为此时的fsimage文件时间戳比较旧。
　　因此为了克服这个问题，我们需要一个易于管理的机制来帮助我们减小edits文件的大小和得到一个最新的fsimage文件，这样也会减小在NameNode上的压力。而Secondary NameNode就是为了帮助解决上述问题提出的，它的职责是合并NameNode的edits到fsimage文件中。如图所示：

　　上图的工作原理，我这里也赘述下：
　　（1）首先，它定时到NameNode去获取edits，并更新到fsimage上。一旦它有新的fsimage文件，它将其拷贝回NameNode上。
　　（2）NameNode在下次重启时会使用这个新的fsimage文件，从而减少重启的时间。
　　Secondary NameNode的整个目的在HDFS中提供一个Checkpoint Node，通过阅读官方文档可以清晰的知道，它只是NameNode的一个助手节点，这也是它在社区内被认为是Checkpoint Node的原因。
　　现在，我们明白Secondary NameNode所做的是在文件系统这设置一个Checkpoint来帮助NameNode更好的工作；它不是取代NameNode，也不是NameNode的备份。　　
　　Secondary NameNode的检查点进程启动，是由两个配置参数控制的：
　　fs.checkpoint.period，指定连续两次检查点的最大时间间隔，默认值是1小时。
　　fs.checkpoint.size，定义了edits日志文件的最大值，一旦超过这个值会导致强制执行检查点（即使没到检查点的最大时间间隔）。默认值是64MB。
　　如果NameNode上除了最新的检查点以外，所有的其他的历史镜像和edits文件都丢失了， NameNode可以引入这个最新的检查点。以下操作可以实现这个功能：
　　在配置参数dfs.name.dir指定的位置建立一个空文件夹；
　　把检查点目录的位置赋值给配置参数fs.checkpoint.dir；
　　启动NameNode，并加上-importCheckpoint。
　　NameNode会从fs.checkpoint.dir目录读取检查点，并把它保存在dfs.name.dir目录下。如果dfs.name.dir目录下有合法的镜像文件，NameNode会启动失败。 NameNode会检查fs.checkpoint.dir目录下镜像文件的一致性，但是不会去改动它。
　　注：关于NameNode是什么时候将改动写到edit logs中的？这个操作实际上是由DataNode的写操作触发的，当我们往DataNode写文件时，DataNode会跟NameNode通信，告诉NameNode什么文件的第几个block放在它那里，NameNode这个时候会将这些元数据信息写到edit logs文件中。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] 2018-07-20期 Hadoop HDFS SecondaryNamenode功能

扫码加入运维网微信交流群