Hadoop权威指南摘录---1

jiaxp · 发表于 2018-10-28 12:42:55

　　1、为何不用RAID
　　HDFS所提供的节点间数据复制技术已可满足数据备份需求，无需使用RAID冗余机制。
　　RAID 0速度比JBOD（Just a Bunch Of Disks）慢，JBOD在所有磁盘之间循环调度HDFS块。RAID 0的读写操作受限于磁盘阵列中最慢盘片的速度，而JBOD的磁盘操作均独立，因而篇平均读写速度高于最慢盘片的读写速度。
　　2、服务是否可以放在一台服务器上
　　对于一个小集群（几十个节点）而言，在一台master机器上同时运行namenode和jobtracker通常没有问题（需确保至少一份namenode的元数据被另存在远程文件系统中）。但是随着HDFS中的集群和文件数不断增长，namenode需要使用更多的内存，那么namenode和jobtracker最好分别放到不同的机器中。
　　辅助namenode可以和namenode一起运行在同一台机器之中，但是同样由于内存使用的原因（辅助namenode和主namenode的内存需求相同），二者最好运行在独立的服务器上；对于大规模集群来说更是如此。
　　3、hadoop配置文件
　　hadoop集群的每个节点各自保存自己的配置文件，并没有放在一个单独的全局位置，由管理员去完成配置文件的同步。hadoop提供一个基本工具来进行同步，即rsync。此外，dsh或pdsh等并行shell工具也可完成该任务。
　　hadoop也支持为所有的master机器和worker机器采用同一套配置文件。这个做法的最大优势就是简单。但是，这种一体适用的配置模型并不适合某些集群。以扩展集群为例，当试图为集群添加新机器，且新机器的硬件规格与现有机器不同时，则需要新建一套配置文件，以充分利用新硬件的额外资源。
　　在这种情况下，需要引入“机器类”的概念，为每一个机器类维护单独的配置文件。hadoop没有提供这个操作的工具，需要借助外部工具来执行该配置操作。
　　4、独立安装MapReduce和HDFS的好处
　　分开两个服务的前提条件是兼容性限制放宽，这样有利于升级，例如，可以一边便捷的升级MapReduce（可能打一个补丁），一边仍然运行HDFS。
　　需要注意的是即使独立安装了HDFS和MapReduce，它们任然可以共享配置信息，其方法是使用--config选项（启动守护进程时），指向同一个配置目录。鉴于它们所产生的日志文件的名称不同，不会导致冲突，因此任然可以将日志输出到同一个目录中。
　　5、masters节点
　　为了运行hadoop内置脚本来操作集群服务和守护进程的启停，需要预先知道集群内的所有机器。两个文件可以达成这个目标，即masers和slaves。各文件逐行记录一些机器的名称或IP地址。masters文件的名称有点误导人，它主要记录的是拟运行辅助namenode的所有机器。
　　namenode在内存中保存整个命名空间中的所有元数据和块元数据，其内存需求很大。辅助namenode在大部分时间里是空闲的，但是它在创建检查点时的内存需求与namenode是差不多的。一旦文件系统包含大量文件，单台机器的物理内存便无法同时运行主namenode和辅助namenode。
　　辅助namenode保存一份最新的检查点，记录它创建的文件系统的元数据。将这些历史信息备份到其他节点上，有助于数据丢失（或系统崩溃）的情况下恢复namenode的元数据文件。
　　在一个运行大量MapReduce作业的高负载集群上，jobtracker会占用大量内存和CPU资源，因此它最好运行在一个专用节点上。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] Hadoop权威指南摘录---1

扫码加入运维网微信交流群