hadoop-集群管理（1）——配置文件

qq78707 · 发表于 2015-7-12 09:19:18

　　1. 配置文件列表如下：
　　[tianyc@Route conf]$ pwd
/home/tianyc/hadoop-1.0.4/conf
[tianyc@Route conf]$ ll
总用量 76
-rw-rw-r--. 1 tianyc NEU 7457 3月 6 10:38 capacity-scheduler.xml
-rw-rw-r--. 1 tianyc NEU  535 3月 6 10:38 configuration.xsl
-rw-rw-r--. 1 tianyc NEU  371 3月 6 14:26 core-site.xml
-rw-rw-r--. 1 tianyc NEU  327 3月 6 10:38 fair-scheduler.xml
-rw-rw-r--. 1 tianyc NEU 2233 3月 6 10:38 hadoop-env.sh
-rw-rw-r--. 1 tianyc NEU 1488 3月 6 10:38 hadoop-metrics2.properties
-rw-rw-r--. 1 tianyc NEU 4644 3月 6 10:38 hadoop-policy.xml
-rw-rw-r--. 1 tianyc NEU  258 3月 6 10:38 hdfs-site.xml
-rw-rw-r--. 1 tianyc NEU 4441 3月 6 10:38 log4j.properties
-rw-rw-r--. 1 tianyc NEU 2033 3月 6 10:38 mapred-queue-acls.xml
-rw-rw-r--. 1 tianyc NEU  270 3月 7 14:45 mapred-site.xml
-rw-rw-r--. 1 tianyc NEU 19 3月 7 11:52 masters
-rw-rw-r--. 1 tianyc NEU 19 3月 6 10:38 slaves
-rw-rw-r--. 1 tianyc NEU 1243 3月 6 10:38 ssl-client.xml.example
-rw-rw-r--. 1 tianyc NEU 1195 3月 6 10:38 ssl-server.xml.example
-rw-rw-r--. 1 tianyc NEU  382 3月 6 10:38 taskcontroller.cfg
　　2. 常用配置文件：

hadoop-env.sh：记录脚本要用的环境变量。
core-site.xml：Hadoop核心配置项
hdfs-site.xml：Hadoop守护进程配置项，例如namenode，secondarynamenode和datanode等。
mapred-site.xml：MapReduce守护进程配置项，包括jobtracker和tasktracker。
master：运行secondarynamenode（而不是namenode）的机器列表（每行一个）。只在namenode或jobtracker节点上使用，无需同步到各节点。
slave：运行datanode和tasktracker的机器列表（每行一个）。只在namenode或jobtracker节点上使用，无需同步到各节点。

　　3. 配置管理
　　hadoop支持为所有的节点采用同一套配置文件，这样管理会变得非常简单，不过这对于某些集群来说并不适合。例如在扩展集群时，如果新机器的硬件和现有机器不同，则需要为新机器创建一套新的配置文件，以充分利用新硬件资源。所以，非常推荐在每个节点保存一套配置文件，并由管理员完成这些配置文件的同步工作。hadoop提供了一个基本工具来进行同步配置，即rsync。
　　这种情况下，需要引入“机器类”的概念，为不同的机器类分别维护一套配置文件。不过hadoop并没有提供执行这个操作的工具，需要借助外部工具，例如Chef,Puppet,cfengine和bcfg2等。
　　4. 控制脚本

start-dfs.sh：在本地节点启动namenode，在slave文件指定的每个节点启动datanode，在master文件指定的每个节点启动secondarynamenode
start-mapred.sh：在本地节点启动jobtracker，在slave文件指定的每个节点启动tasktracker。
start-all.sh：依次调用start-dfs.sh和start-mapred.sh
stop-dfs.sh/stop-mapred.sh/stop-all.sh：前面的start脚本对应的关闭脚本。
hadoop-daemon.sh：上述脚本调用它来执行启动和终止hadoop守护进程。如果用户需要从其他系统或自己编写脚本控制hadoop守护进程，可以调用它。
hadoop-daemons.sh：用于在多个主机上启动同一hadoop守护进程。

　　5. 守护进程管理
　　对于小型集群（几十个节点），可以将namenode、secondarynamenode、jobtracker放到单独一台机器上，但对于大型集群，最好分别放到不同的机器上。

namenode：在内存中保存整个命名空间的所有文件和块元数据，它的内存需求很大。
secondnamenode：保存一份最新的检查点，记录文件系统的元数据，有助于在数据丢失或系统崩溃时恢复namenode的元数据；它在大多时候空闲，但它创建检查时的内存需求和namenode差不多。一旦文件系统包含大量文件，单台主机可能无法同时运行namenode和secondarynamenode。
jobtracker：在一个运行大量mapreduce作业的高负载集群上，jobtracker会使用大量内存和CPU资源，因此它最好运行在一个专用节点上。

　　HDFS控制脚本需要在namenode机器上运行；mapreduce控制脚本需要在jobtracker机器上运行。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] hadoop-集群管理（1）——配置文件

浏览过的版块

扫码加入运维网微信交流群