Cloudera部署Hadoop规划与安装
Hadoop环境规划对于Hadoop来说,最主要的是两个内容,一是分布式文件系统HDFS,一是MapReduce计算模型。在分布式文件系统HDFS看来,节点分为NameNode 和DataNode,其中NameNode只有一个,DataNode可以是很多;在MapReduce计算模型看来,节点又可分为JobTracker和 TaskTracker,其中JobTracker只有一个,TaskTracker可以是很多。因此在实际的Hadoop环境中通常有两台主节点,一台作为NameNode(I/O节点??),一台作为JobTracker(管理节点??),剩下的都是从节点,同时当做DataNode和TaskTracker使用。当然也可以将NameNode和JobTracker安装在一台主节点上。由于测试机数量有限,所以在这里是让Hadoop-01做为Namenode和Jobtracker,其它主机则作为DataNode和TaskTracker(如果Hadoop环境中主机数量很多的话,还是建议将Namenode和JobTracker部署到不同的主机,以提高计算的性能)。具体规划如下:
HDFS:
Hadoop-01 NameNode
Hadoop-02 DataNode
Hadoop-03 DataNode
Hadoop-04 DataNode
Firehare-303 DataNode
MapReduce:
Hadoop-01 JobTracker
Hadoop-02 TaskTracker
Hadoop-03 TaskTracker
Hadoop-04 TaskTracker
Firehare-303 TaskTracker
安装
规划好了就开始安装Hadoop,如前言中所说使用Cloudera的Hadoop发布版安装Hadoop是十分方便的,首先当然是在每台主机上一个干净的操作系统(我用的是Ubuntu 8.04,用户设为Hadoop,其它的版本应该差不多),然后就是安装Hadoop了(这样安装的是Hadoop-0.20,也可以安装Hadoop-0.18的版本,反正安装步骤都差不多。注意,不能同时启用Hadoop-0.20和Hadoop-0.18)。由于每台机器安装步骤都一样,这里就写出了一台主机的安装步骤,主要分为以下几个步骤:
设置Cloudera的源
生成Cloudera源文件(这里采用的是Hadoop-0.20版本,源信息可能过时,最新信息请参见官方文档:http://archive.cloudera.com/docs/_apt.html ):
sudo vi /etc/apt/sources.list.d/cloudera.list
#稳定版(Hadoop-0.18)
#deb http://archive.cloudera.com/debian hardy-stable contrib
#deb-src http://archive.cloudera.com/debian hardy-stable contrib
#测试版(Hadoop-0.20)
deb http://archive.cloudera.com/debian hardy-testing contrib
deb-src http://archive.cloudera.com/debian hardy-testing contrib
生成源的密钥:
sudo apt-get install curl
curl -s http://archive.cloudera.com/debian/archive.key | sudo apt-key add -
安装Hadoop
更新源包索引:
sudo apt-get update
sudo apt-get dist-upgrade
安装Hadoop:
sudo apt-get install hadoop-0.20 hadoop-0.20-conf-pseudo
页:
[1]