Cloudera部署Hadoop规划与安装

wsjz_01 发表于 2018-11-1 08:23:10

　　Hadoop环境规划
　　对于Hadoop来说，最主要的是两个内容，一是分布式文件系统HDFS，一是MapReduce计算模型。在分布式文件系统HDFS看来，节点分为NameNode 和DataNode，其中NameNode只有一个，DataNode可以是很多；在MapReduce计算模型看来，节点又可分为JobTracker和 TaskTracker，其中JobTracker只有一个，TaskTracker可以是很多。因此在实际的Hadoop环境中通常有两台主节点,一台作为NameNode（I/O节点？？）,一台作为JobTracker（管理节点？？）,剩下的都是从节点，同时当做DataNode和TaskTracker使用。当然也可以将NameNode和JobTracker安装在一台主节点上。由于测试机数量有限，所以在这里是让Hadoop-01做为Namenode和Jobtracker，其它主机则作为DataNode和TaskTracker（如果Hadoop环境中主机数量很多的话，还是建议将Namenode和JobTracker部署到不同的主机，以提高计算的性能）。具体规划如下：
　　HDFS:
　　Hadoop-01 NameNode
　　Hadoop-02 DataNode
　　Hadoop-03 DataNode
　　Hadoop-04 DataNode
　　Firehare-303 DataNode
　　MapReduce:
　　Hadoop-01 JobTracker
　　Hadoop-02 TaskTracker
　　Hadoop-03 TaskTracker
　　Hadoop-04 TaskTracker
　　Firehare-303 TaskTracker
　　安装
　　规划好了就开始安装Hadoop，如前言中所说使用Cloudera的Hadoop发布版安装Hadoop是十分方便的，首先当然是在每台主机上一个干净的操作系统（我用的是Ubuntu 8.04，用户设为Hadoop，其它的版本应该差不多），然后就是安装Hadoop了（这样安装的是Hadoop-0.20，也可以安装Hadoop-0.18的版本，反正安装步骤都差不多。注意，不能同时启用Hadoop-0.20和Hadoop-0.18）。由于每台机器安装步骤都一样，这里就写出了一台主机的安装步骤，主要分为以下几个步骤：
　　设置Cloudera的源
　　生成Cloudera源文件（这里采用的是Hadoop-0.20版本，源信息可能过时，最新信息请参见官方文档：http://archive.cloudera.com/docs/_apt.html ）：
　　sudo vi /etc/apt/sources.list.d/cloudera.list
　　#稳定版（Hadoop-0.18）
　　#deb http://archive.cloudera.com/debian hardy-stable contrib
　　#deb-src http://archive.cloudera.com/debian hardy-stable contrib
　　#测试版（Hadoop-0.20）
　　deb http://archive.cloudera.com/debian hardy-testing contrib
　　deb-src http://archive.cloudera.com/debian hardy-testing contrib
　　生成源的密钥：
　　sudo apt-get install curl
　　curl -s http://archive.cloudera.com/debian/archive.key | sudo apt-key add -
　　安装Hadoop
　　更新源包索引：
　　sudo apt-get update
　　sudo apt-get dist-upgrade
　　安装Hadoop：
　　sudo apt-get install hadoop-0.20 hadoop-0.20-conf-pseudo

页: [1]

运维网's Archiver

Cloudera部署Hadoop规划与安装