wsjz_01 发表于 2018-11-1 08:23:10

Cloudera部署Hadoop规划与安装

  Hadoop环境规划
  对于Hadoop来说,最主要的是两个内容,一是分布式文件系统HDFS,一是MapReduce计算模型。在分布式文件系统HDFS看来,节点分为NameNode 和DataNode,其中NameNode只有一个,DataNode可以是很多;在MapReduce计算模型看来,节点又可分为JobTracker和 TaskTracker,其中JobTracker只有一个,TaskTracker可以是很多。因此在实际的Hadoop环境中通常有两台主节点,一台作为NameNode(I/O节点??),一台作为JobTracker(管理节点??),剩下的都是从节点,同时当做DataNode和TaskTracker使用。当然也可以将NameNode和JobTracker安装在一台主节点上。由于测试机数量有限,所以在这里是让Hadoop-01做为Namenode和Jobtracker,其它主机则作为DataNode和TaskTracker(如果Hadoop环境中主机数量很多的话,还是建议将Namenode和JobTracker部署到不同的主机,以提高计算的性能)。具体规划如下:
  HDFS:
  Hadoop-01 NameNode
  Hadoop-02 DataNode
  Hadoop-03 DataNode
  Hadoop-04 DataNode
  Firehare-303 DataNode
  MapReduce:
  Hadoop-01 JobTracker
  Hadoop-02 TaskTracker
  Hadoop-03 TaskTracker
  Hadoop-04 TaskTracker
  Firehare-303 TaskTracker
  安装
  规划好了就开始安装Hadoop,如前言中所说使用Cloudera的Hadoop发布版安装Hadoop是十分方便的,首先当然是在每台主机上一个干净的操作系统(我用的是Ubuntu 8.04,用户设为Hadoop,其它的版本应该差不多),然后就是安装Hadoop了(这样安装的是Hadoop-0.20,也可以安装Hadoop-0.18的版本,反正安装步骤都差不多。注意,不能同时启用Hadoop-0.20和Hadoop-0.18)。由于每台机器安装步骤都一样,这里就写出了一台主机的安装步骤,主要分为以下几个步骤:
  设置Cloudera的源
  生成Cloudera源文件(这里采用的是Hadoop-0.20版本,源信息可能过时,最新信息请参见官方文档:http://archive.cloudera.com/docs/_apt.html ):
  sudo vi /etc/apt/sources.list.d/cloudera.list
  #稳定版(Hadoop-0.18)
  #deb http://archive.cloudera.com/debian hardy-stable contrib
  #deb-src http://archive.cloudera.com/debian hardy-stable contrib
  #测试版(Hadoop-0.20)
  deb http://archive.cloudera.com/debian hardy-testing contrib
  deb-src http://archive.cloudera.com/debian hardy-testing contrib
  生成源的密钥:
  sudo apt-get install curl
  curl -s http://archive.cloudera.com/debian/archive.key | sudo apt-key add -
  安装Hadoop
  更新源包索引:
  sudo apt-get update
  sudo apt-get dist-upgrade
  安装Hadoop:
  sudo apt-get install hadoop-0.20 hadoop-0.20-conf-pseudo

页: [1]
查看完整版本: Cloudera部署Hadoop规划与安装