设为首页 收藏本站
查看: 995|回复: 0

[经验分享] Hadoop集群部署实战

[复制链接]

尚未签到

发表于 2018-10-28 14:33:05 | 显示全部楼层 |阅读模式
Hadoop 集群搭建
目录

  •   集群简介
  •   服务器准备
  •   环境和服务器设置
  •   JDK环境安装
  •   Hadoop安装部署
  •   启动集群
  •   测试
集群简介
  在进行集群搭建前,我们需要大概知道搭建的集群都是些啥玩意。
  HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者在逻辑上分离,但物理上常在一起(啥意思?就是说:HDFS集群和YARN集群,他们俩是两个不同的玩意,但很多时候都会部署在同一台物理机器上)

  •   HDFS集群:负责海量数据的存储,集群中的角色主要有
  •   NameNode (DataNode的管理者,负责保存元数据)
  •   DataNode (负责保存具体的数据内容)
  •   YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有
  •   ResourceManager (NodeManager的管理者,负责NodeManager的调用等)
  •   NodeManager (当ResourceManager进行调用时,负责调用本地的运算资源等)
  那mapreduce是什么呢?它其实是集群中一个应用程序开发包,放在yarn集群上面跑。
搭建构思
  本集群搭建案例,以3节点为例进行搭建,角色分配如下:
服务器角色1角色2角色3note1NameNodeResourceManagernote2DataNodeNodeManagerSecondaryNameNodenote3DataNodeNodeManager  解析:
  note1服务器担任的角色为NameNode和ResourceManager(即note1服务器为HDFS集群的NameNode节点,同时也是YARN集群的ResourceManager节点)
  note2 服务器担任的角色为 DataNode 、 NodeManager 和 SecondaryNameNode(同上)
  note3 服务器担任的角色为 DataNode 和 NodeManager(同上)
  (ps:本来节点名字想打node的,错打成note,懒得改.)
服务器准备
  本案例使用虚拟机服务器来搭建HADOOP集群,所用软件及版本:

  •   Vmware12.0
  •   Centos6.5 64bit
  下载安装过程就省略啦,网上链接和教程一大把。
环境和服务器设置
  在进行网络准备的前提,是安装Vmware,新建三台虚拟机。
  注:以下操作在root用户下操作。

  •   配置虚拟机桥接方式,采用NAT方式联网
  •   配置Linux的网络配置文件,具体设置步骤如下:
  •   1、配置/etc/sysconfig/network-scripts/ifcfg-eth0
    `shell> su root #切换为root用户`  
    `shell> vi /etc/sysconfig/network-scripts/ifcfg-eth0 #编辑配置文件`
      

      
    配置内容如下(修改下面有值的项,没有的加上):
      
    > DEVICE="..."
      
    > BOOTPROTO="static" #设置为静态IP
      
    > HWADDR="....."
      
    > IPV6INIT="..."
      
    > NM_CONTROLLED="...."
      
    > ONBOOT="yes"
      
    > TYPE="......"
      
    > UUID=".........."
      
    > IPADDR="192.168.88.3" #IP地址
      
    > NETMASK="255.255.255.0" # 子网掩码
      
    > GATEWAY="192.168.88.1" #网关地址
  •   2、重启网络服务,使配置生效。
    `shell> service network restart # 重启网络服务`
  •   添加hadoop用户并添加sudo权限
      shell> useradd hadoop #添加用户hadoop
      shell> passwd hadoop #设置用户hadoop的密码
      shell> chmod u+w /etc/sudoers # 添加写权限
      shell> vi /etc/sudoers
      进入编辑模式,找到这一 行:"root ALL=(ALL) ALL"在起下面添加"hadoop ALL=(ALL) ALL",然后保存退出。
      shell> chmod u-w /etc/sudoers #撤销写权限
  •   设置服务器时间同步
      date -s "2016-08-18 12:21:00
  •   修改主机名
      shell> vi /etc/sysconfig/network
      配置内容如下:
      NETWORKING=yes
      HOSTNAME=note1

  •   配置内网域名映射
      配置/etc/hosts配置文件:
      shell> vi /etc/hosts
      配置内容如下:
      192.168.88.3 note1
      192.168.88.4 note2
      192.168.88.5 note3

  •   配置ssh免密登陆
      生成ssh免登陆密钥
      shell> cd ~/.ssh #进入到我的home目录
      shell> ssh-keygen -t rsa #(四个回车)
      执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)
      将公钥拷贝到要免密登陆的目标机器上
      shell> ssh-copy-id localhost
  •   配置防火墙
      因为需要进行免密登录,所以要对防火墙进行关闭。
      shell> service iptables status #查看防火墙状态
      shell> service iptables stop #关闭防火墙
      shell> chkconfig iptables --list #查看防火墙开机启动状态
      shell> chkconfig iptables off #关闭防火墙开机启动
      shell> reboot # 重启
JDK环境安装

  •   解压jdk
      创建一个目录app来放置解压后的文件
      shell> mkdir /home/hadoop/app #创建文件夹
      shell> tar -zxvf jdk-7u55-linux-i586.tar.gz -C /home/hadoop/app #解压
  •   配置环境变量
      解压完毕后需要将java添加到环境变量中,并使其生效
      shell> vi /etc/profile
      在文件最后添加一下内容:
      export JAVA_HOME=/home/hadoop/app/jdk-7u_65-i585
      export PATH=$PATH:$JAVA_HOME/bin
      刷新配置,使其生效
      shell> source /etc/profile
Hadoop安装部署

  •   解压Hadoop安装包
      解压到app目录下
      shell> tar -zxvf hadoop-2.7.3.tar.gz -C /home/hadoop/app #解压
  •   修改配置文件
      配置文件都放在解压目录下的etc/hadoop/目录下(我这里的目录为/home/hadoop/app/hadoop-2.7.3/etc/hadoop/),但我们只对一部分的项进行配置,没有配置的项都将使用默认值。配置项是以xml的格式来进行的,最简化配置如下:
  •   配置hadoop-env.sh
      shell> vi hadoop-env.sh
      在hadoop-env.sh配置文件中加入以下内容:
      export JAVA_HOME=/home/hadoop/apps/jdk1.7.0_51 # JDK路径

  •   配置core-site.xml
      shell> vi core-site.xml
      在core-site.xml配置文件中加入以下内容:
      
      `` `fs.defaultFS` `hdfs://note1:9000` ``
      
      hadoop.tmp.dir
      /home/HADOOP/apps/hadoop-2.6.1/tmp
      
      

  •   配置hdfs-site.xml
      在用户目录下(/home/hadoop)创建一个data目录,用来存放HDFS产生的数据。然后对hdfs-site.xml进行配置
      shell> mkdir /home/hadoop/data
      shell> vi hdfs-site.xml
      在hdfs-site.xml配置文件中加入以下内容:
      
      `` `dfs.namenode.name.dir` `/home/hadoop/data/name` ``
      
      dfs.datanode.data.dir
      /home/hadoop/data/data
      
      `` `dfs.replication` `3` ``
      
      dfs.secondary.http.address
      note2:50090
      
      

  •   配置mapred-site.xml
      shell> vi mapred-site.xml
      在mapred-site.xml配置文件中加入以下内容:
      
      ``
      
      mapreduce.framework.name
      yarn
      
      

  •   配置yarn-site.xml
      shell> vi yarn-site.xml
      在yarn-site.xml配置文件中加入以下内容:
      
      `` `yarn.resourcemanager.hostname` `hadoop01` ``
      
      yarn.nodemanager.aux-services
      mapreduce_shuffle
      
      

  •   配置salves
      salves文件配置的内容是集群的主机地址
      shell> vi salves
      在salves配置文件中加入以下内容:
      note1 #主机名,通过/etc/hosts文件映射为IP地址
      note2
      note3

  注意:以上所有配置(除了免密登录外,免密登录只需要在NameNode节点配置即可)都要在所有节点服务器进行配置。
启动集群

  •   初始化HDFS集群
      bin/hadoop namenode -format
  •   启动HDFS集群
      sbin/start-dfs.sh
  •   启动YARN集群
      sbin/start-yarn.sh
  当然,你也可以使用sbin/start-all.sh这个命令同时把HDFS和YARN集群启动,但是在做实验时不建议这样做,因为这样启动出现问题就不好定位了。在实际生产中,如果集群数量比较大,可以使用脚本进行启动。
  注意:一般情况下HDFS和YARN集群的主节点(NameNode和ResourceManager物理上都是在同一服务器的)使用命令进行启动即可,其他节点会被主节点通过免密登录自动启动的。
测试
  1、启动HDFS集群成功,通过jps命令查看,进程2521 为NameNode进程
DSC0000.jpg

  启动HDFS集群
  2、启动Yarn集群成功,通过jps命令查看,进程2803位 ResourceManager进程
DSC0001.jpg

  启动yarn集群
  3、在浏览器查看HDFS集群(访问主节点的50070端口即可),浏览器中输入192.168.88.3:50070
DSC0002.jpg

  HDFS集群信息
  4、停止Hadoop集群,可以分别停止(分别使用stop-dfs.sh和stop-yarn.sh),当然你也可以一步停止集群(使用stop-all.sh)
DSC0003.jpg

  停止集群
  至此,Hadoop集群搭建完毕。



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-627594-1-1.html 上篇帖子: hadoop学习系列(1.大数据典型特性与分布式开发难点) 下篇帖子: 基于ZooKeeper的Hadoop HA集群搭建
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表