设为首页 收藏本站
查看: 1873|回复: 0

[经验分享] 用Docker在一台笔记本电脑上搭建一个具有10个节点7种角色的Hadoop集群(下)-搭建Hadoop集群

[复制链接]

尚未签到

发表于 2017-12-5 20:35:46 | 显示全部楼层 |阅读模式
  上篇:用Docker在一台笔记本电脑上搭建一个具有10个节点7种角色的Hadoop集群(上)-快速上手Docker
  上篇介绍了快速上手Docker部分,下面接着介绍搭建Hadoop集群部分。

六、搭建Hadoop伪分布模式
  我们先用前面创建的这个容器来搭建Hadoop伪分布模式做测试,测试成功后再搭建完全分布式集群。
1.SSH
这个centos容器可以看做是一个非常精简的系统,很多功能没有,需要自己安装。
Hadoop需要SSH,但容器没有自带,需要我们安装。
①安装SSH



# yum -y install openssh-clients openssh-server
DSC0000.png

DSC0001.png
②生成3个key文件




# ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key
一路回车
DSC0002.png




# ssh-keygen -t ecdsa -f /etc/ssh/ssh_host_ecdsa_key
一路回车
DSC0003.png




# ssh-keygen -t ed25519 -f /etc/ssh/ssh_host_ed25519_key
一路回车
DSC0004.png
③启动sshd




# /usr/sbin/sshd
DSC0005.png
④修改root密码
因为默认的密码不知道,我们重新设置一下。




# passwd root
DSC0006.png
⑤设置ssh免密登录到本机




# ssh-keygen
一路回车
DSC0007.png




# ssh-copy-id localhost
输入密码
DSC0008.png




# ssh localhost
  免密登录成功
DSC0009.png




# exit
  退回到刚才的shell中。
DSC00010.png

  
2.which
运行hadoop需要which命令,同样容器没有自带,需要我们安装。



# yum -y install which
DSC00011.png

DSC00012.png

  
3.文件复制
下面我们将已经提前准备好的JDK和Hadoop从宿主机上复制到容器中。注意,复制操作要在Docker宿主机上进行。



$ docker cp /home/chengyujia/jdk1.7.0_80/ pseudo-distributed:/root/
$ docker cp /home/chengyujia/hadoop-2.7.3/ pseudo-distributed:/root/
  在容器中可以看到JDK和Hadoop已复制到位。
DSC00013.png
4.配置环境变量并在容器启动时启动sshd
在/etc/profile.d中新建一个run.sh文件
在run.sh文件中写入下面6行内容:




export JAVA_HOME=/root/jdk1.7.0_80
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/root/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
/usr/sbin/sshd
DSC00014.png

  用exit命令退出容器,重新启动并进入容器,上面配置的环境变量会生效,sshd也会启动。
DSC00015.png

  
5.hadoop伪分布式配置
①配置hadoop-env.sh



将export JAVA_HOME=${JAVA_HOME}中的${JAVA_HOME}替换为具体路径,这里为export JAVA_HOME=/root/jdk1.7.0_80。
  ②配置core-site.xml



<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
  ③配置hdfs-site.xml



<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
  ④配置mapred-site.xml



<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
  ⑤配置yarn-site.xml



<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
  
6.启动伪分布集群并运行wordcount示例程序
①准备测试数据
新建一个input文件夹,在这个文件夹中新建一个test.txt文件,里面随便写点单词,然后将该文件多复制几份,我这里复制了5份。
DSC00016.png
②格式化namenode




# hdfs namenode -format
  ③启动HDFS



# start-dfs.sh
  ④启动YARN



# start-yarn.sh
  ⑤查看相关进程是否都启动



# jps
  如有以下5个进程,说明启动成功。



DataNode
NodeManager
NameNode
SecondaryNameNode
ResourceManager
  ⑥将测试数据复制到HDFS中



# hdfs dfs -put /root/input /
DSC00017.png
⑦运行wordcount示例程序




# hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output
  ⑧查看输出结果



# hdfs dfs -cat /output/part-r-00000
DSC00018.png
从截图可以看出输出正确。伪分布式测试完毕。


七、搭建Hadoop完全分布式集群
  1.集群规划



1个NameNode节点
1个SecondaryNameNode节点
1个ResourceManager节点
1个JobHistory节点
5个Slave节点
1个Client节点
  其中Slave节点包含DataNode和NodeManager两种角色。
Client节点是用来操作的节点,所有操作都尽量在这个节点上进行。
以上共10个节点,7种角色。
2.将上面的伪分布式容器打包成镜像
理论上,我们只要将上面的伪分布式容器复制10份,然后改改配置文件就行了。但是Docker容器不能直接复制,需要先打包成镜像,然后用这个镜像生成10个新的容器。
命令如下:



$ docker commit -a "成宇佳" -m "Hadoop在centos上搭建的伪分布模式。" pseudo-distributed hadoop-centos:v1
  -a 表示作者。
-m 表示对该镜像的说明。
pseudo-distributed 被打包容器的名称
hadoop-centos:v1 生成镜像的名称及版本
需要知道的是,因为这个被打包的容器是通过centos镜像创建的,所以由该容器打包成的新镜像也包含了centos镜像。
DSC00019.png
3.创建网络




$ docker network create hadoop_nw
  这里新建了一个叫hadoop_nw的网络,后面将10个Hadoop节点容器都加入到该网络,就能相互间通信了。而且不需要配置hosts文件,直接通过容器名称即可访问。



$ docker network ls
  通过该命令可以查看所有的网络,除了我们刚创建的hadoop_nw网络,其它都是安装Docker时自动生成的,在本文中不用管它们。
DSC00020.png
4.用新生成的镜像创建10个容器




$ docker run -itd --network hadoop_nw -h namenode --name namenode -p 50070:50070 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h secondarynamenode --name secondarynamenode hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h resourcemanager --name resourcemanager -p 8088:8088 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h jobhistory --name jobhistory -p 19888:19888 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h slave1 --name slave1 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h slave2 --name slave2 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h slave3 --name slave3 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h slave4 --name slave4 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h slave5 --name slave5 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h client --name client hadoop-centos:v1
  -itd     表示打开终端但不进入
--network  表示加入到哪个网络
-p      表示端口映射
从上面可以看到namenode、resourcemanager和jobhistory这3个节点做了端口映射。端口映射的作用是将Docker宿主机的某个端口映射到容器的某个端口上,这样我们通过访问Docker宿主机的这个端口就能间接访问到相应的容器端口了。就像从外网访问内网中的某台机器一样。我们在后面通过浏览器查看集群信息的时候会用到。
DSC00021.png
5.修改Hadoop配置文件
我们在client节点修改,然后复制到其它节点。
①配置core-site.xml




<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://namenode:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/root/hadoop-2.7.3/data</value>
</property>
</configuration>
  ②配置hdfs-site.xml



<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>secondarynamenode:50090</value>
</property>
</configuration>
  ③配置mapred-site.xml



<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>jobhistory:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>jobhistory:19888</value>
</property>
</configuration>
  ④配置yarn-site.xml



<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>resourcemanager</value>
</property>
</configuration>
  ⑤配置slaves文件



slave1
slave2
slave3
slave4
slave5
  
6.配置节点间SSH免密登录
在client节点执行:



# ssh-copy-id namenode
# ssh-copy-id secondarynamenode
# ssh-copy-id resourcemanager
# ssh-copy-id jobhistory
# ssh-copy-id slave1
# ssh-copy-id slave2
# ssh-copy-id slave3
# ssh-copy-id slave4
# ssh-copy-id slave5
  在resourcemanager节点执行:



# ssh-copy-id slave1
# ssh-copy-id slave2
# ssh-copy-id slave3
# ssh-copy-id slave4
# ssh-copy-id slave5
  
7.复制配置文件到所有节点
在client节点执行:



# scp -r $HADOOP_HOME/etc/hadoop namenode:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop secondarynamenode:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop resourcemanager:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop jobhistory:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop slave1:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop slave2:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop slave3:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop slave4:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop slave5:$HADOOP_HOME/etc
  
8.启动Hadoop集群
在client节点执行:
①格式化namenode



# ssh namenode "hdfs namenode -format"
  ②启动HDFS集群



# start-dfs.sh
  ③启动YARN集群



# ssh resourcemanager "start-yarn.sh"
  ④启动JobHistory



# ssh jobhistory "mr-jobhistory-daemon.sh --config $HADOOP_CONF_DIR start historyserver"
  
9.在浏览器中查看集群信息
由于指定过相应容器的端口映射,我在我的Windows上用浏览器访问Docker宿主机相应的端口就能访问到容器。



HDFS        http://Docker宿主机IP:50070/
YARN        http://Docker宿主机IP:8088/
jobhistory    http://Docker宿主机IP:19888/
  从web上可以看到集群正常:
DSC00022.png
DSC00023.png

DSC00024.png

  10.运行wordcount示例程序
①将测试数据复制到HDFS中



# hdfs dfs -put /root/input /
DSC00025.png
②运行wordcount示例程序




# hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output
  ③查看输出结果



# hdfs dfs -cat /output/part-r-00000
DSC00026.png
从截图可以看到输出结果正确。完全分布式集群搭建完毕。


参考资料
  写本文时参考了很多网上的资料,在此一并表示感谢!
docker 安装hadoop
http://www.cnblogs.com/liqiu/p/4164406.html
docker安装hadoop集群
http://www.cnblogs.com/songfy/p/4716431.html
Docker搭建hadoop集群
http://www.cnblogs.com/liuyifeng/p/5383076.html
基于Docker快速搭建多节点Hadoop集群
http://dockone.io/article/395
基于Docker搭建Hadoop集群之升级版
http://kiwenlau.com/2016/06/12/160612-hadoop-cluster-docker-update/
使用docker搭建hadoop分布式集群
http://blog.csdn.net/xu470438000/article/details/50512442
使用Docker在本地搭建Hadoop分布式集群
http://tashan10.com/yong-dockerda-jian-hadoopwei-fen-bu-shi-ji-qun/
Docker实战(十四):Docker安装Hadoop环境
http://blog.csdn.net/birdben/article/details/51724126
从 0 开始使用 Docker 快速搭建 Hadoop 集群环境
http://www.jianshu.com/p/b75f8bc9346d

本文结束,谢谢大家!

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-420945-1-1.html 上篇帖子: 两种进入容器的方法 下篇帖子: 进击的docker 二 : docker 快速入门
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表