设为首页 收藏本站
查看: 1405|回复: 0

[经验分享] 马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作

[复制链接]
YunVN网友  发表于 2017-12-17 21:23:20 |阅读模式
  马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动
  马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作
  马士兵hadoop第三课:java开发hdfs
  马士兵hadoop第四课:Yarn和Map/Reduce配置启动和原理讲解
  马士兵hadoop第五课:java开发Map/Reduce
  (1)观察集群配置情况
  

[iyunv@master ~]# hdfs dfsadmin -report  

  (2)web界面观察集群运行情况
  使用netstat命令查看端口监听
  

[iyunv@master ~]# netstat -ntlp  

DSC0000.png

  浏览器地址栏输入:http://192.168.56.100:50070
DSC0001.png

  (3)对集群进行集中管理
  a) 修改master上的/usr/local/hadoop/etc/hadoop/slaves文件
  

[iyunv@master hadoop]# vim slaves  
#编辑内容如下
  
slave1
  
slave2
  
slave3
  

  先使用hadoop-daemon.sh stop namenode(datanode)手工关闭集群。
  b) 使用start-dfs.sh启动集群
  

[iyunv@master hadoop]# start-dfs.sh  

  发现需要输入每个节点的密码,太过于繁琐,于是需要配置免密ssh远程登陆。
  在master上用ssh连接一台slave,需要输入密码slave的密码,
  

[iyunv@master hadoop]# ssh slave1  

  需要输入密码,输入密码登陆成功后,使用exit指令退回到master。
  c) 免密ssh远程登陆
  生成rsa算法的公钥和私钥
  

[iyunv@master hadoop]# ssh-keygen -t rsa (然后四个回车)  

  进入到/root/.ssh文件夹,可看到生成了id_rsa和id_rsa.pub两个文件。
  使用以下指令完成免密ssh登陆
  

[iyunv@master hadoop]# ssh-copy-id slaveX  

  更多细节讲解,请查看马士兵hadoop第二课视频讲解:http://pan.baidu.com/s/1qYNNrxa
  使用stop-dfs.sh停止集群,然后使用start-dfs.sh启动集群。
  

[iyunv@master ~]# stop-dfs.sh   

  

[iyunv@master ~]# stop-dfs.sh   

  (3)修改windows上的hosts文件,通过名字来访问集群web界面
  编辑C:\Windows\System32\drivers\etc\hosts
  

192.168.56.100 master  

  然后就可以使用http://master:50070代替http://192.168.56.100:50070
  (4) 使用hdfs dfs 或者 hadoop fs命令对文件进行增删改查的操作
  

hadoop fs -ls /  

hadoop fs -put file /  

hadoop fs -mkdir /dirname  

hadoop fs -text /filename  

hadoop fs -rm /filename  

  将hadoop的安装文件put到了hadoop上操作如下
  

[iyunv@master local]# hadoop -fs put ./hadoop-2.7.3.tar.gz /  

DSC0002.png

  通过网页观察文件情况
DSC0003.png

  (5)将dfs-site.xml的replication值设为2
  replication参数是分块拷贝份数,hadoop默认为3。
  也就是说,一块数据会至少在3台slave上都存在,假如slave节点超过3台了。
  vim hdfs-site.xml
  

<?xml version="1.0" encoding="UTF-8"?>  
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
  
<configuration>
  
   <property>
  
     <name>dfs.replication</name>  
  
     <value>2</value>
  
   </property>
  
   <property>
  
     <name>dfs.namenode.heartbeat.recheck-interval</name>
  
     <value>10000</value>
  
   </property>
  
</configuration>
  

  为了方便测试,同时需要修改另外一个参数dfs.namenode.heartbeat.recheck-interval,这个值默认为300s,
  将其修改成10000,单位是ms,这个参数是定期间隔时间后检查slave的运行情况并更新slave的状态。
  可以通过 hadoop-2.7.3\share\doc\hadoop\index.html里面查找这些默认的属性
DSC0004.png

DSC0005.png

  修改完hdf-size.xml文件后,重启hadoop集群,
  stop-dfs.sh  #停止hadoop集群
  start-dfs.sh #启动hadoop集权
  hadoop -fs put ./jdk-8u91-linux-x64.rpm / #将jdk安装包上传到hadoop的根目录
  到web页面上去观察jdk安装包文件分块在slave1,slave2,slave3的存储情况
  hadoop-daemon.sh stop datanode #在slave3上停掉datanode
  等一会时间后(大概10s,前面修改了扫描slave运行情况的间隔时间为10s),刷新web页面
  观察到slave3节点挂掉
  hadoop-daemon.sh start datanode #在slave3上启动datanode
  然后再去观察jdk安装包文件分块在slave1,slave2,slave3的存储情况

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-425166-1-1.html 上篇帖子: Hadoop海量视频、图像分析分布式处理总结 下篇帖子: 【转载】Hadoop 2.7.3 和Hbase 1.2.4安装教程
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表