设为首页 收藏本站
查看: 1160|回复: 0

[经验分享] Hadoop伪分布式集群环境搭建

[复制链接]
发表于 2017-12-17 18:50:55 | 显示全部楼层 |阅读模式
  本教程讲述在单机环境下搭建Hadoop伪分布式集群环境,帮助初学者方便学习Hadoop相关知识。
  首先安装Hadoop之前需要准备安装环境。


  • 安装Centos6.5(64位)。(操作系统再次不做过多描述,自行百度)
  • 安装JDK1.7(64位)。
  • 安装Hadoop2.2(稳定版本64位)
  注意:以上三者版本需要统一,必须同为64位/32位
  1.安装JDK1.7
  下载JDK1.7,然后拷贝到指定目录
  cd /usr/local/
  

解压缩:tar -zxvf jdk1.7  

  配置环境变量:
  

vim /etc/profile.d/java.sh  

  

添加如下内容:  

  

CLASSPATH=$JAVA_HOME/lib:$CLASSPATH  
PATH
=$JAVA_HOME/bin:$PATH
  
export JAVA_HOME>  

  执行:
  

source /etc/profile.d/java.sh  

  java -version显示出JDK相关信息
  2.配置hosts文件,使访问更加方便
  

vim /etc/hosts  

  在文件末尾加入:
  

192.168.1.1(本机ip) taurus(本机域名)  

  3.关闭防火墙:
  

查看防火墙状态:service iptables status  

  

关闭防火墙:chkconfig iptables off(永久性生效)  
service iptables stop(即时生效,重启后复原)
  

  4.SSH无密码验证配置
  创建hadoop用户组
  

groupadd hadoop  

  创建hadoop用户
  

useradd group group  

  为hadoop用户设置密码
  

passwd hadoop  

  创建.ssh文件
  

mkdir .ssh  

  使用命令生成密钥:
  

ssh-keygen -t rsa  

  用公钥生成认证文件
  

cp>  

  赋予文件权限
  

chmod  700.ssh  

  
chmod 600 .ssh/*
  

  然后使用ssh连接当前节点,ssh taurus(本机域名) 如果提示ssh未安装执行命令:
  

yum -y install openssh-clients  

  如果还是提示下列错误:
  

ssh: connect to host taurus port 22: Connection refused  

  说明ssh-server没有安装
  

sudo apt-get install openssh-server   进行安装  

  然后在使用ssh localhost应该会连接成功。
  5.开始搭建伪分布式环境
  下载hadoop2.2.0安装包
  

wget http://hadoop.f.dajiangtai.com/hadoop2.2/hadoop-2.2.0-x64.tar.gz  

  解压安装包:
  

tar -zxvf hadoop-2.2.0-x64.tar.gz  

  重命名hadoop-2.2.0-x64.tar.gz
  

mv hadoop-2.2.0-x64.tag.gz  hadoop  

  将haddop文件夹的权限赋予hadoop用户
  

chown -R hadoop:hadoop hadoop  

  创建hadoop数据目录--3个
  

root@taurus:/usr/local# mkdir -p /data/dfs/name  
root@taurus:
/usr/local# mkdir -p /data/dfs/data  
root@taurus:
/usr/local# mkdir -p /data/tmp  

  将创建的文件夹权限赋予hadoop用户
  

root@taurus:/usr/local# chown -R hadoop:hadoop hadoop /data  

  然后切换到hadoop用户,进入hadoop文件夹下etc/hadoop目录:
  

su hadoop  
cd etc
/hadoop  
vim core
-site.xml  

  添加如下内容到core-site.xml文件
  默认HDFS路径
  存放数据的公共目录
  设置hadoop安全机制的代理用户和用户组
DSC0000.png

  修改hdfs-site.xml文件,添加如下内容:
  Namenode文件目录
  Datanode文件目录
  数据快副本
  HDFS权限
DSC0001.png

  接下来配置mapred-site.xml文件:
  由于没有mspred-dite.xml文件,因此需要复制mapred-site.xml.template
  

cp mapred-site.xml.template mapred-site.xml  

  vim mapred-site.xml添加如下内容:
  制定mapreduce环境为yarn;
DSC0002.png

  配置yarn-site.xml文件,添加如下内容:
  为了使mapreduce程序运行起来,需要nodemanager启动加载shuffle
DSC0003.png

  修改slaves文件:(指定namenode路径)由于当前配置伪分布时集群,所以namenode和datanode在同一个节点上。
DSC0004.png

  配置hadoop环境变量:
  su root
  vim /etc/profile
  添加如下内容:
DSC0005.png

  使配置文件生效使用source命令:
  

source /etc/profile  


以上我们就配置完成了,接下来测试运行
  su hadoop
  进入安装目录
  

cd /usr/local/hadoop  

  然后格式化namenode
  

bin/hadoop namenode -format  

  没有报错,接下来我们就可以启动hadoop了:
  

cd /usr/lcoal/hadoop  
sbin
/satrt-all.sh  

  如果启动时报Error: JAVA_HOME is not set and could not be found
  解决办法:修改/etc/hadoop/hadoop-env.sh中设的JAVA_HOME。
  应当使用绝对路径:
  

export JAVA_HOME=${JAVA_HOME}          //文档原来的(错误)  export JAVA_HOME=/usr/local/jdk1.7       //正确,应该这么改
  

  然后再次启动sbin/start-all.sh
  成功后,jps显示如下:
DSC0006.png

  打开浏览器:
  访问http://taurus(对应你本机域名):50070 --查看namenode文件和集群的状态
  接下来使用hadoop自带wordcount程序运行测试
  在hadoop文件目录下,执行如下操作:
  

vim wordcount.txt  
添加如下内容:
  
alan hadoop
  
alan hadoop
  
alan hadoop
  
保存退出
  

  查看hadoop根目录下文件:
  hadoop fs -ls /
  创建一个测试目录:
  hadoop fs -mkdir /taurus
  将刚才创建的文件上传到测试目录:
  

hadoop fs -put /usr/local/hadoop/wordcount.txt /sample  

  执行wordcount程序:
  

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-example-2.2.0.jar wordcount /sample/wordcount.txt  /sample/wordcount-out  

  在浏览器访问http://taurus(自己的域名):8088/cluster/apps
  查看程序的运行状态。
DSC0007.png

  在浏览器访问http://taurus(自己的域名):50070
  查看程序的运行结果。
DSC0008.png


至此,hadoop的但节点集群配置就全部完成了。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-425105-1-1.html 上篇帖子: hadoop集群的搭建(分布式安装) 下篇帖子: Hadoop(十一)Hadoop IO之序列化与比较功能实现详解
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表