设为首页 收藏本站
查看: 1464|回复: 0

[经验分享] 完全分布式Hadoop2.3安装与配置

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2014-4-12 20:01:17 | 显示全部楼层 |阅读模式
一、Hadoop基本介绍
Hadoop优点
1.高可靠性:Hadoop按位存储和处理数据
2.高扩展性:Hadoop是在计算机集群中完成计算任务,这个集群可以方便的扩展到几千台
3.高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度快
4.高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配
5.低成本:Hadoop是开源的,集群是由廉价的PC机组成
Hadoop架构和组件
Hadoop是一个分布式系统基础架构,底层是HDFS(Hadoop Distributed File System)分布式文件系统,它存储Hadoop集群中所有存储节点上的文件(64MB块),HDFS上一层是MapReduce引擎(分布式计算框架),对分布式文件系统中的数据进行分布式计算。
1.HDFS架构
NameNode:Hadoop集群中只有一个NameNode,它负责管理HDFS的目录树和相关文件的元数据信息
Sencondary NameNode:有两个作用,一是镜像备份,二是日志与镜像定期合并,并传输给NameNode
DataNode:负责实际的数据存储,并将信息定期传输给NameNode
2.MapReduce架构(Hadoop0.23以后采用MapReduce v2.0或Yarn)
Yarn主要是把jobtracker的任务分为两个基本功能:资源管理和任务调度与监控,ResourceManager和每个节点(NodeManager)组成了新处理数据的框架。
ResourceManager:负责集群中的所有资源的统一管理和分配,接受来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各种应用程序(ApplicationMaster)。
NodeManager:与ApplicationMaster承担了MR1框架中的tasktracker角色,负责将本节点上的资源使用情况和任务运行进度汇报给ResourceManager。

wKioL1MS0-vDQ_JSAABrjdkYbj0500.jpg
           MapReduce v1.0框架(图1)


wKioL1MS0_aRv39tAAELEZ6oI_U104.jpg
            MapReduce v2.0框架(图2)

环境介绍:
master-hadoop 192.168.0.201
slave1-hadoop 192.168.0.202
slave2-hadoop 192.168.0.203
JDK下载:http://www.oracle.com/technetwor ... nloads-1880260.html
参考官方文档:http://hadoop.apache.org/docs/r2 ... n/ClusterSetup.html
Hadoop三种运行方式:单节点方式(单台)、单机伪分布方式(一个节点的集群)与完全分布式(多台组成集群)
二、准备环境
1.Hadoop是用Java开发的,必须要安装JDK1.6或更高版本
2.Hadoop是通过SSH来启动slave主机中的守护进程,必须安装OpenSSH
3.Hadoop更新比较快,我们采用最新版hadoop2.3来安装
4.配置对应Hosts记录,关闭iptables和selinux(过程略)
5.创建相同用户及配置无密码认证
三、安装环境(注:三台配置基本相同)

1.安装JDK1.7

[iyunv@master-hadoop ~]# tar zxvf jdk-7u17-linux-x64.tar.gz
[iyunv@master-hadoop ~]# mv jdk1.7.0_17/ /usr/local/jdk1.7
[iyunv@slave1-hadoop ~]# vi/etc/profile    #末尾添加变量
JAVA_HOME=/usr/local/jdk1.7
PATH=$PATH:$JAVA_HOME/bin
CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export JAVA_HOME CLASSPATHPATH
[iyunv@slave1-hadoop ~]#source /etc/profile
[iyunv@slave1-hadoop ~]# java-version      #显示版本说明配置成功
java version"1.7.0_17"
Java(TM) SE RuntimeEnvironment (build 1.7.0_17-b02)
Java HotSpot(TM) 64-BitServer VM (build 23.7-b01, mixed mode)
2.创建hadoop用户,指定相同UID
[iyunv@master-hadoop ~]#useradd -u 600 hadoop
[iyunv@master-hadoop ~]#passwd hadoop
Changing password for userhadoop.
New password:
Retype new password:
passwd: all authenticationtokens updated successfully.
3.配置SSH无密码登录(注:master-hadoop本地也要实现无密码登录)


[iyunv@master-hadoop ~]# su - hadoop
[hadoop@master-hadoop ~]$ ssh-keygen -t rsa     #一直回车生成密钥
[hadoop@master-hadoop ~]$ cd/home/hadoop/.ssh/
[hadoop@master-hadoop .ssh]$ ls
id_rsa  id_rsa.pub
[hadoop@slave1-hadoop ~]$ mkdir /home/hadoop/.ssh   #登录两台创建.ssh目录
[hadoop@slave2-hadoop ~]$ mkdir /home/hadoop/.ssh
[hadoop@master-hadoop .ssh]$ scp id_rsa.pub hadoop@slave1-hadoop:/home/hadoop/.ssh/
[hadoop@master-hadoop .ssh]$ scp id_rsa.pub hadoop@slave2-hadoop:/home/hadoop/.ssh/
[hadoop@slave1-hadoop ~]$ cd/home/hadoop/.ssh/
[hadoop@slave1-hadoop .ssh]$ cat id_rsa.pub >> authorized_keys
[hadoop@slave1-hadoop .ssh]$ chmod 600 authorized_keys
[hadoop@slave1-hadoop .ssh]$ chmod 700 ../.ssh/   #目录权限必须设置700
[iyunv@slave1-hadoop ~]# vi /etc/ssh/sshd_config   #开启RSA认证
RSAAuthentication yes
PubkeyAuthentication yes
AuthorizedKeysFile      .ssh/authorized_keys
[iyunv@slave1-hadoop ~]# service sshd restart
四、Hadoop的安装与配置(注:三台服务器配置一样,使用scp复制过去)

[iyunv@master-hadoop ~]# tar zxvf hadoop-2.3.0.tar.gz -C /home/hadoop/
[iyunv@master-hadoop ~]# chown hadoop.hadoop -R /home/hadoop/hadoop-2.3.0/
[iyunv@master-hadoop ~]# vi /etc/profile   #添加hadoop变量,方便使用
HADOOP_HOME=/home/hadoop/hadoop-2.3.0/
PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_HOME PATH
[iyunv@master-hadoop ~]# source /etc/profile
1. hadoop-env.sh设置jdk路径


[hadoop@master-hadoop ~]$ cd hadoop-2.3.0/etc/hadoop/
[hadoop@master-hadoop hadoop]$ vi hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.7/
2.slaves设置从节点
[hadoop@master-hadoophadoop]$ vi slaves
slave1-hadoop
slave2-hadoop
3.core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master-hadoop:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/hadoop/tmp</value>
</property>
</configuration>
4.hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.namenode.data.dir</name>
<value>file:/home/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>    #数据副本数量,默认3,我们是两台设置2
<value>2</value>
</property>
</configuration>
6.yarn-site.xml



<configuration>
<property>
<name>yarn.resourcemanager.address</name>
<value>master-hadoop:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master-hadoop:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master-hadoop:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master-hadoop:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master-hadoop:8088</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
   <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
7.mapred-site.xml



<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master-hadoop:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master-hadoop:19888</value>
</property>
</configuration>
五、格式化文件系统并启动
1.格式化新的分布式文件系统(hdfs namenode -format)
wKiom1MS1DSiAgo4AAXvONDFnvs364.jpg
2.启动HDFS文件系统并使用jps检查守护进程是否启动
wKiom1MS1D7CRuM-AAL910T_7Zo320.jpg
wKioL1MS1ETy_saEAAA_Z9hlJyI709.jpg
可以看到master-hadoop已经启动NameNode和SecondaryNameNode进程,slave-hadoop已经启动DataNode进程说明正常。
3.启动新mapreduce架构(YARN)
wKiom1MS1JSTJYZuAAGsL2ftiq4313.jpg
wKioL1MS1HiSqDLnAABLaZvuy0c392.jpg
可以看到master-hadoop已经启动ResourceManger进程,slave-hadoop已经启动NodeManager进程说明正常。
4.查看集群状态
wKiom1MS1KfSbrq-AAFu2a1fmHQ432.jpg
5.通过web查看资源(http://192.168.0.201:8088
wKiom1MS1NHwFfDFAAOdMhjRyTw847.jpg
6、查看HDFS状态(http://192.168.0.201:50070
wKiom1MS1N2wI6cEAALawzAGv98814.jpg



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-17258-1-1.html 上篇帖子: hadoop文件系统FileSystem详解 下篇帖子: LINUX安装MEMCACHED
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表