hadoop2.2.0 的安装和基本配置

vivion34 发表于 2018-10-31 09:36:24

　　hadoop2.0的架构和1.0完全不一样，在安装配置上和1.0也有很大的不同，譬如配置文件的目录不一样了，还有要对yarn进行配置，这个在1.0是没有的。很多人第一次接触hadoop2.0的时候，会很不适应，而且官方的文档也有些写得不太清楚的地方，也有些错误。笔者在初次安装hadoop2.0的时候，看着官方的文档，中间也出现过很多问题。为了帮助大家很快的部署上hadoop2.0，笔者写了这篇文章。这篇文章主要就是介绍一个hadoop2.0的一个最基本最简单的配置，目的就是尽快的让hadoop2.0在机器上跑起来。后面会有其他文章来介绍在这个基本的配置上做一些更复杂的特性的配置，包括HA，federation等，还有对一些实用参数的配置和优化。
1 hadoop版本
　　hadoop-2.2.0，这是hadoop2.0的第一个稳定版，在2013年10月15日发布。
2 安装机器
　　这里以2台机器为例，一台master，一台slaver。多台slaver的情况一样。

[*]　　master:hadoop2-m1
[*]　　slaver:hadoop2-s1
3 配置
　　hadoop安装的根目录是 HADOOP_HOME=/your/path/to/hadoop-2.2.0
　　则配置目录默认是：HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
　　需要对$HADOOP_CONF_DIR目录下的四个配置文件进行配置：

[*]　　core-site.xml
[*]　　hdfs-site.xml
[*]　　mapred-site.xml
[*]　　yarn-site.xml
3.1 设置JAVA_HOME环境变量
export JAVA_HOME=/your/path/to/jdkdir3.2 设置core-site.xml
　　
　　fs.defaultFS
　　hdfs://hadoop2-m1:8020
　　
　　
　　hadoop.tmp.dir
　　/home/tmp/hadoop2.0
　　
　　

3.3 设置hdfs-site.xml
　　
　　dfs.replication
　　1
　　
　　
　　dfs.namenode.name.dir
　　/home/dfs/name
　　
　　
　　dfs.datanode.data.dir
　　/home/dfs/data
　　
　　
　　dfs.permissions
　　false
　　
　　

3.4 设置mapred-site.xml
　　
　　mapreduce.framework.name
　　yarn
　　
　　

3.5 yarn-site.xml
　　
　　
　　
　　
　　
　　yarn.resourcemanager.address
　　hadoop2-m1:8032
　　
　　
　　yarn.resourcemanager.scheduler.address
　　hadoop2-m1:8030
　　
　　
　　yarn.resourcemanager.resource-tracker.address
　　hadoop2-m1:8031
　　
　　
　　yarn.resourcemanager.admin.address
　　hadoop2-m1:8033
　　
　　
　　yarn.resourcemanager.webapp.address
　　hadoop2-m1:8088
　　
　　
　　yarn.resourcemanager.scheduler.class
　　org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler
　　
　　
　　yarn.nodemanager.aux-services
　　mapreduce_shuffle
　　
　　
　　yarn.nodemanager.aux-services.mapreduce.shuffle.class
　　org.apache.hadoop.mapred.ShuffleHandler
　　
　　

　　注意：yarn.nodemanager.aux-services的值是“mapreduce_shuffle”（在hadoop-2.1-beta中的值是“mapreduce.shuffle”）
4 启动
4.1 格式化
cd $HADOOP_HOME　　
bin/hdfs namenode -format
4.2 在hadoop2-m1中启动 namenode 和 resourcemanager
sbin/hadoop-daemon.sh start namenode　　
sbin/yarn-daemon.sh start resourcemanager
　　
#停止服务的命令
　　
sbin/hadoop-daemon.sh stop namenode
　　
sbin/yarn-daemon.sh stop resourcemanager
4.3 在hadoop2-s1中启动 datanode 和 nodemanager
sbin/hadoop-daemon.sh start datanode　　
sbin/yarn-daemon.sh start nodemanager
　　
#停止服务的命令
　　
sbin/hadoop-daemon.sh stop datanode
　　
sbin/yarn-daemon.sh stop nodemanager
4.4 在hadoop2-m1中启动 proxyserver 和 historyserver
sbin/yarn-daemon.sh start proxyserver　　
sbin/mr-jobhistory-daemon.sh start historyserver
　　
#停止服务的命令
　　
sbin/yarn-daemon.sh stop proxyserver
　　
sbin/mr-jobhistory-daemon.sh stop historyserver
5 检查和测试
5.1 检查以下两个页面是否能打开
　　http://hadoop2-m1:50070/dfshealth.jsp
　　http://hadoop2-m1:8088/cluster/nodes
5.2 运行以下hdfs命令
bin/hdfs dfs -mkdir /test/input1　　
bin/hdfs dfs -put NOTICE.txt /test/input1/
　　
bin/hdfs dfs -put README.txt /test/input1/
　　
bin/hdfs dfs -get /test/input1/NOTICE.txt /tmp/
　　
bin/hdfs dfs -cat /test/input1/NOTICE.txt
5.3 运行mapreduce job
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar grep /test/input1 /test/output1 'code'6 实战tips
　　第一次安装hadoop2.0版本的时候，最好是像本文一样先做最基本的配置，让hadoop2.0能正常启动，然后再逐步加上其他的特性。
参考资料
　　http://hadoop.apache.org/docs/r2.2.0/hadoop-project-dist/hadoop-common/ClusterSetup.html

页: [1]

运维网's Archiver

hadoop2.2.0 的安装和基本配置