hadoop 安装配置

ftsr · 发表于 2018-10-30 09:06:55

　　1、安装java 选择适合自己的jdk 我选择的是jdk7，下载地址如下
　　http://www.oracle.com/technetwork/java/javase/archive-139210.html
　　解压
　　配置环境变量 vim /etc/profile
　　---------------------
　　JAVA_HOME=/usr/java/jdk1.7.0_45
　　JRE_HOME=/usr/java/jdk1.7.0_45/jre
　　PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
　　CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib

　　export JAVA_HOME JRE_HOME PATH>　　---------------------
　　source /etc/profile
　　================jdk 在线安装====
　　1.查找java相关得列表
　　[qyf@localhost ~]$ yum -y list java*
　　2.使用root用户安装
　　安装时提醒必须使用root用户，sudo都不行。
　　[qyf@localhost ~]$ yum -y install java-1.7.0-openjdk*
　　3.确认是否安装成功
　　[qyf@localhost ~]$ java -version
　　4.默认情况下jdk安装得路径
　　/usr/lib/jvm
　　==========================
　　2、安装scala
　　scala下载地址：http://www.scala-lang.org/download/2.10.3.html
　　解压到/root/software
　　配置环境变量
　　vim /etc/profile
　　添加
　　SCALA_HOME=/root/software/scala-2.10.4
　　PATH=$SCALA_HOME/bin:$PATH
　　source /etc/profile
　　3、安装spark可以参考下面的
　　http://blog.csdn.net/supingemail/article/details/46713851
　　http://my.oschina.net/hanzhankang/blog/204100
　　3、安装hadoop
　　转载来自：http://blog.csdn.net/stark_summer/article/details/43484545
　　hadoop下载网址：
　　wget http://apache.fayea.com/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz
　　1）修改下主机名为master
　　sudo vim /etc/sysconfig/network

　　修改结果后：

　　重启电脑：
　　Linux centos重启命令：

　　1、reboot
　　2、shutdown -r now 立刻重启(root用户使用)
　　3、shutdown -r 10 过10分钟自动重启(root用户使用)
　　4、shutdown -r 20:35 在时间为20:35时候重启(root用户使用)

　　查看结果：

　　修改主机名成功
　　2)修改hosts中的主机名：

　　修改后：

　　3)配置SSH

　　进入.ssh目录并生成authorized_keys文件：

　　授权.ssh/文件夹权限为700，authorized_keys文件权限为600(or 644)：

　　ssh验证：

　　4)hadoop安装：
　　去官网下载hadoop最新安装包：http://apache.fayea.com/hadoop/common/hadoop-2.6.0/
　　下载并解压后：
　　hadoop-2.6.0.tar.gz 放在/root/software文件中
　　解压
　　tar zvxf hadoop-2.6.0.tar.gz
　　配置系统环境
　　vim /etc/profile
　　----------------------------
　　export HADOOP_INSTALL=/root/sherry/hadoop-2.6.0
　　export PATH=$PATH:$HADOOP_INSTALL/bin
　　export PATH=$PATH:$HADOOP_INSTALL/sbin
　　export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
　　export HADOOP_COMMON_HOME=$HADOOP_INSTALL
　　export HADOOP_HDFS_HOME=$HADOOP_INSTALL
　　-------------------------------
　　source /etc/profile
　　在hadoop目录下创建文件夹：

　　接下来开始修改hadoop的配置文件，首先进入hadoop2.6配置文件夹：

　　第一步修改配置文件hadoop-env.sh，加入"JAVA-HOME",如下所示：

　　指定我们安装的“JAVA_HOME”：

　　第二步修改配置文件"yarn-env.sh"，加入"JAVA_HOME",如下所示：

　　指定我们安装的“JAVA_HOME”：

　　第三步修改配置文件“mapred-env.sh”，加入“JAVA_HOME”，如下所示：

　　指定我们安装的“JAVA_HOME”：

　　第四步修改配置文件slaves，如下所示：

　　设置从节点为master，因为我们是伪分布式，如下所示：

　　第五步修改配置文件core-site.xml，如下所示：

　　修改core-site.xml文件后：

　　目前来说，core-site.xml文件的最小化配置，core-site.xml各项配置可参考：http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/core-default.xml
　　我自己的配置如下：
　　--------------------
　　
　　
　　fs.defaultFS
　　hdfs://10.118.46.22:9000
　　
　　
　　io.file.buffer.size
　　131072
　　
　　
　　hadoop.tmp.dir
　　file:/root/sherry/tmp
　　Abase for other temporary directories.
　　
　　
　　hadoop.proxyuser.hduser.hosts
　　*
　　
　　
　　hadoop.proxyuser.hduser.groups
　　*
　　
　　
　　ha.zookeeper.quorm
　　slave4:2181
　　
　　
　　----------------------
　　第六步修改配置文件 hdfs-site.xml，如下所示：

　　hdfs-site.xml文件修改后：

　　上述是hdfs-site.xml文件的最小化配置，hdfs-site.xml各项配置可参考：http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
　　我自己的配置
　　---------------------------
　　
　　
　　dfs.namenode.secondary.http-address
　　localhost:9001
　　
　　
　　dfs.namenode.name.dir
　　file:/hdfs/namenode
　　
　　
　　dfs.datanode.data.dir
　　file:/hdfs/datanode
　　
　　
　　dfs.replication
　　3
　　
　　
　　dfs.webhdfs.enable
　　true
　　
　　
　　---------------------------
　　第七步修改配置文件 mapred-site.xml，如下所示：
　　copy mapred-site.xml.template命名为mapred-site.xml，打开mapred-site.xml，如下所示：

　　mapred-site.xml 修改后：

　　上述是mapred-site.xml最小化配置，mapred-site.xml各项配置可参考：http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml
　　我自己的配置
　　-----------------
　　
　　
　　mapreduce.framework.name
　　yarn
　　
　　
　　------------------
　　第八步配置文件yarn-site.xml，如下所示：

　　yarn-site.xml修改后：

　　上述内容是yarn-site.xml的最小化配置，yarn-site文件配置的各项内容可参考：http://hadoop.apache.org/docs/r2.6.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml
　　也可以增加spark_shuffle,配置如下
　　
　　yarn.nodemanager.aux-services
　　mapreduce_shuffle,spark_shuffle
　　
　　
　　yarn.nodemanager.aux-services.mapreduce_shuffle.class
　　org.apache.hadoop.mapred.ShuffleHandler
　　
　　
　　yarn.nodemanager.aux-services.spark_shuffle.class
　　org.apache.spark.network.yarn.YarnShuffleService
　　

　　PS: 当提交hadoop MR 就启用,mapreduce_shuffle,当提交spark作业就使用spark_shuffle,但个人感觉spark_shuffle 效率一般,shuffle是很大瓶颈,还有如果你使用spark_shuffle 你需要把spark-yarn_2.10-1.4.1.jar 这个jar copy 到HADOOP_HOME/share/hadoop/lib下 ,否则 hadoop 运行报错>　　我自己的配置
　　------------------------------------
　　
　　
　　
　　yarn.resourcemanager.hostname
　　localhost
　　
　　
　　yarn.nodemanager.aux-services
　　mapreduce_shuffle
　　
　　
　　-----------------------------------
　　5、启动并验证hadoop伪分布式
　　新版启动：
　　进入hadoop/sbin
　　start-all.sh
　　关闭：
　　stop-all.sh
　　验证启动是否成功
　　jps
　　第一步：格式化hdfs文件系统：

　　第二步：进入sbin中启动hdfs，执行如下命令：

　　此刻我们发现在master上启动了NameNode、DataNode、SecondaryNameNode
　　此刻通过web控制台查看hdfs，http://master:50070/

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] hadoop 安装配置

浏览过的版块

扫码加入运维网微信交流群