设为首页 收藏本站
查看: 804|回复: 0

[经验分享] Hadoop伪分布模式配置部署

[复制链接]

尚未签到

发表于 2017-12-17 18:04:37 | 显示全部楼层 |阅读模式
相关配置文件修改

1).修改core-site.xml:
  

$ sudo vim /usr/local/hadoop/etc/hadoop/core-site.xml  

  

<?xml version="1.0"?>  
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
  

  
<!-- Put site-specific property overrides in this file. -->
  

  
<configuration>
  <property>
  <name>fs.defaultFS</name>
  <value>hdfs://localhost:9000</value>
  </property>
  <property>
  <name>hadoop.tmp.dir</name>
  <value>/home/hadoop/tmp</value>
  </property>
  
</configuration>
  

  

  常用配置项说明:


  • fs.default.name这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。
  • hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在/tmp/hadoop-${user.name}这个路径中
  更多说明请参考core-default.xml,包含配置文件所有配置项的说明和默认值。

2).修改hdfs-site.xml:
  

$ sudo vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml  

  

<?xml version="1.0"?>  
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
  

  
<!-- Put site-specific property overrides in this file. -->
  

  
<configuration>
  <property>
  <name>dfs.replication</name>
  <value>1</value>
  </property>
  
</configuration>
  

  

  常用配置项说明:


  • dfs.replication它决定着系统里面的文件块的数据备份个数。对于一个实际的应用,它应该被设为3(这个数字并没有上限,但更多的备份可能并没有作用,而且会占用更多的空间)。少于三个的备份,可能会影响到数据的可靠性(系统故障时,也许会造成数据丢失)
  • dfs.data.dir这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要完全相同,因为每台机器的环境很可能是不一样的。但如果每台机器上的这个路径都是统一配置的话,会使工作变得简单一些。默认的情况下,它的值为file://${hadoop.tmp.dir}/dfs/data这个路径只能用于测试的目的,因为它很可能会丢失掉一些数据。所以这个值最好还是被覆盖。
  • dfs.name.dir这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效,DataNode并不需要使用到它。上面对于/temp类型的警告,同样也适用于这里。在实际应用中,它最好被覆盖掉。
  更多说明请参考hdfs-default.xml,包含配置文件所有配置项的说明和默认值。

3).修改mapred-site.xml:
  

$ sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml  
$ sudo vim /usr/local/hadoop/etc/hadoop/mapred-site.xml
  

  

<?xml version="1.0"?>  
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
  

  
<!-- Put site-specific property overrides in this file. -->
  

  
<configuration>
  <property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
  </property>
  
</configuration>
  

  

  常用配置项说明:


  • mapred.job.trackerJobTracker的主机(或者IP)和端口。
  更多说明请参考mapred-default.xml,包含配置文件所有配置项的说明和默认值

4).修改yarn-site.xml:
  

$ sudo vim /usr/local/hadoop/etc/hadoop/yarn-site.xml  

  

<configuration>  <property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
  </property>
  

  
</configuration>
  

  

  常用配置项说明:


  • yarn.nodemanager.aux-services通过该配置,用户可以自定义一些服务
  更多说明请参考yarn-default.xml,包含配置文件所有配置项的说明和默认值

5). 修改 hadoop-env.sh:
  

$ sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh  

  

  修改 JAVA_HOME 如下:

  这样简单的伪分布式模式就配置好了。
  ***********************************************************

格式化HDFS文件系统
  在使用hadoop前,必须格式化一个全新的HDFS安装,通过创建存储目录和NameNode持久化数据结构的初始版本,格式化过程创建了一个空的文件系统。由于NameNode管理文件系统的元数据,而DataNode可以动态的加入或离开集群,因此这个格式化过程并不涉及DataNode。同理,用户也无需关注文件系统的规模。集群中DataNode的数量决定着文件系统的规模。DataNode可以在文件系统格式化之后的很长一段时间内按需增加。

格式化HDFS文件系统
  

$ hadoop namenode -format  

  

  会输出如下信息,则表格式化HDFS成功:
  

DEPRECATED: Use of this script to execute hdfs command is deprecated.  
Instead use the hdfs command for it.
  

  
INFO namenode.NameNode: STARTUP_MSG:
  
/************************************************************
  
STARTUP_MSG: Starting NameNode
  
STARTUP_MSG:   host = [你的主机名]/[你的ip]
  
STARTUP_MSG:   args = [-format]
  
STARTUP_MSG:   version = 2.6.0
  
...
  
...
  
INFO util.GSet: Computing capacity for map NameNodeRetryCache
  
INFO util.GSet: VM type       = 64-bit
  
INFO util.GSet: 0.029999999329447746% max memory 889 MB = 273.1 KB
  
INFO util.GSet: capacity      = 2^15 = 32768 entries
  
INFO namenode.NNConf: ACLs enabled? false
  
INFO namenode.NNConf: XAttrs enabled? true

  
INFO namenode.NNConf: Maximum>  
INFO namenode.FSImage: Allocated new BlockPoolId: BP-549895748-192.168.42.3-1489569976471
  
INFO common.Storage: Storage directory /home/hadoop/hadop2.6-tmp/dfs/name has been successfully formatted.
  
INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
  
NFO util.ExitUtil: Exiting with status 0
  
INFO namenode.NameNode: SHUTDOWN_MSG:
  
/************************************************************
  
SHUTDOWN_MSG: Shutting down NameNode at [你的主机名]//[你的ip]
  
************************************************************/
  
hadoop@c81af9a07ade:/opt/hadoop-2.6.0/bin$ jps
  

Hadoop集群启动

1. 启动hdfs守护进程,分别启动NameNode和DataNode
  

$ start-dfs.sh  

  

  输出如下(可以看出分别启动了namenode, datanode, secondarynamenode,因为我们没有配置secondarynamenode,所以地址为0.0.0.0):
  

Starting namenodes on []  
hadoop@localhost's password:
  
localhost: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-G470.out
  
hadoop@localhost's password:
  
localhost: starting datanode, logging to /usr/local/hadoop/logs/hadoop-hadoop-datanode-G470.out
  
localhost: OpenJDK 64-Bit Server VM warning: You have loaded library /usr/local/hadoop/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now.
  
localhost: It's highly recommended that you fix the library with 'execstack -c <libfile>', or link it with '-z noexecstack'.
  
Starting secondary namenodes [0.0.0.0]
  
hadoop@0.0.0.0's password:
  
0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-secondarynamenode-G470.out
  

  

2. 启动yarn,使用如下命令启ResourceManager和NodeManager:
  

$ start-yarn.sh  

  

3. 检查是否运行成功
  打开浏览器


  • 输入:http://localhost:8088进入ResourceManager管理页面
  • 输入:http://localhost:50070进入HDFS页面
可能出现的问题及调试方法:
  启动伪分布后,如果活跃节点显示为零,说明伪分布没有真正的启动。原因是有的时候数据结构出现问题会造成无法启动datanode。如果使用hadoop namenode -format重新格式化仍然无法正常启动,原因是/tmp中的文件没有清除,则需要先清除/tmp/hadoop/*再执行格式化,即可解决hadoop datanode无法启动的问题。具体步骤如下所示:
  

# 删除hadoop:/tmp  
$ hadoop fs -rmr /tmp
  
# 停止hadoop
  
$ stop-all.sh
  
# 删除/tmp/hadoop*
  
$ rm -rf /tmp/hadoop*
  
# 格式化
  
$ hadoop namenode -format
  
# 启动hadoop
  
$ start-all.sh
  

测试验证
  测试验证还是使用上一节的 WordCount。
  不同的是,这次是伪分布模式,使用到了 hdfs,因此我们需要把文件拷贝到 hdfs 上去。
  首先创建相关文件夹(要一步一步的创建):
  

$ hadoop dfs -mkdir /user  
$ hadoop dfs -mkdir /user/hadoop
  
$ hadoop dfs -mkdir /user/hadoop/input
  

  

1. 创建输入的数据,采用/etc/protocols文件作为测试
  先将文件拷贝到 hdfs 上:
  

$ hadoop dfs -put /etc/protocols /user/hadoop/input  

  

2. 执行Hadoop WordCount应用(词频统计)
  

# 如果存在上一次测试生成的output,由于hadoop的安全机制,直接运行可能会报错,所以请手动删除上一次生成的output文件夹  
$ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.0-sources.jar org.apache.hadoop.examples.WordCount /user/hadoop/input output
  

3. 查看生成的单词统计数据
  

$ hadoop dfs -cat /user/hadoop/output/*  

关闭服务
  

$ stop-dfs.sh  
$ stop-yarn.sh
  

  

  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-425083-1-1.html 上篇帖子: 利用cloudera manager搭建Hadoop集群 下篇帖子: Hadoop 新生报道(三) hadoop基础概念
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表