设为首页 收藏本站
查看: 1192|回复: 0

Hadoop单节点环境搭建

[复制链接]
发表于 2015-11-11 13:33:45 | 显示全部楼层 |阅读模式
  下面介绍怎么在linux系统上设置和配置一个单节点的Hadoop,让你可以使用Hadoop的MapReduce和HDFS(Hadoop Distributed File System)做一些简单的操作。
准备工作

1)下载Hadoop;
2)为你的linux系统安装JDK,推荐的JDK版本可以在这里(http://wiki.apache.org/hadoop/HadoopJavaVersions)查看;
3)为你的系统安装ssh。
设置环境变量

1)为Hadoop设置JDK信息:
export JAVA_HOME=/usr/java/latest
2)将Hadoop解压到某个目录,例如/usr/test目录下。
然后编辑文件/etc/profile增加:
export HADOOP_INSTALL=/usr/test/hadoop-2.7.1
export PATH=$PATH:$HADOOP_INSTALL/bin
保存文件,然后使用命令source /etc/profile重新编译使配置生效。
执行下面的命令,如果配置正确,则会正确输出Hadoop的版本信息:
hadoop version
单节点模式

默认情况下,Hadoop已经被配置到单节点模式,因此不需要在做额外的配置。
下面演示了一个例子,创建一个input目录,并放入一些文件,然后运行Hadoop的一个例子:
$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output 'dfs[a-z.]+'
$ cat output/*伪分布式

Hadoop也能被运行在伪分布式环境下,每个Hadoop节点都是一个独立的Java进程。
配置

需要配置的配置文件有:
etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>设置ssh无密匙登录

通过下面的方式检查你是否可以无需密匙访问ssh:
$ ssh localhost如果你不能无密匙访问,则需要执行下面的命令:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
$ export HADOOP\_PREFIX=/usr/local/hadoop下面执行一个本地的MaReduce任务。
1)格式化文件系统
$ bin/hdfs namenode -format2)开启NameNode精灵进程和DataNode精灵进程$ sbin/start-dfs.sh如果该处出现错误“localhost: Error: JAVA_HOME is not set and could not be found”,则可以在libexec/hadoop-config.sh中直接配置“export JAVA_HOME=/usr/java/latest”。
hadoop精灵进程日志记录在$HADOOP_LOG_DIR文件夹,默认是$HADOOP_HOME/logs。3)查看NameNode的web接口,默认为:-NameNode - http://localhost:50070/4)指定用于执行MapReduce任务的HDFS文件夹
$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/<username>5)拷贝输入文件到分布式文件系统
$ bin/hdfs dfs -put etc/hadoop inputinput必须在hdfs文件系统上创建好6)运行提供的例子
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output 'dfs[a-z.]+'注意input和output对应hdfs上的文件夹7)检查输出文件:从分布式文件系统拷贝输出文件到本地文件系统,并检测它们
$ bin/hdfs dfs -get output output
$ cat output/*或者直接在分布式文件系统上查看输出文件:
$ bin/hdfs dfs -cat output/*8)当你结束后,停止所有精灵进程
$ sbin/stop-dfs.sh单节点YARN

你能在伪分布式模式下使用YARN运行一个MapReduce任务,需要设置一些参数,并且运行ResourceManager精灵进程和NodeManager精灵进程。
假定你已经做了上一节的1~4步,接下来做下面的步骤:
1)配置etc/hadoop/mapred-site.xml参数如下:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>配置etc/hadoop/yarn-site.xml参数如下:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>2)启动ResourceManager精灵进程和NodeManager精灵进程
$ sbin/start-yarn.sh3)查看ResourceManager的web接口,默认为:
-ResourceManager - http://localhost:8088/4)运行一个MapReduce任务
5)当你结束后,停止所有精灵进程:
$ sbin/stop-yarn.sh
版权声明:本文为博主原创文章,未经博主允许不得转载。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-137931-1-1.html 上篇帖子: 第一个Hadoop程序 下篇帖子: 从零开始学习Hadoop--第5章 压缩
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表