Hadoop单节点环境搭建

所谓覅破解 · 发表于 2015-11-11 13:33:45

　　下面介绍怎么在linux系统上设置和配置一个单节点的Hadoop，让你可以使用Hadoop的MapReduce和HDFS（Hadoop Distributed File System）做一些简单的操作。
准备工作

1）下载Hadoop；
2）为你的linux系统安装JDK，推荐的JDK版本可以在这里（http://wiki.apache.org/hadoop/HadoopJavaVersions）查看；
3）为你的系统安装ssh。
设置环境变量

1）为Hadoop设置JDK信息：
export JAVA_HOME=/usr/java/latest
2）将Hadoop解压到某个目录，例如/usr/test目录下。
然后编辑文件/etc/profile增加：
export HADOOP_INSTALL=/usr/test/hadoop-2.7.1
export PATH=$PATH:$HADOOP_INSTALL/bin
保存文件，然后使用命令source /etc/profile重新编译使配置生效。
执行下面的命令，如果配置正确，则会正确输出Hadoop的版本信息：
hadoop version
单节点模式

默认情况下，Hadoop已经被配置到单节点模式，因此不需要在做额外的配置。
下面演示了一个例子，创建一个input目录，并放入一些文件，然后运行Hadoop的一个例子：
$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output 'dfs[a-z.]+'
$ cat output/*伪分布式

Hadoop也能被运行在伪分布式环境下，每个Hadoop节点都是一个独立的Java进程。
配置

需要配置的配置文件有：
etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>设置ssh无密匙登录

通过下面的方式检查你是否可以无需密匙访问ssh：
$ ssh localhost如果你不能无密匙访问，则需要执行下面的命令：
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
$ export HADOOP\_PREFIX=/usr/local/hadoop下面执行一个本地的MaReduce任务。
1）格式化文件系统
$ bin/hdfs namenode -format2）开启NameNode精灵进程和DataNode精灵进程$ sbin/start-dfs.sh如果该处出现错误“localhost: Error: JAVA_HOME is not set and could not be found”，则可以在libexec/hadoop-config.sh中直接配置“export JAVA_HOME=/usr/java/latest”。
hadoop精灵进程日志记录在$HADOOP_LOG_DIR文件夹，默认是$HADOOP_HOME/logs。3）查看NameNode的web接口，默认为：-NameNode - http://localhost:50070/4）指定用于执行MapReduce任务的HDFS文件夹
$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/<username>5）拷贝输入文件到分布式文件系统
$ bin/hdfs dfs -put etc/hadoop inputinput必须在hdfs文件系统上创建好6）运行提供的例子
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output 'dfs[a-z.]+'注意input和output对应hdfs上的文件夹7）检查输出文件：从分布式文件系统拷贝输出文件到本地文件系统，并检测它们
$ bin/hdfs dfs -get output output
$ cat output/*或者直接在分布式文件系统上查看输出文件：
$ bin/hdfs dfs -cat output/*8）当你结束后，停止所有精灵进程
$ sbin/stop-dfs.sh单节点YARN

你能在伪分布式模式下使用YARN运行一个MapReduce任务，需要设置一些参数，并且运行ResourceManager精灵进程和NodeManager精灵进程。
假定你已经做了上一节的1～4步，接下来做下面的步骤：
1）配置etc/hadoop/mapred-site.xml参数如下：
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>配置etc/hadoop/yarn-site.xml参数如下：
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>2）启动ResourceManager精灵进程和NodeManager精灵进程
$ sbin/start-yarn.sh3）查看ResourceManager的web接口，默认为：
-ResourceManager - http://localhost:8088/4）运行一个MapReduce任务
5）当你结束后，停止所有精灵进程：
$ sbin/stop-yarn.sh
版权声明：本文为博主原创文章，未经博主允许不得转载。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

Red Hat RHCE 8 (EX294) Cert Guide

c++ size_t 和 int 的区别

HERE 使用 AWS EF 和 JFrog Artifactory 打

C++ 指针大全：从基础到进阶，一篇快速上手

wirelessnetview好用的无线分析工具

亿图图示专家(EDraw Max) V7.9 中文破解版

Hadoop单节点环境搭建

浏览过的版块

扫码加入运维网微信交流群