Apache Hadoop 入门教程第二章

xyzjr · 发表于 2018-10-28 13:24:13

　　Apache Hadoop 单节点上的安装配置
　　下面将演示快速完成在单节点上的 Hadoop 安装与配置，以便你对 Hadoop HDFS 和 MapReduce 框架有所体会。

先决条件

　　支持平台：
　　GNU/Linux：已经证实了 Hadoop 在 GNU/Linux 平台上可以支持 2000 个节点的集群；
　　Windows。本文所演示的例子都是在 GNU/Linux 平台上运行，若在 Windows 运行，可以参阅 http://wiki.apache.org/hadoop/Hadoop2OnWindows。
　　所需软件：
　　Java 必须安装。Hadoop 2.7 及以后版本，需要安装 Java 7，可以是 OpenJDK 或者是 Oracle（HotSpot）的 JDK/JRE。其他版本的 JDK 要求，可以参阅 http://wiki.apache.org/hadoop/HadoopJavaVersions；
　　ssh 必须安装并且保证 sshd 一直运行，以便用 Hadoop 脚本管理远端Hadoop 守护进程。下面是在 Ubuntu 上的安装的示例：
　　$ sudo apt-get install ssh
　　$ sudo apt-get install rsync
　　1
　　2

下载

　　下载地址在 http://www.apache.org/dyn/closer.cgi/hadoop/common/。

运行 Hadoop 集群的准备工作

　　解压所下载的 Hadoop 发行版。编辑 etc/hadoop/hadoop-env.sh 文件，定义如下参数：
设置 Java 的安装目录
　　export JAVA_HOME=/usr/java/latest
　　1
　　2
　　尝试如下命令：
　　$ bin/hadoop
　　1
　　将会显示 hadoop 脚本的使用文档。
　　现在你可以用以下三种支持的模式中的一种启动 Hadoop 集群：
　　本地（单机）模式
　　伪分布式模式
　　完全分布式模式

单机模式的操作方法

　　默认情况下，Hadoop 被配置成以非分布式模式运行的一个独立 Java 进程。这对调试非常有帮助。
　　下面的实例将已解压的 conf 目录拷贝作为输入，查找并显示匹配给定正则表达式的条目。输出写入到指定的 output 目录。
　　$ mkdir input
　　$ cp etc/hadoop/.xml input
　　$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'dfs[a-z.]+'
　　$ cat output/
　　1
　　2
　　3
　　4

伪分布式模式的操作方法

　　Hadoop 可以在单节点上以所谓的伪分布式模式运行，此时每一个 Hadoop 守护进程都作为一个独立的 Java 进程运行。
　　配置
　　使用如下的:
　　etc/hadoop/core-site.xml:
　　
　　
　　fs.defaultFS
　　hdfs://localhost:9000
　　
　　
　　1
　　2
　　3
　　4
　　5
　　6
　　etc/hadoop/hdfs-site.xml:
　　
　　
　　dfs.replication
　　1
　　
　　
　　有兴趣的可以继续看下一章

　　很多人都知道我有大数据培训资料，都天真的以为我有全套的大数据开发、hadoop、spark等视频学习资料。我想说你们是对的，我的确有大数据开发、hadoop、spark的全套视频资料。
　　如果你对大数据开发感兴趣可以加口群领取免费学习资料： 763835121

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] Apache Hadoop 入门教程第二章

扫码加入运维网微信交流群