Hadoop初探之怀旧版Hadoop-0.20.2把玩

333rff · 发表于 2014-3-7 15:16:42

一、前言
      由于后知后觉，以至于此时才开始Hadoop之旅，但《Hadoop权威指南》之类的教程以不能与时俱进，在Hadoop 2.2.0横行的今日难觅可运行只配置，遂想仍以《Hadoop权威指南》为蓝本把玩怀旧版Hadoop-0.20.2。Hadoop-0.20.2已不能从官网的DownLoad中找到，需要从归档地址下载，点击这里即可如愿。

二、环境
      关于各种零碎的安装、配置、格式化、启动和停止等仍然可以参看这里，不再重。
      当然，在此也不放把新版本的这些琐事也贴一个链接在这里，以备参考。

三、测试
      这里自然是以WordCount为例，此例堪称Hadoop界的HelloWorld。
      WordCount.java在hadoop-0.20.2/src/examples/org/apache/hadoop/examples目录下。
1、本地准备数据
      登录Hadoop机器，在本地目录下创建存放输入数据的文件夹以及文件，比如：
      #pwd
      /root
      #mkdir input
      #vi input/file01.txt
      Hello World Bye World
      #vi input/file02.txt
      Hello Hadoop Goodbye Hadoop
2、上传至HDFS
      在HDFS上创建存放输入数据的文件夹及文件，比如：
      #hadoop fs -mkdir /tmp/input
      #hadoop fs -ls
      Found 1 items
      drwxr-xr-x - root          supergroup       0 2014-02-19 07:36 /tmp/input
      上传本地文件数据到HDFS的input目录下，比如：
      #hadoop fs -put ~/input/file*.txt /tmp/input
      #hadoop fs -ls /tmp/input
      Found 2 items
      -rwxr-xr-x - root          supergroup       1 2014-02-19 07:36 /tmp/input/file01.txt
      -rwxr-xr-x - root          supergroup       2 2014-02-19 07:36 /tmp/input/file02.txt
3、运行程序
      （1）拿来主义
      如果你不想重新编译并产生jar包，可以直接用/root/hadoop-0.20.2/hadoop-0.20.2-examples.jar，默认wordcount（注意是小写）已经打在里面了，如下来执行程序：
      #hadoop jar /root/hadoop-0.20.2/hadoop-0.20.2-examples.jar wordcount /tmp/input /tmp/output01
      执行上面语句后，Hadoop命令会启动一个JVM来运行这个MapReduce程序，并自动获得Hadoop的配置，同时把类的路径（及其依赖关系）加入到Hadoop的库中。并在屏幕上输出Hadoop Job的运行记录，从中可以看到，这个Job被赋予了一个ID号：job_201402190740_0001，而且得知输入文件有两个（Total input paths to process : 2），同时还可以了解map的输入输出记录（record数及字节数），以及reduce输入输出记录。比如说，在本例中，map的task数量是2个，reduce的task数量是一个。map的输入record数是2个，输出record数是4个等信息。
      （2）自己动手
      如果你不满足于“舶来品”，可以“自己动手，丰衣足食”，开始吧：
      （A）编译源码
      在本地路径下，新建目录wordcount用于存放编译结果：
      #pwd
      /root
      #mkdir wordcount
      拷贝WordCount.java至/root/wordcount文件夹下：
      #cp /root/hadoop-0.20.2/src/examples/org/apache/hadoop/examples/WordCount.java wordcount
      #javac -classpath /root/hadoop-0.20.2/hadoop-0.20.2-core.jar:/root/hadoop-0.20.2/lib/commons-cli-1.2.jar -d ./ WordCount.java
      关于如何在Linux下编译java程序，请参看这里。
      #ll org/apache/hadoop/examples/
      total 12
      -rw-r--r--. 1 root root 1911 Feb 23 07:19 WordCount.class
      -rw-r--r--. 1 root root 1793 Feb 23 07:19 WordCount$IntSumReducer.class
      -rw-r--r--. 1 root root 1790 Feb 23 07:19 WordCount$TokenizerMapper.class
      （B）打包文件
      将生成的.class文件打成jar包：
      #jar -cvf WordCount.jar org/apache/hadoop/examples/*.class
      #rm -rf org
      上面的删除操作是必须的，否则会找错路径（找到org/apache/hadoop/examples下去了）。
      （C）执行程序
      #hadoop jar WordCount.jar org.apache.hadoop.examples.WordCount /tmp/input /tmp/output02
      需要注意的是：不要在VMWare虚拟机上部署伪分布式集群跑这个MapReduce任务，否则会慢到让你感觉它一直卡着没动静。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] Hadoop初探之怀旧版Hadoop-0.20.2把玩

扫码加入运维网微信交流群