Hadoop学习笔记(5)

2341232 · 发表于 2014-7-30 09:06:43

前面我们写了一个Hadoop程序，并让它跑起来了。但想想不对啊，Hadoop不是有两块功能么，DFS和MapReduce。没错，上一节我们写了一个MapReduce的HelloWorld程序，那这一节，我们就也学一学DFS程序的编写。

DFS是什么，之前已经了解过，它是一个分布式文件存储系统。不管是远程或本地的文件系统，其实从接口上讲，应该是一至的，不然很难处理。同时在第2节的最后，我们列出了很多一些DFS的操作命令，仔细看一下，这些命令其实跟linux中的文件操作命令很相似，所以说，对于分布式文件系统，我们完全可以用本地文件的方式来理解。

那理一下，一般常用操作有哪些？当然我们可以从编程角度来：

创建、读、写一个文件，列出文件夹中的文件及文件夹列表，删除文件夹，删除目录，移动文件或文件夹，重命名文件或文件夹。

同样，这里我们就依葫芦画瓢跑起个程序来：

启动eclipse，新建Hadoop项目，名称MyDFSTest，新建类DFSTest，点击确定，然后同样工程属性Configure BuildPath中把 build/ivy/lib/Hadoop下的所有jar包都引用进来。「这里就不详细截图了，可以参考前一节中的内容」

在类中，添加main函数：

public static void main(String[] args) {

}

也可以在添加类时，勾选上创建main，则会自动添加上。

在Main函数中添加以下内容：

try {

Configuration conf = new Configuration();

conf.set("fs.default.name", "hdfs://localhost:9000");

FileSystem hdfs = FileSystem.get(conf);

Path path = new Path("in/test3.txt");

FSDataOutputStream outputStream = hdfs.create(path);

byte[] buffer = " 你好Hello".getBytes();

outputStream.write(buffer, 0, buffer.length);

outputStream.flush();

outputStream.close();

System.out.println("Create OK");

} catch (IOException e) {

e.printStackTrace();

}

直接添加进来会报错，然后需要添加一些引用才行：

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

在没有错误后，点击工具条上的运行，但这次跟前次不一样，选择Run as Java Application。然后，就可以在输出框中看到Create OK的字样了，表明程序运行成功。

这段代码的意思是在in文件夹下，创建test3.txt，里面的内容是"你好Hello"。在运行完后，我们可以到eclipse的Project Explorer中查看是否有这文件以及内容。同样也可以用命令行查看$bin/hadoop fs -ls in。

好了，第一个操作DFS的程序跑起来了，那其它功能只要套上相应的处理类就可以了。

为了方便查找操作，我们列举了张表：

操作说明	操作本地文件	操作DFS文件
主要命名空间	java.io.File java.io.FileInputStream java.io.FileOutputStream	org.apache.hadoop.conf.Configuration org.apache.hadoop.fs.FileSystem org.apache.hadoop.fs.Path org.apache.hadoop.fs.FSDataInputStream; org.apache.hadoop.fs.FSDataOutputStream
初使化对象	new File(路径);	Configuration FileSystem hdfs
创建文件	File.createNewFile();	FSDataOutputStream = hdfs.create(path) FSDataOutputStream.write( buffer, 0, buffer.length);
创建文件夹	File.mkdir()	hdfs.mkdirs(Path);
读文件	new FileInputStream(); FileInputStream.read(buffer)	FSDataInputStream = hdfs.open(path); FSDataInputStream.read(buffer);
写文件	FileOutputStream.write( buffer, 0, buffer.length);	FSDataOutputStream = hdfs.append(path) FSDataOutputStream.write( buffer, 0, buffer.length);
删除文件(夹)	File.delete()	FileSystem.delete(Path)
列出文件夹内容	File.list();	FileSystem.listStatus()
重命令文件(夹)	File.renameTo(File)	FileSystem.rename(Path, Path)

有了这张表，以后不怕了，代码搬搬即可。

接下来换个话题。

本人主要从事.net开发的，所以对于java上，还是有点生。所以接下来半章中，简要的把JAVA的学习列一列。

JAVA和.net现在从语言角度看，的确有很多相似之处。但也有不同之处，这就是我们要学的。

在.Net中，主要有dll和exe， dll为类库， exe为可执行程序，在exe中有唯一的main函数，作为函数入口。dll 类库是无法执行的，exe可以双击运行，也可以命令行执行。编译后，.net会把所有定义的类编译进exe或dll中，一个工程产出文件就是一个。

在JAVA中，jar对应的类库，可以被别人调用。exe就不存在了。一个工程编译后，产出物是一堆的.class文件，在开发中每一个定义的类，都会被编译成这个.class文件。而且一个.java文件中，不能定义多个顶级类（嵌套类是可以的），且文件名与类名必须相同，文件所以的目录必须和命名空间相同。所以编译后，可以讲一个.java文件将会编译成一个.class文件，且有与原先的目录相同。

也就是说，java有点像散装的一样，产物就是一堆的.class文件。那jar文件呢，简单的说，就是一个zip包，把一堆的.class文件打包成一个压缩包。

同时，一个工程中，支持多个main函数，即多个入口。

说了一堆，还不如实践一下：

在eclipse中，创建一个JAVA project 取名为JAVAStudy。

然后创建两个类，没有目录的，ch1 ch2 再创建一个包叫pkg1，在这个包下创建一个类ch3：

然后，每个类下都建一个main函数，内容打印类名：

public static void main(String[] args) {

System.out.println(ch1.class.getName());

}

注意，复制到ch2 ch3中后要改一下里面的类名。

然后每当你切换到一个新的类代码中，点击运行，都会提示Run As ，都选Java Application。然后就可以看到结果了，每个类都可以作为入口执行。

OK，程序好了，如何发布呢，或如何从命令行运行呢？

我们进入目录先看一下：

进入工程目录，可以看到有src和bin，进入bin，就可以看到一个个的class文件了，的确跟前面描述一样，目录与代码相同结构。

输入java ch1 就可以看到结果了。执行ch3时，注意中间不是斜线，而是点，因为这里输入的是命名空间＋类名，而不是class文件的路径。

如果不在这个目录执行，看到会报错，或命名空间输错了，也是这个错。

如果我就在这里想执行呢？可以这样：

利用classpath指定class的路径。

如何打成jar包：

进入bin目录：

$cd bin

$jar cvf test.jar ch1.class ch2.class pkg1/.class

然后在bin目录下就可以看到test.jar文件了。

如何执行jar呢，为了防止与里面的class文件冲突，我们将test.jar复制到外面来：

$cp test.jar ../

$cd ..

再执行：

$java –classpath test.jar ch1

同样，输入classpath就可以搞定了的。

了解了这些后，我们又可以做个试验证了。第一章中我们运行hadoop中Helloword时，是调用了example的jar包。所以这里我们可以把上一章的程序也来打个jar包，试下是否能运行：

$cd ~/workspace/MyHelloWorld //进入HelloWorld代码目录

$cd bin

$jar cvf test.jar *.class //打上jar包

$cp test.jar ../../hadoop-0.20.2 //将jar包复制到hadoop目录下

$cd ../../hadoop-0.20.2

$bin/start-all.sh //启动hadoop

$bin/hadoop test.jar WordCount in out //运行我们写的程序

然后就可以看到与之前一样的结果了。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] Hadoop学习笔记(5)

浏览过的版块

扫码加入运维网微信交流群