hadoop程序运行

o_哈哈o · 发表于 2015-7-12 12:23:02

　　hadoop命令的使用：
　　Usage: hadoop [--config confdir] COMMAND
　　这里COMMAND为下列其中一个：

namenode -format       格式化DFS文件系统
secondarynamenode    运行DFS的第二个namenode
namenode                   运行DFS的namenode
datanode                   运行一个DFS的datanode
dfsadmin          运行一个DFS的admin 客户端
fsck             运行一个DFS文件系统的检查工具
fs                运行一个普通的文件系统用户客户端
balancer          运行一个集群负载均衡工具
jobtracker       运行MapReduce的jobTracker节点
pipes             运行一个Pipes作业
tasktracker    运行一个MapReduce的taskTracker节点
job                处理MapReduce作业
version       打印版本
jar       运行一个jar文件
distcp    递归地复制文件或者目录  （采用分布式复制方法，一般用于两个HDFS集群中）
archive -archiveName NAME *  生成一个Hadoop档案    (将har当作一个新的文件系统，《权威指南3.8节》）
daemonlog             获取或设置每个daemon的log级别
或CLASSNAME             运行名为CLASSNAME的类大多数命令会在使用w/o参数
时打出帮助信息。

hadoop程序的编译：（我是用的hadoop版本为hadoop-0.20.203.0)

　　1.注意的是要将hadoop的core包加入到classpath中，命令如下：
　　javac -classpath ~/hadoop-0.20.203.0/hadoop-core-0.20.203.0.jar FileSystemDoubleCat.java
　　（这里还有一个疑问：我用通配符添加jar包时一直失败（使用 *.jar)，提示找不到类？？？？？？）

运行hadoop程序的方法如下：

　　1.直接使用hadoop CLASSNAME 【args】运行，
　　（注意此时需设置环境变量 HADOOP_CLASSPATH中包含当前类。其中当前目录中应该包含.class文件，这个可以通过在eclipse中的bin文件下取得，或用上面的方法进行编译）
　　如：hadoop FileSystemDoubleCat hdfs://localhost:9000/user/kqiao/uploadFile
　　2.将程序打包成jar包，然后使用hadoop jar命令运行。
　　这只相当于将上面中的.class文件打包，然后运行该jar文件。（注意，如果以集群模式下运行hadoop，则只能使用这种方法，因为需要在各网络节点上分发jar包）并且主程序中要有：
　　job.setJarByClass(MaxTemperature.class)这句，用于设定jar类
　　命令如下：jar -cvf FileSystemDoubleCat.jar FileSystemDoubleCat.class
                  hadoop jar FileSystemDoubleCat.jar FileSystemDoubleCat hdfs://localhost:9000/user/kqiao/uploadFile
　　3.安装eclipse的hadoop插件，直接在eclipse中编辑程序，然后运行
　　这应该算是最简单的运行方法了吧。。。。
　　在run configuration下完成配置，然后 run on hadoop即可。
　　-----------------------------------------------------------------------------------------------------------------------------------
　　以后记录我在运行中遇到的问题～
　　（1）-D mapred.reduce.tasks=2 或  job.setNumReduceTasks(2) 设置reducer的数量
　　（换了一个hadoop版本，不知道为什么，使用-D  选项设置reducer数量失败了，没有报错，但是reducer保持为1，只能使用job.set来设置？未解决。。）
　　(2)如果已经确定有某类的存在，却一直提示找不到该类，一般是因为class_path的设置问题。
　　(3)如果自定义的mapper类是主类的内部类时，一定记得将其定义为static。
　　(4)hadoop程序，如果有运行错误，主要通过查看job或task的日志解决：看看抛出了什么样的异常，在哪个阶段，哪个任务抛出了异常。
　　如果是运行结果与预期不符，则通过查看计数器判断那部分出错，另一方面可以在程序中加入输出语句,System.out.println("****")；然后在web页面中的job下查看各个job的task日志，看看 stdout log, stderr log进行分析排序。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] hadoop程序运行

浏览过的版块

扫码加入运维网微信交流群