设为首页 收藏本站
查看: 1228|回复: 0

[经验分享] Hadoop测试例子wordcount

[复制链接]

尚未签到

发表于 2015-7-12 09:49:58 | 显示全部楼层 |阅读模式
   1、建立一个测试的目录  



[iyunv@localhost hadoop-1.1.1]# bin/hadoop dfs -mkdir /hadoop/input

  
   2、建立测试文件



[iyunv@localhost test]# vi test.txt

hello hadoop
hello World
Hello Java
Hey man
i am a programmer
    3、将测试文件放到测试目录中



[iyunv@localhost hadoop-1.1.1]# bin/hadoop dfs -put ./test/test.txt /hadoop/input
  4、执行wordcount程序



[iyunv@localhost hadoop-1.1.1]# bin/hadoop jar hadoop-examples-1.1.1.jar wordcount /hadoop/input/* /hadoop/output
  /hadoop/output目录必须不存在,否则会报错:



org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory /hadoop/output already exists
  因为Hadoop执行的是耗费资源的运算,产生的结果默认是不能被覆盖的。
      执行成功的话,显示下面的信息:



[iyunv@localhost hadoop-1.1.1]# bin/hadoop jar hadoop-examples-1.1.1.jar wordcount /hadoop/input/* /hadoop/output
13/01/17 00:36:06 INFO input.FileInputFormat: Total input paths to process : 1
13/01/17 00:36:06 INFO util.NativeCodeLoader: Loaded the native-hadoop library
13/01/17 00:36:06 WARN snappy.LoadSnappy: Snappy native library not loaded
13/01/17 00:36:07 INFO mapred.JobClient: Running job: job_201301162205_0006
13/01/17 00:36:08 INFO mapred.JobClient:  map 0% reduce 0%
13/01/17 00:36:14 INFO mapred.JobClient:  map 100% reduce 0%
13/01/17 00:36:22 INFO mapred.JobClient:  map 100% reduce 33%
13/01/17 00:36:24 INFO mapred.JobClient:  map 100% reduce 100%
13/01/17 00:36:25 INFO mapred.JobClient: Job complete: job_201301162205_0006
13/01/17 00:36:25 INFO mapred.JobClient: Counters: 29
13/01/17 00:36:25 INFO mapred.JobClient:   Job Counters
13/01/17 00:36:25 INFO mapred.JobClient:     Launched reduce tasks=1
13/01/17 00:36:25 INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=6863
13/01/17 00:36:25 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0
13/01/17 00:36:25 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0
13/01/17 00:36:25 INFO mapred.JobClient:     Launched map tasks=1
13/01/17 00:36:25 INFO mapred.JobClient:     Data-local map tasks=1
13/01/17 00:36:25 INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=9207
13/01/17 00:36:25 INFO mapred.JobClient:   File Output Format Counters
13/01/17 00:36:25 INFO mapred.JobClient:     Bytes Written=78
13/01/17 00:36:25 INFO mapred.JobClient:   FileSystemCounters
13/01/17 00:36:25 INFO mapred.JobClient:     FILE_BYTES_READ=128
13/01/17 00:36:25 INFO mapred.JobClient:     HDFS_BYTES_READ=170
13/01/17 00:36:25 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=48059
13/01/17 00:36:25 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=78
13/01/17 00:36:25 INFO mapred.JobClient:   File Input Format Counters
13/01/17 00:36:25 INFO mapred.JobClient:     Bytes Read=62
13/01/17 00:36:25 INFO mapred.JobClient:   Map-Reduce Framework
13/01/17 00:36:25 INFO mapred.JobClient:     Map output materialized bytes=128
13/01/17 00:36:25 INFO mapred.JobClient:     Map input records=5
13/01/17 00:36:25 INFO mapred.JobClient:     Reduce shuffle bytes=128
13/01/17 00:36:25 INFO mapred.JobClient:     Spilled Records=22
13/01/17 00:36:25 INFO mapred.JobClient:     Map output bytes=110
13/01/17 00:36:25 INFO mapred.JobClient:     CPU time spent (ms)=1650
13/01/17 00:36:25 INFO mapred.JobClient:     Total committed heap usage (bytes)=176492544
13/01/17 00:36:25 INFO mapred.JobClient:     Combine input records=12
13/01/17 00:36:25 INFO mapred.JobClient:     SPLIT_RAW_BYTES=108
13/01/17 00:36:25 INFO mapred.JobClient:     Reduce input records=11
13/01/17 00:36:25 INFO mapred.JobClient:     Reduce input groups=11
13/01/17 00:36:25 INFO mapred.JobClient:     Combine output records=11
13/01/17 00:36:25 INFO mapred.JobClient:     Physical memory (bytes) snapshot=180088832
13/01/17 00:36:25 INFO mapred.JobClient:     Reduce output records=11
13/01/17 00:36:25 INFO mapred.JobClient:     Virtual memory (bytes) snapshot=756244480
13/01/17 00:36:25 INFO mapred.JobClient:     Map output records=12
[iyunv@localhost hadoop-1.1.1]#
  5、查看结果
      wordcount程序统计目标文件中的单词个数,将结果输出到/hadoop/output/part-r-00000文件中



[iyunv@localhost hadoop-1.1.1]# bin/hadoop dfs -ls /hadoop/output

Found 3 items
-rw-r--r--   1 root supergroup          0 2013-01-17 00:36 /hadoop/output/_SUCCESS
drwxr-xr-x   - root supergroup          0 2013-01-17 00:36 /hadoop/output/_logs
-rw-r--r--   1 root supergroup         78 2013-01-17 00:36 /hadoop/output/part-r-00000
[iyunv@localhost hadoop-1.1.1]#


[iyunv@localhost hadoop-1.1.1]# bin/hadoop dfs -cat /hadoop/output/part-r-00000

Hello   1
Hey     1
Java    1
World   1
a       1
am      1
hadoop  1
hello   2
i       1
man     1
programmer      1
[iyunv@localhost hadoop-1.1.1]#
  
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-85699-1-1.html 上篇帖子: [Cloudera Hadoop] CDH 4.0 Quick Start Guide (动手实践,最新版CDH4.0,企业版Hadoop) 下篇帖子: 手动安装cloudera cdh4.2 hadoop + hbase + hive(一)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表