设为首页 收藏本站
查看: 1144|回复: 0

[经验分享] Hadoop的改进实验(中文分词词频统计及英文词频统计)(3/4)

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2015-7-15 09:58:25 | 显示全部楼层 |阅读模式

  声明:

  1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。

  2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》

  3)本文由于过长,无法一次性上传。其相邻相关的博文,可参见《Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构》,以阅览其余三篇剩余内容文档。

(四)单机Hadoop伪分布的中文分词统计词频(续)
    中文分词词频统计实验-Java程序


  • 单机伪分布对中文分词并统计词频 1)实验准备
  根据国内新闻时事,从新浪选择选择亚信峰会的领导人发言内容。保存在文本中, 并转换为UTF8文本。
  使用IK分词jar包,为什么选择它?两个原因考虑:第一,其理解较为简单,故分词效果不是很好,但是适合初学者学习。第二,它提供开源的java接口,方便hadoop使用。
2)实验过程
DSC0000.png
      如上图所示,将新闻样本放入分布式目录内,然后执行中文分词的IK包,在这里已经将词频统计和IK分词的功能做了合并打包,故直接调用合并的jar包即可,在这里文件名是chinesewordcount.jar。
DSC0001.png
      通过指令执行后,得到结果。此部分不再赘述,对于执行指令的机械性而言,已经很是单调了,但是研究中文分词IK包很有意思。图片部分示意词频如下:
DSC0002.png
      文字内容结果如下:
  
  12个    1
  14个    1
  20  1
  21世纪  3
  21日    1
  47个    1
  5月 1
  67  1
  一个 1
  一体化   1
  一己之私 5
  一损俱损 3
  一条 1
  一步一个脚印    1
  一荣俱荣 3
  一贯 1
  一道 3
  一部分   1
  三分之一 1
  三股 2
  上  1
  上午 2
  上海 5
  不出 2
  不利于   1
  不同 4
  不在 1
  不安全   2
  不懈努力 1
  不断 2
  不断扩大 3
  不能 2
  与  22
  世  2
  世界 6
  世界上   1
  世界各国 1
  世界和平 2
  世界经济 2
  东盟 3
  丝绸之路 2
  中  5
  中华人民共和国    2
  中华民族 2
  中国 15
  中国人民 2
  中心 3
  中方 9
  为  15
  主席 1
  主席国   4
  主旨 2
  主权 2
  主流 2
  主要 2
  主题 2
  举行 1
  之  6
  之地 1
  之路 1
  之际 2
  也  2
  也是 5
  领导人(本词条为主席,被屏蔽) 30
  了  3
  争端 8
  事  1
  事业 2
  事件 1
  事务 5
  事情 1
  事端 5
  互  3
  互不干涉内政    1
  互信 2
  互利 4
  互动 1
  亚  4
  亚太 3
  亚太地区 8
  亚洲 47
  亚洲人   2
  亚洲国家 3
  亚洲金融危机    1
  交流 4
  交融 2
  亲  3
  人口 1
  人民 3
  人民网   1
  人类 3
  今天 4
  今日 2
  从低 3
  他  1
  代  2
  代表 3
  以  17
  以邻为壑 5
  们  2
  任何 1
  众多 1
  伙伴 2
  会  3
  会于 1
  伟大 2
  传统 2
  伴  1
  但  1
  体已 2
  作  2
  作和 1
  作用 2
  使  2
  使用 5
  依托 1
  
  依然是   1
  侵害 1
  促  5
  促进 7
  俄罗斯   3
  保障 1
  信  4
  信任 3
  倍加 1
  倡导 3
  倡导者   1
  倡议 11
  值得 1
  值此 2
  做  4
  停留在   2
  像  2
  先生们   3
  入手 3
  全  5
  全世界   1
  全局 1
  全是 1
  全都 4
  六方会谈 1
  共  8
  共享 1
  共同 12
  共同体   3
  共同努力 2
  共同发展 4
  共同生活 1
  共同进步 3
  共商 1
  共建 2
  共谋 4
  关切 1
  关系 1
  关键 1
  其  2
  其他国家 1
  其他地区 1
  内涵 1
  军事同盟 1
  冷战 2
  准则 1
  减少 1
  出了 2
  出新 2
  分歧 2
  分裂主义 1
  刚才 2
  创新 4
  利益 5
  别人 2
  别国 1
  制  1
  前任 2
  前进 2
  前途 1
  力使 1
  力度 1
  力量 2
  加大 1
  加强 6
  加快 1
  动力 1
  动辄 5
  努  1
  努力 2
  努力实现 3
  势  1
  势力 2
  包容 1
  包括 1
  化  1
  化为 1
  区域 2
  区域合作 2
  区域经济 1
  医  2
  千差万别 1
  协  1
  协作 4
  协商 2
  协调 2
  南盟 3
  博  2
  博弈 5
  卢  2
  印度 1
  历史 2
  参与 3
  又有 1
  又要 1
  及  1
  友好 1
  友好合作 1
  双赢 1
  反对 15
  发  1
  发展 21
  发挥 12
  发言 6
  发起 1
  取向 2
  取长补短 3
  变  1
  句  1
  另一 1
  召开 1
  可  3
  可持续发展   1
  各  1
  各位 2
  各国 12
  各国人民 2
  各方 3
  各种 1
  各自 2
  
  合  1
  合作 52
  合理 1
  同  14
  同事 1
  同化 1
  同时 3
  否则 1
  启动 1
  吹灭 2
  命运 4
  和  46
  和平 29
  和平共处五项原则 2
  和睦相处 1
  哈萨克斯坦    4
  商同 1
  善  1
  因  1
  团  1
  园里 1
  围绕 1
  固  1
  国  4
  国中 1
  国家 13
  国家和地区    1
  国家安全 3
  国是 1
  国际 2
  国际关系 1
  国际社会 1
  国际组织 2
  土  2
  土耳其   4
  在  14
  在内 1
  地  1
  地上 2
  地位 1
  地区 27
  坚定 3
  坚定不移 1
  坚持 2
  坚持以   5
  坦诚 1
  垄断 1
  培育 3
  基本准则 2
  基础 1
  基础上   1
  基础设施 2
  增多 1
  增进 1
  增长 2
  处在 1
  处理 4
  复兴 2
  复杂 1
  外延 1
  多  1
  多样性   2
  多种多样 1
  多管齐下 1
  大会 1
  大厦 1
  大多数   1
  大好局面 1
  大家 4
  大小 1
  大树 1
  大计 1
  夯实 1
  头  1
  头疼 1
  奉行 1
  奥  2
  女士们   3
  好  3
  始于 1
  始终不渝 1
  始终是   3
  威胁 3
  安  6
  安全 68
  安全观   7
  安全问题 6
  安危与共 1
  安宁 1
  宗教 3
  实现 6
  实践者   1
  客人 1
  家和 2
  容  1
  容忍 1
  富  1
  对  13
  对话 6
  将  3
  将同 1
  尊重 4
  就不能   2
  就会 1
  就应该   1
  就是 6
  尽早 1
  局面 1
  山积 1
  峰  1
  峰会 1
  崇高 2
  巩固 8
  差异性   1
  已经 1
  带来 1
  帮助 2
  常态 1
  平  2
  平等 6
  并  1
  并重 1
  幸  1
  幸福生活 1
  应对 6
  应急 1
  应有 2
  应该 4
  应该是   3
  建立 2
  建设 1
  建设性   1
  建造 1
  开放 2
  异  1
  强化 1
  强弱 1
  归根结底 3
  当前 1
  形势 3
  形成 1
  影响 4
  彻底解决 1
  很不 1
  必  2
  必须 1
  态度 1
  思维 2
  总  2
  总统 2
  恐怖主义 2
  恪守 1
  息息相关 1
  惠  1
  惠及 1
  意义 4
  意识 3
  感谢 4
  愿意 3
  成  1
  成为 3
  成员国   1
  我  3
  我们 2
  或以 5
  战略 3
  所谓 1
  打击 2
  执法 2
  承前启后 1
  把  1
  投资银行 2
  担任 2
  拓展 1
  拥有 1
  持久 1
  持久和平 2
  持续 3
  指导 1
  挑战 5
  挑起 5
  挥着 1
  振兴 1
  损人利己 5
  探讨 2
  推动 5
  推进 3
  提出 3
  提升 1
  搭建 1
  支持 8
  改善 1
  政策 2
  敏感 4
  文化传统 1
  文明 5
  新  4
  新亚洲   1
  方为 1
  方兴未艾 1
  方式 12
  施  1
  既有 1
  既要 1
  日益 2
  日至 1
  旧时代   5
  时代 4
  时而 1
  明  1
  是  5
  普遍 1
  智慧 1
  更  1
  更加 3
  更大 2
  更好 2
  最具 1
  最大 2
  有  2
  有关 2
  朋友们   5
  望  2
  木  1
  本地区   2
  机制 2
  权利 1
  条件 1
  来  3
  来之不易 1
  来宾 1
  来说 1
  极为 1
  极端主义 1
  架构 1
  根基 1
  根本 1
  梦  4
  梦想 2
  欢迎 1
  欲  1
  正  1
  正在 3
  正当权益 1
  步伐 2
  武  2
  武力 10
  每一个   1
  民办 1
  民族 1
  民族宗教 1
  民有 1
  民生 1
  求  2
  汇聚 1
  沟通 1
  治理 1
  泽  1
  洲  1
  活力 2
  活跃 1
  流  1
  浚  1
  海上 1
  海洋权益 1
  深入 3
  深化 1
  深远 4
  源泉 1
  潜力 1
  潜在 1
  激化矛盾 5
  火中 1
  灯  2
  烧掉 2
  热点 1
  热点问题 1
  烽  1
  照顾 1
  特  2
  特别 2
  特别是   2
  特点 1
  牺牲 1
  犯罪 1
  独立 1
  猜疑 1
  环境 1
  现在 1
  现实状况 1
  珍惜 1
  理念 2
  生  1
  疼  1
  的  101
  盛举 4
  相互 1
  相互交织 1
  相互促进 5
  相互信任 1
  相同 1
  相威胁   5
  相得益彰 5
  相聚 1
  看法 2
  着力 1
  着眼 3
  睦邻 1
  矛盾 1
  知者 1
  硕果 1
  社会制度 2
  祥和 1
  福  3
  积  1
  积极 7
  积极作用 3
  积极参与 1
  积累 1
  稳定 12
  突出 2
  突发 1
  立了 1
  第三方   1
  第四次   1
  等  4
  策  1
  繁荣 4
  组织 1
  经得起   1
  经济合作 1
  经济带   1
  经济总量 1
  结  1
  结上 1
  绝对 1
  统筹 2
  维护 13
  综合 3
  缅甸 1
  缩小 1
  网络安全 1
  美好 2
  考验 1
  者  1
  而  7
  而其 1
  而在 1
  聚焦 1
  胡子 2
  胳膊 1
  能力 1
  能在 1
  能源 1
  脑袋 2
  脚  2
  自主 1
  
  
  自己 2
  自然灾害 1
  自身 3
  致力于   2
  良好 1
  良性 1
  良策 4
  虽然 1
  表示 2
  表达 2
  衷心 2
  襄  4
  要  16
  要靠 3
  观察员   1
  解决 9
  计划 1
  论坛 1
  诉求 1
  诚  1
  说得好   1
  说的 2
  谈判 3
  谋  5
  谋划 1
  谋求 2
  谚语 3
  谢谢 1
  谨  2
  贡献 4
  责任 1
  贫富 1
  贫富差距 1
  贫瘠 1
  资源 1
  赢  5
  走  1
  走出 1
  越来越重要    1
  跟上 2
  跨国 1
  践行 1
  身  2
  转  1
  边界问题 1
  迎难而上 1
  近  1
  还  2
  这  1
  这一 1
  这个 1
  进一步   1
  进入 2
  进步 2
  进程 5
  远者 1
  连天 1
  选择 1
  通盘考虑 1
  通过 9
  造福 1
  道路 2
  避免 1
  那样 2
  邻  7
  部分 1
  都  1
  都不 1
  都在 1
  都有 2
  采取 1
  重大 6
  重建 1
  重要作用 8
  金融危机 1
  鉴  3
  针对 1
  钥匙 2
  长  4
  长治久安 4
  长者 1
  问题 2
  间  1
  阐述 2
  阶段 1
  阿富汗   1
  阿盟 3
  陆地 1
  随  1
  零  6
  非传统   2
  面临 1
  领土 1
  领土完整 1
  领域 8
  领导人   1
  风险 1
  风雨 1
  高  1
  齐头并进 1
  
  
      经过验证,上述新闻的报道词频均正确。
      但IK分词包在超过几万字的小说进行分析时,却没有精确的数字。如分析明清传奇小说《红楼梦》,"贾宝玉"的次数明显没有达到十万次。作为配角出场的"刘姥姥"竟然比"黛玉"出现的频率还要高?显然是不对的。这是数据在撒谎,至于如何解决,本实验后续修正会继续进行。
      说明IK分词的词数量范围不能达到万字的数量级,且说明IK分词包的效果并不是很好。
DSC0003.png
Liunx命令处理文本结果


  • Linux处理排序文本结果
    1)sort指令和awk指令
      sort指令和awk指令用于对中文词频高低进行排序。
      指令格式可以如下:
      #cat result.txt | sort –r -n –k 2,2
      格式大概意思为:
      竖立线左侧,为捕获待处理排序的文本。
      竖立线右侧,为sort命令。
      sort –r指降序排列。
      sort -n指按数值型排序(有时10比2的小,因为字符型,可能1比2小,导致比较结果不符合个人需要。)
      sort -k指对文本域操作,-k一般有域起点和域终点。咱们统计词频大概格式是"word numbers",所以word是第一列,即第一域,numbers是第二域。
      -k 2,2指对第2域开始,第2域结束。即对第2域处理。假设样本是英文的单词,如"Hello 5",我们如果对第二个字母排序,则设置为-k 1.2,1.2即可。
2)grep指令
      为
      #grep -o 'keywords' [filename] | wc -l
      grep指令寻找关键词在文本中,返回寻找的关键词的次数。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-86832-1-1.html 上篇帖子: hadoop学习笔记(二):安装hive 下篇帖子: Hadoop Map/Reduce Overview
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表