设为首页 收藏本站
查看: 1254|回复: 0

[经验分享] python中文分词器pymmseg的安装实录

[复制链接]

尚未签到

发表于 2015-4-21 06:31:19 | 显示全部楼层 |阅读模式
  最近在用python做爬虫项目,感受到了python的强大,这期间要试试python的文本处理,要用到中文分词,故把我安装使用pymmseg的过程记录下来,作为备忘。
  pymmseg的项目下载地址是https://code.google.com/p/pymmseg-cpp/downloads/list
  选择下载源码包,自己编译,省的出现不兼容的情况。我选择的是pymmseg-cpp-src-1.0.2.tar.gz,下面是windows与linux平台的安装过程
  64位win7下pymmseg安装过程:
  1,解压,随便怎么解
  2,确保你有一个命令行可用的C++编译器和连接器,我装了vs2008,就用了vs带的编译器,在vs开始菜单里找到"Visual Studio Tools"/"Visual Studio 2008 x64 Win64 命令提示",这个命令行窗口启动时会自动配好编译器和连接器的环境变量,可以直接使用cl,link等命令了。(64位的机器要用64位的编译器编译,否则32位编译器编译生成的dll,在64位系统中加载会出问题。同理32位的选32的命令窗口)
  3,通过上面的命令行窗口进入解压后的目录,我这里是pymmseg-cpp,再进入子目录,mmseg-cpp,执行



1 python build.py
  然后就是编译生成mmseg的过程,如下图:
DSC0000.png
  4,这时将pymmseg-cpp的整个目录copy到$PYTHON_HOME/Lib/site-packages目录下,并重命名为pymmseg
  5,测试是否可用:



1 from pymmseg import mmseg
2 mmseg.dict_load_defaults()
3 text = '意思是说,tomcat默认设置能接收HTTP POST请求的最大为2M,如果你的POST请求数据大于2M'
4 algor = mmseg.Algorithm(text)
5 for tok in algor:
6     print '%s [%d..%d]' % (tok.text, tok.start, tok.end)
  执行结果如下:



意思 [0..6]
是说 [6..12]
tomcat [13..19]
默认 [19..25]
设置 [25..31]
能 [31..34]
接收 [34..40]
HTTP [40..44]
POST [45..49]
请求 [49..55]
的 [55..58]
最大 [58..64]
为 [64..67]
2M [67..69]
如果 [70..76]
你的 [76..82]
POST [82..86]
请求 [86..92]
数据 [92..98]
大于 [98..104]
2M [104..106]
  到此,说明pymmseg在win7 X64上完全可用了。
  centos6.4 64位下pymmseg安装过程:
  1,确保你安装了gcc,g++,没安gcc和g++的执行:



yum -y install gcc
yum -y install gcc-c++

  2,通windows上下载源码解压,进入目录,并进入子目录mmseg-cpp,执行:



python build.py
  整个过程如下图:
DSC0001.png
  同样将编译好的pymmseg-cpp拷贝到python的lib库下site-packages中并重命名为pymmseg,我是编译安装的python2.75,lib库的地址在/usr/local/lib/python2.7/
  试验是否安装成功,如下图:
DSC0002.png
  到此,windows与linux上的pymmseg均已安装完成,可以使劲的用了。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-58965-1-1.html 上篇帖子: 轻量级AOP框架-移植python的装饰器(Decorator)到C#(编码篇) 下篇帖子: Python快速教程 (手册)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表