设为首页 收藏本站
查看: 428|回复: 0

[经验分享] python中文分词

[复制链接]

尚未签到

发表于 2017-4-22 07:34:26 | 显示全部楼层 |阅读模式
python做SEO相关事情,我在之前的文章已经讲到过,今天给大家分享python中文分词的一些知识。

说到分词,如果是做GOOGLE的朋友,那用python分词很简单,可以直接根据空格来分词,或者有相关的nltk模块来处理。

中文分词的话,就比较麻烦,因为不能通过空格来分词,并且分词还得考虑语义问题等。

下面列出几个比较好的中文分词:我用的比较多的是结巴分词,下面详细介绍下:

1 结巴分词 0.22 发布,Python 中文分词组件 

jieba 支持三种分词模式:
      精确模式,试图将句子最精确地切开,适合文本分析;
      全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
      搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

      并且有5个功能:1分词 2添加自定义词典 3 关键词提取 4 词性标注 5 并行分词 

Python 2.x 下的安装

    全自动安装:easy_install jieba 或者 pip install jieba
    半自动安装:先下载http://pypi.python.org/pypi/jieba/ ,解压后运行python setup.py install
    手动安装:将jieba目录放置于当前目录或者site-packages目录
    通过import jieba 来引用 (第一次import时需要构建Trie树,需要几秒时间)

Python 3.x 下的安装

    目前master分支是只支持Python2.x 的

    Python3.x 版本的分支也已经基本可用: https://github.com/fxsjy/jieba/tree/jieba3k

    git clone https://github.com/fxsjy/jieba.git
    git checkout jieba3k
    python setup.py install

2 pymmseg-cpp: 是一个Python端口pymmseg-CPP,的rmmseg CPP项目的。 rmmseg-CPP是一个MMSEG中文分词算法的实现在一个Ruby的C + +接口。

3 Loso:Loso是一个用Python编写的中文分词系统。
它最初被开发为改善Plurk搜索,但适用简体中文。  

4 smallseg :
smallseg -- 开源的的轻量级的中文分词工具包
特点:可自定义词典、速度快、可在Google App Engine上运行。

5 句读:http://judou.org/
1 开放的中文分词项目
2 高性能、高可用性分词系统

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-367515-1-1.html 上篇帖子: Python 基本笔记 下篇帖子: Python 二维数组
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表