(^o^)/~完美 发表于 2015-4-24 05:53:59

结巴分词 0.27 发布,Python 中文分词组件

  本次release的主要更新:
  1) 新增并行分词功能,可以在多核计算机上显著提高分词速度
  2) 修正了“的”字频过高引起的bug;修正了对小数点和下划线的处理
  3) 修正了python2.6存在的兼容性问题
   并行分词介绍:


[*]原理:将目标文本按行分隔后,把各行文本分配到多个python进程并行分词,然后归并结果,从而获得分词速度的可观提升
[*]基于python自带的multiprocessing模块,目前暂不支持windows
[*]  用法:

[*]jieba.enable_parallel(4) # 开启并行分词模式,参数为并行进程数
[*] jieba.disable_parallel() # 关闭并行分词模式



[*]  例子: https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py
[*]  实验结果:在4核3.4GHz Linux机器上,对金庸全集进行分词,获得了1MB/s的速度,是单进程版的3.3倍。

页: [1]
查看完整版本: 结巴分词 0.27 发布,Python 中文分词组件