设为首页 收藏本站
查看: 1150|回复: 0

[经验分享] solr分词一:mmseg4j

[复制链接]

尚未签到

发表于 2015-7-18 09:45:52 | 显示全部楼层 |阅读模式
  刚接触Lucene2.x和Solr2.x的时候,谈到中文分词,会让我立即想到用庖丁中文分词,庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库,而且是纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制版本而出名。
  几年过去了,Lucene和Solr都发展到了4.7.x版本,重拾中文分词,发现庖丁中文分词不再是首选,mmseg4j是更佳的选择。
  mmseg4j支持最多分词,是一款很优秀的中文分词器,是用Chih-Hao Tsai 的 MMSeg 算法( http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
  要想在Solr中整合mmseg4j其实很容易,只需要如下几个步骤
  1、下载( https://code.google.com/p/mmseg4j/downloads/list )并解压mmseg4j-1.9.1.zip,把dist下面的所有jar文件拷贝到你应用服务器下的 solr /WEB-INF/lib中。(如果你的应用服务器下面没有 solr ,请参考《Tomcat中安装Solr》)。
  有3个jar文件:mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar,mmseg4j-solr-1.9.1.jar。
  顺便提下,如果是在mmseg4j-1.9.0前, 则需要copy data目录到solr_home/solr中(与core平级),并改名为dic。进入到你想使用mmseg4j分词器的core中(此处以solr自带的collection1为例),用编辑器打开collection1/conf/schema.xml配置文件,添加如下代码:










  2、 在mmseg4j-1.9.0后,如本例的mmseg4j-1.9.1中 ,就 可以不用 dicPath 参数,可以使用 mmseg4j-core-1.9.0.jar 里的 words.dic ,在Schema.xml中加入如下配置


   
      
        
      
   
   
      
        
      
   
   
      
      
      
      
  
  
  3、引用mmseg4j分词器
  只需要在该schema.xml中加入如下配置便可引用对应的mmseg4j分词器




  通过以上步骤就可以成功配置mmseg4j分词器到solr中了。
  然后就可以打开Solr Admin的Page进行分词分析了。但当输入中文(华南理工大学)并点击“Analyse Values”进行分析时,会发现如下的错误:  TokenStream contract violation: reset()/close() call missing, reset() called multiple times, or subclass does not call super.reset(). Please see Javadocs of TokenStream class for more information about the correct consuming workflow.
  
DSC0000.png
该原因是源码的一个bug引起的,需要修改上面下载的mmseg4j-analysis-1.9.1.zip解压后的mmseg4j-analysis目录下的类:MMSegTokenizer.java,修改reset()方法并加上下面注释中的这一句

public void reset() throws IOException {
    //lucene 4.0
    //org.apache.lucene.analysis.Tokenizer.setReader(Reader)
    //setReader 自动被调用, input 自动被设置。
    super.reset();   //加这一句
    mmSeg.reset(input);
  }
  修改后运行mvn clean package -DskipTests进行打包得到最新的mmseg4j-analysis-1.9.1.jar 并替换Tomcat下的solr下的WEB-INF/lib下的mmseg4j-analysis-1.9.1.jar。
  重新启动Tomcat并访问Solr Admin Page,并在“Analysis”中输入中文进行分析,可以看到已经成功的进行分析。
  
DSC0001.png

  这样这个Bug就解决了。
  另外,mmseg4j中文分词和庖丁中文分词的对比效果可以参照下面的结果,从结果可以看出,mmseg4j比起庖丁中文分词来说,是更好的选择。
  paoding 分词效果:


  • --------------------------
  • 清华大学
  • 清华 | 大 | 华大 | 大学 |
  • --------------------------
  • 华南理工大学
  • 华南 | 理工 | 大 | 大学 |
  • --------------------------
  • 广东工业大学
  • 广东 | 工业 | 大 | 业大 | 大学 |
  • --------------------------
  • 西伯利亚
  • 西伯 | 伯利 | 西伯利亚 |
  • --------------------------
  • 研究生命起源
  • 研究 | 研究生 | 生命 | 起源 |
  • --------------------------
  • 为首要考虑
  • 为首 | 首要 | 考虑 |
  • --------------------------
  • 化装和服装
  • 化装 | 和服 | 服装 |
  • --------------------------
  • 中国人民银行
  • 中国 | 国人 | 人民 | 银行 |
  • --------------------------
  • 中华人民共和国
  • 中华 | 华人 | 人民 | 共和 | 共和国 |
  • --------------------------
  • 羽毛球拍
  • 羽毛 | 羽毛球 | 球拍 |
  • --------------------------
  • 人民币
  • 人民 | 人民币 |
  • --------------------------
  • 很好听
  • 很好 | 好听 |
  • --------------------------
  • 下一个
  • 下一 | 一个 |
  • --------------------------
  • 为什么
  • 为什么 |
  • --------------------------
  • 北京首都机场
  • 北京 | 首都 | 机场 |
  • --------------------------
  • 东西已经拍卖了
  • 东西 | 已经 | 拍卖 | 卖了 |
  • --------------------------
  • 主人因之生气
  • 主人 | 生气 |
  • --------------------------
  • 虽然某些动物很凶恶
  • 动物 | 凶恶 |
  • --------------------------
  • 朋友真背叛了你了
  • 朋友 | 真 | 背叛 |
  • --------------------------
  • 建设盒蟹社会
  • 建设 | 盒蟹 | 社会 |
  • --------------------------
  • 建设盒少蟹社会
  • 建设 | 盒少 | 少蟹 | 社会 |
  • --------------------------
  • 我们家门前的大水沟很难过。
  • 我们 | 家门 | 前 | 门前 | 前的 | 大 | 大水 | 水沟 | 很难 | 难过 |
  • --------------------------
  • 罐头不如果汁营养丰富。
  • 罐头 | 不如 | 如果 | 果汁 | 营养 | 丰富 |
  • --------------------------
  • 今天真热,是游泳的好日子。
  • 今天 | 天真 | 热 | 游泳 | 日子 | 好日子 |
  • --------------------------
  • 妹妹的数学只考十分,真丢脸。
  • 妹妹 | 数学 | 只考 | 十分 | 真 | 丢脸 |
  • --------------------------
  • 我做事情,都是先从容易的做起。
  • 做事 | 事情 | 都是 | 先从 | 从容 | 容易 | 容易的 | 做起 |
  • --------------------------
  • 老师说明天每个人参加大队接力时,一定要尽力。
  • 老师 | 师说 | 说明 | 明天 | 每个 | 个人 | 人参 | 参加 | 大 | 加大 | 大队 | 接力 | 时 | 一定 | 定要 | 要尽 | 尽力 |
  • --------------------------
  • 小明把大便当作每天早上起床第一件要做的事
  • 小明 | 大 | 大便 | 便当 | 当作 | 每天 | 早上 | 上起 | 起床 | 床第 | 第一 | 一件 | 要做 | 做的 | 的事 |
  mmseg4j maxword 分词效果:


  • --------------------------
  • 清华大学
  • 清华 | 大学 |
  • --------------------------
  • 华南理工大学
  • 华南 | 理工 | 工大 | 大学 |
  • --------------------------
  • 广东工业大学
  • 广东 | 工业 | 大学 |
  • --------------------------
  • 西伯利亚
  • 西 | 伯利 | 利亚 |
  • --------------------------
  • 研究生命起源
  • 研究 | 生命 | 起源 |
  • --------------------------
  • 为首要考虑
  • 为首 | 要 | 考虑 |
  • --------------------------
  • 化装和服装
  • 化装 | 和 | 服装 |
  • --------------------------
  • 中国人民银行
  • 中国 | 国人 | 人民 | 银行 |
  • --------------------------
  • 中华人民共和国
  • 中华 | 华人 | 人民 | 共和 | 国 |
  • --------------------------
  • 羽毛球拍
  • 羽毛 | 球拍 |
  • --------------------------
  • 人民币
  • 人民 | 币 |
  • --------------------------
  • 很好听
  • 很好 | 好听 |
  • --------------------------
  • 下一个
  • 下一 | 一个 |
  • --------------------------
  • 为什么
  • 为 | 什么 |
  • --------------------------
  • 北京首都机场
  • 北京 | 首都 | 机场 |
  • --------------------------
  • 东西已经拍卖了
  • 东西 | 已经 | 拍卖 | 了 |
  • --------------------------
  • 主人因之生气
  • 主人 | 因 | 之 | 生气 |
  • --------------------------
  • 虽然某些动物很凶恶
  • 虽然 | 某些 | 动物 | 很 | 凶恶 |
  • --------------------------
  • 朋友真背叛了你了
  • 朋友 | 真 | 背叛 | 了 | 你了 |
  • --------------------------
  • 建设盒蟹社会
  • 建设 | 盒 | 蟹 | 社会 |
  • --------------------------
  • 建设盒少蟹社会
  • 建设 | 盒 | 少 | 蟹 | 社会 |
  • --------------------------
  • 我们家门前的大水沟很难过。
  • 我们 | 家 | 门前 | 的 | 大水 | 水沟 | 很难 | 过 |
  • --------------------------
  • 罐头不如果汁营养丰富。
  • 罐头 | 不如 | 果汁 | 营养 | 丰富 |
  • --------------------------
  • 今天真热,是游泳的好日子。
  • 今天 | 天真 | 热 | 是 | 游泳 | 的 | 好 | 日子 |
  • --------------------------
  • 妹妹的数学只考十分,真丢脸。
  • 妹妹 | 的 | 数学 | 只 | 考 | 十分 | 真 | 丢脸 |
  • --------------------------
  • 我做事情,都是先从容易的做起。
  • 我做 | 事情 | 都是 | 先 | 从容 | 易 | 的 | 做起 |
  • --------------------------
  • 老师说明天每个人参加大队接力时,一定要尽力。
  • 老师 | 师说 | 明天 | 每个 | 个人 | 参加 | 大队 | 接力 | 时 | 一定 | 要 | 尽力 |
  • --------------------------
  • 小明把大便当作每天早上起床第一件要做的事
  • 小明 | 把 | 大便 | 当作 | 每天 | 早上 | 起床 | 第一 | 一件 | 要做 | 的 | 事 |
  paoding 几乎把所有的子词都拆出来,有时候还有最长的词,还没搞懂“华南理工大学”会分出“大”;mmseg4j 的 maxword 是在 complex分词后的结果再把子词都拆出来。
  如“化装和服装” mmseg4j 的 complex是可以较好的分出来(“化装 | 和 | 服装”),而 paoding 少了字频的信息,比较难到这事。mmseg4j complex 也有个缺点:“都是先从容易的做起” 不能把“容易”分出来,这是因为 mmseg 算法是用 3 个chunk的原因,我认为把整句的 chunk (还是仅仅3个chunk)来处理的话,分词效果要好),当然要更多的开销,选3个可能是效果与性能平衡吧。
  mmseg4j 没有加任何 stopword,这东西留给使用者自己加,因为我不认为加 stopword 是好的方法。如音乐搜索,给加上 the,this……,还能找到歌曲?
  当然分词效果还与词库有关,sogou 的词库是统计得出,有些高频的单字组合也成了词,如“我们的”。如果还要提高 mmseg4j 的分词效果,还要在整理下词库。
  mmseg4j中的词库: (强制使用 UTF-8):



    • data/chars.dic 是单字与语料中的频率,一般不用改动,1.5版本中已经加到mmseg4j的jar里了,我们不需要关心它,当然你在词库目录放这个文件可以覆盖它。
    • data/units.dic 是单字的单位,默认读jar包里的,你也可以自定义覆盖它,这个功能是试行,如果不喜欢它,可以用空的units.dic文件(放到你的词库目录下)覆盖它。
    • data/words.dic 是词库文件,一行一词,当然你也可以使用自己的,1.5版本使用 sogou 词库,1.0的版本是用 rmmseg 自带的词库。
    • data/wordsxxx.dic 1.6版支持多个词库文件,data 目录(或你定义的目录)下读到"words"前缀且".dic"为后缀的文件。如:data/words-my.dic。
    • 由于 utf-8 文件有带与不带 BOM 之分,建议词库第一行为空行或为无 BOM 格式的 utf-8 文件。


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-87886-1-1.html 上篇帖子: 1.4.2 solr字段类型--(1.4.2.2)solr附带的字段类型 下篇帖子: note:solr的基本概念
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表