【转】 solr中文分词

古城热线 · 发表于 2015-7-18 00:00:07

　　我在solr中尝试了以下三种开源中文分词器，其中两种都因为solr版本过高不能用，郁闷，后来将JAR包反编译，找到了原因，下面先简要说明一下三种开源中文分词器
　　
　　庖丁解牛：google code上最后一次代码提交是2008.6月，不是很活跃，但用的人还很多
　　mmseg4j：google code上最后一次代码提交是2010.12月，应该还算活跃，采用MMSeg算法，有两种分词方法：Simple和Complex
　　IKAnalyzer：最近很活跃，2011.3月在google code上提交了一个版本
　　
　　lucene于今年5月份出了3.2版，solr也对应出了3.2版，高版本有个不好的地方，就是开源的中文分词库，跟不上相应的更新速度，本人用的是3.1 版，在lucene中加入庖丁解牛中文分词器和IKAnalyzer最新版，都会报错。
　　
　　错误原因如下(以IKAnalyzer为例说明)：
　　不论是庖丁解牛还是IKAnalyzer，要把分词器放到solr中，需要经承solr中的BaseTokenizerFactory这个类，

[java] view plaincopy

import java.io.Reader;
import org.apache.lucene.analysis.TokenStream;
import org.apache.solr.analysis.BaseTokenizerFactory;
import org.wltea.analyzer.lucene.IKAnalyzer;
public class ChineseTokenizerFactory extends BaseTokenizerFactory {
@Override
public TokenStream create(Reader reader) {
return new IKAnalyzer().tokenStream("text", reader);
}
}

　　这个基类中实现TokenizerFactory接口，create就定义在这个接口中，但返回的类型是Tokenizer，而在solr3.1版本中Tokenizer是继承TokenStream的，所以这里需要强制转换才不会报错。而庖丁解牛就没那么简单了，需要修改源码才可以，庖丁解牛现在只支持到solr1.4版本
　　
　　还有庖丁解牛都不能直接在lucene3.1中使用，代码不提示任何错误，但一运行就报错，不知道为什么原因，估计原因同上，需要修改源代码，有知道的，请转告
　　
　　mmseg4j也要下最新版本，否则也会报错，具体配置如下：
　　把 mmseg4j-all-1.8.4.jar 放到 tomcat/webapps/solr/lib下，mmseg4j1.84包中的字典解压出来，放在solr.home/data目录下，修改solr配置文件：

[xhtml] view plaincopy

　　mmseg4j 在 solr 中主要支持两个参数：mode、dicPath。mode 表示是什么模式分词。dicPath 是词库目录，网上说可以默认在当前data目录下寻找，经测试好像不行，必须人工给出绝对路径，或许是高版本的问题吧，或许是我哪里设置错了，然后在 http://localhost:8080/solr/admin/analysis.jsp 可以看 mmseg4j 的分词效果，在Field的下拉菜单选择type，然后输入textComplex，特别是和CJK分词器作对比，很明显，CJK是solr官方自带的支持中日韩的分词器，它对中文是采用的二元分词
　　
　　
　　其实中文分词一直以来是很多人在研究的东西，怎么提高分词效率和匹配正确率是目标，里面的算法实现是它的核心，把它完全吃透，估计都可以写论文了，呵呵，由于时间有限，只是粗略拿来体验了一下。还有就是关于solr/lucene的搜索效率，优化索引，也是一个值得研究的课题。
　　http://blog.iyunv.com/aidayei/article/details/6526986
　　参考资料：
　　1.http://blog.chenlb.com/2009/04/solr-chinese-segment-mmseg4j-use-demo.html
　　2.http://lianj-lee.iteye.com/blog/464364
　　3.http://www.blogjava.net/RongHao/archive/2007/11/06/158621.html
　　4.http://www.iteye.com/news/9637
　　5.http://blog.iyunv.com/foamflower/archive/2010/07/09/5723361.aspx

　　突然发现IKAnalyzer在3.1.5版本中，已经实现了对solr的TokenizerFactory接口配置的支持，详见下面这篇文章：
　　http://linliangyi2007.iteye.com/blog/501228
　　
　　庖丁解牛分词器支持Lucene3.0.2,需要修改源代码:
　　http://blog.iyunv.com/foamflower/archive/2010/07/09/5723361.aspx

账号		自动登录	找回密码
密码			立即注册

zabbix3.4中文手册，官网完整COPY（2019042

最新rhel8官方手册三本PDF

winhex数据恢复教程（非常巨大，内容丰富）

KMSpico10.2.0 免费激活Win10/Office2016（

zabbix3.4.1安装部署+微信推送信息+大屏显

VMware vcenter+vSphere 6.5 U2共享

CentOS6.5下redis-3.2.6的安装与配置

[经验分享] 【转】 solr中文分词

扫码加入运维网微信交流群