利用solr构建企业搜索平台（十一）

78144666 · 发表于 2016-12-15 09:56:12

　　在经过使用了庖丁以后，这里说说怎么将目前很火很流行的IK集成进SOLR，其实方法真的很简单，比paoding方便不少。这里很感谢IK的作者，蓝山咖啡，很感谢你为中文分词做出的贡献。作者博客：http://linliangyi2007.iyunv.com
　　入正题：
　　1》请先去作者博客参看IK下载地址，主要就是一个IKAnalyzer3.1.1Stable.jar。我这里用的是最新版！
　　Java代码 package　com.yeedoo.slor.tokenizer;　
　
import　java.io.Reader;　
　
import　org.apache.lucene.analysis.TokenStream;　
import　org.apache.solr.analysis.BaseTokenizerFactory;　
import　org.wltea.analyzer.lucene.IKAnalyzer;　
　
public　class　ChineseTokenizerFactory　extends　BaseTokenizerFactory　{　
　
　@Override　
　public　TokenStream　create(Reader　reader)　{　
　return　new　IKAnalyzer().tokenStream("text",　reader);　
　}　
　
}
　　从代码就可以看得出来真的很方便！将它打包放入solr.war中同时还有IK的jar包。如果你不想打包，请去附件下载已经打好的包。
　　2》配置文件
　　Xml代码 <fieldType　name="text"　class="solr.TextField"　positi>　
　　<analyzer　type="index">　
　　<tokenizer　class="com.yeedoo.slor.tokenizer.ChineseTokenizerFactory"　/>　
　　<filter　class="solr.StopFilterFactory"　ignoreCase="true"　words="stopwords.txt"　enablePositi　/>　
　　<filter　class="solr.WordDelimiterFilterFactory"　generateWordParts="1"　generateNumberParts="1"　catenateWords="1"　catenateNumbers="1"　catenateAll="0"　split　/>　
　　<filter　class="solr.LowerCaseFilterFactory"　/>　
　　<filter　class="solr.EnglishPorterFilterFactory"　protected="protwords.txt"　/>　
　　<filter　class="solr.RemoveDuplicatesTokenFilterFactory"　/>　
　　</analyzer>　
　　<analyzer　type="query">　
　　<tokenizer　class="com.yeedoo.slor.tokenizer.ChineseTokenizerFactory"　/>　
　　<filter　class="solr.SynonymFilterFactory"　syn　ignoreCase="true"　expand="true"　/>　
　　<filter　class="solr.StopFilterFactory"　ignoreCase="true"　words="stopwords.txt"　/>　
　　<filter　class="solr.WordDelimiterFilterFactory"　generateWordParts="1"　generateNumberParts="1"　catenateWords="0"　catenateNumbers="0"　catenateAll="0"　split　/>　
　　<filter　class="solr.LowerCaseFilterFactory"　/>　
　　<filter　class="solr.EnglishPorterFilterFactory"　protected="protwords.txt"　/>　
　　<filter　class="solr.RemoveDuplicatesTokenFilterFactory"　/>　
　　</analyzer>　
　</fieldType>
　　关于这里的配置文件，如果你更详细的了解意思，请参见我的另一篇博客，博客地址：http://lianj-lee.iyunv.com/blog/424474
　　3》如果在启动tomcat没有报错的情况下，可以去solr的admin那里尝试看看该分词器的效果，效果如下图：

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] 利用solr构建企业搜索平台（十一）

浏览过的版块

扫码加入运维网微信交流群

[经验分享] 利用solr构建企业搜索平台 （十一）

浏览过的版块

[经验分享] 利用solr构建企业搜索平台（十一）