solr 中文分词filedType定义

开心123 · 发表于 2016-12-15 07:09:44

　　一. solr.TextField 允许用户通过分析器来定制索引和查询的 fieldType。
　　分析器包括一个分词器（tokenizer）和多个过滤器（filter）。
　　代码展示：

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class = "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false" />
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true"
/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/>
</analyzer>
<analyzer type="query">
<tokenizer class = "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true"
/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/>
</analyzer>
</fieldType>
　　二.   Solr建立索引和对关键词进行查询都得对字串进行分词。
　　在向索引库中添加全文检索类型的索引的时候，Solr会首先用空格进行分词，然后把分词结果依次使用指定的过滤器进行过滤，最后剩下的结果才会加入到索引库中以备查询。
　　分词的顺序如下：
　　索引
　　1：空格whitespaceTokenize
　　2：过滤词StopFilter
　　3：拆字WordDelimiterFilter
　　4：小写过滤LowerCaseFilter
　　5：英文相近词EnglishPorterFilter
　　6：去除重复词RemoveDuplicatesTokenFilter
　　查询
　　1：查询相近词
　　2：过滤词
　　3：拆字
　　4：小写过滤
　　5：英文相近词
　　6：去除重复词
　　以上是针对英文，中文的除了空格，其他都类似。但具体是什么样子，需要看对应的 fieldType中的配置。
　　如 1. 中的配置
　　索引：
　　1. IK分词
　　2. 停用词过滤
　　3. 拆字
　　4. 小写过滤
　　5. 关于不同语言的词干处理
　　查询：
　　1. IK分词
　　2. 同义词
　　3. 停用词
　　4. 拆字
　　5. 小写过滤
　　6.   关于不同语言的词干处理
　　三. 常用分词器与过滤器介绍
　　分词器：
　　 1. < tokenizer class =" solr.WhitespaceTokenizerFactory " />
　　空格分词器
　　2.   <tokenizer class = "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false" />
　　IK分词器
　　过滤器
　　1. <filter class ="solr.WordDelimiterFilterFactory" generateWordParts ="1" generateNumberParts ="1" catenateWords ="1" catenateNumbers ="1" catenateAll="0" splitOnCaseChange="1" />
　　在分词和匹配时，考虑"-"连字符，字母数字的界限，非字母数字字符，这样 "wifi"或"wi fi"都能匹配"Wi-Fi"。
　　2.   <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
　　同义词，同义词的构建一定要参考 http://ip:8983/solr/admin/analysis.jsp 页面的分词效果。
　　3. <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
　　在禁用字（stopword）删除后，在短语间增加间隔
　　stopword：即在建立索引过程中（建立索引和搜索）被忽略的词，比如is this等常用词。
　　在conf/stopwords.txt维护。
　　4. 其它参见 http://damoqingquan.iyunv.com/blog/231293

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] solr 中文分词filedType定义

浏览过的版块

扫码加入运维网微信交流群