solr拼写检查(spellCheck)

xuyaxiu · 发表于 2016-12-16 06:05:48

拼写检查(spellCheck)
　　首先配置 solrconfig.xml，文件可能已经有这两个元素(如果没有添加即可)，需要根据我们自己的系统环境做些适当的修改。

  <searchComponent name="spellcheck" class="solr.SpellCheckComponent">
<lst name="spellchecker">
<str name="name">default</str>

<str name="field">name</str>

<str name="spellcheckIndexDir">spellchecker</str>


<str name="buildOnCommit">true</str>
</lst>
</searchComponent>
<requestHandler name="/spell" class="solr.SearchHandler" startup="lazy">

<lst name="defaults">
<str name="spellcheck.onlyMorePopular">false</str>
<str name="spellcheck.extendedResults">false</str>

<str name="spellcheck.count">1</str>
</lst>
<arr name="last-components">
<str>spellcheck</str>
</arr>
</requestHandler>

　　配置完之后，需要重新建遍索引才能有效。然后我们这以请求 http://localhost:8080/solr/spell?q=name:王麻字&spellcheck=true
查询如果如下:

<?xml version="1.0" encoding="UTF-8"?>
<response>
<lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">0</int>
</lst>
<result name="response" numFound="0" start="0"/>
<lst name="spellcheck">
<lst name="suggestions">
<lst name="王麻字">
<int name="numFound">1</int>
<int name="startOffset">0</int>
<int name="endOffset">3</int>
<arr name="suggestion">
<str>王麻子</str>
</arr>
</lst>
</lst>
</lst>
</response>
　　有时候我们需要以多个字段为依据进行拼写检查，但上面的配置只能设一个字段。为了达到同样的效果，
我能只能另行其道了。需要用到 coptyField 技术。比如我们在 schema.xml 中定义了

<field name="a" .../>
<field name="b" .../>
<field name="ab" multiValued="true" .../>
<copyField source="a" dest="ab" />
<copyField source="b" dest="ab" />
　　
然后配置 SpellCheckComponent 的字段为 ab 即可。
　　
要作用Solr的SpellCheck功能，需要以下配置：
1. 在solrConfig.xml最后加入以下片段：


<searchComponent name="spellcheck" class="org.apache.solr.handler.component.SpellCheckComponent">

<lst name="spellchecker">

<str name="name">default</str>

<str name="classname">solr.IndexBasedSpellChecker</str>

<str name="field">name_t</str>

<str name="spellcheckIndexDir">./spellchecker1</str>

<str name="accuracy">0.7</str>

<str name="buildOnCommit">true</str>
</lst>

<lst name="spellchecker">
<str name="name">jarowinkler</str>
<str name="classname">solr.IndexBasedSpellChecker</str>
<str name="field">name_t</str>

<str name="distanceMeasure">org.apache.lucene.search.spell.JaroWinklerDistance</str>
<str name="spellcheckIndexDir">./spellchecker2</str>
<str name="buildOnCommit">true</str>
</lst>

<lst name="spellchecker">
<str name="classname">solr.FileBasedSpellChecker</str>
<str name="name">file</str>
<str name="sourceLocation">spellings.txt</str>
<str name="characterEncoding">UTF-8</str>
<str name="spellcheckIndexDir">./spellcheckerFile</str>
<str name="buildOnCommit">true</str>
</lst>

<str name="queryAnalyzerFieldType">text</str>

</searchComponent>

<queryConverter name="queryConverter" class="solr.SpellingQueryConverter"/>


<requestHandler name="/spell" class="solr.SearchHandler">
<lst name="defaults">

<str name="spellcheck.dictionary">file</str>

<str name="spellcheck.onlyMorePopular">true</str>

<str name="spellcheck.extendedResults">true</str>

<str name="spellcheck.count">1</str>
</lst>

<arr name="last-components">
<str>spellcheck</str>
</arr>
</requestHandler>

　　
2. 如果使用File的方式，需要在spell.txt中加入相应的拼写建议，每个拼写建议占一行。
　　3. 配置文件修改完后，需要重做索引，这样会在索引目录里出现下面的目录
　　
分别对应拼写组件中每个SpellChecker对应的索引文件。
　　4. 在需要拼写检查的页面加入如下方法：

/**
*
* get spell suggestion from core
*
*
* @param keyword
* @param coreName
* @return
* @throws Exception
*/
private Collection<String> getSpellCheckFromCore(String keyword,String coreName) throws Exception {
Collection<String> suggestion = new ArrayList<String>();
CoreContainer container = SearchManager.getCoreContainer();
SolrCore core = container.getCore(coreName);
SearchComponent speller = core.getSearchComponent("spellcheck");

ModifiableSolrParams params = new ModifiableSolrParams();
params.add(CommonParams.QT, "/spell");
params.add(SpellCheckComponent.SPELLCHECK_BUILD, "true");
params.add(CommonParams.Q, keyword);
params.add(SpellCheckComponent.COMPONENT_NAME, "true");
params.add(SpellCheckComponent.SPELLCHECK_COLLATE, "true");

SolrRequestHandler handler = core.getRequestHandler("/spell");
SolrQueryResponse rsp = new SolrQueryResponse();
rsp.add("responseHeader", new SimpleOrderedMap());
handler.handleRequest(new LocalSolrQueryRequest(core, params), rsp);
NamedList values = rsp.getValues();
NamedList spellCheck = (NamedList) values.get("spellcheck");
NamedList suggestions = (NamedList) spellCheck.get("suggestions");
Boolean correctlySpelled = (Boolean) suggestions.get("correctlySpelled");
if(correctlySpelled == null){
String collation = (String) suggestions.get("collation");
suggestion.add(collation);
}

return suggestion;
}

　　可以把返回的结果直接显示到页面相应的地方。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

Red Hat RHCE 8 (EX294) Cert Guide

c++ size_t 和 int 的区别

HERE 使用 AWS EF 和 JFrog Artifactory 打

C++ 指针大全：从基础到进阶，一篇快速上手

wirelessnetview好用的无线分析工具

亿图图示专家(EDraw Max) V7.9 中文破解版

[经验分享] solr拼写检查(spellCheck)

浏览过的版块

扫码加入运维网微信交流群