Solr: Clustering documents with carrot

Matthewl · 发表于 2016-12-15 10:39:52

1. Configure clutering in solrconfig.xml

<searchComponent name="clustering"
enable="true"
class="solr.clustering.ClusteringComponent" >
<lst name="engine">
<str name="name">lingo</str>
<str name="carrot.algorithm">org.carrot2.clustering.lingo.LingoClusteringAlgorithm</str>
<str name="carrot.resourcesDir">clustering/carrot2</str>
</lst>
<lst name="engine">
<str name="name">stc</str>
<str name="carrot.algorithm">org.carrot2.clustering.stc.STCClusteringAlgorithm</str>
</lst>
<lst name="engine">
<str name="name">kmeans</str>
<str name="carrot.algorithm">org.carrot2.clustering.kmeans.BisectingKMeansClusteringAlgorithm</str>
</lst>
</searchComponent>
<requestHandler name="/clustering"
startup="lazy"
enable="true"
class="solr.SearchHandler">
<lst name="defaults">
<bool name="clustering">true</bool>
<str name="clustering.engine">lingo</str>
<bool name="clustering.results">true</bool>

<str name="carrot.title">content</str>

<str name="carrot.url">id</str>

<str name="carrot.snippet">content</str>

<bool name="carrot.produceSummary">true</bool>



<bool name="carrot.outputSubClusters">false</bool>

<str name="defType">edismax</str>
<str name="q.alt">*:*</str>
<str name="rows">10</str>
<str name="fl">*,score</str>
</lst>
<arr name="last-components">
<str>clustering</str>
</arr>
</requestHandler>

　　2. alter clustering/carrot2/lingo-attributes.xml
　　<attribute key="MultilingualClustering.defaultLanguage">
<value type="org.carrot2.core.LanguageCode" value="CHINESE_SIMPLIFIED"/>
</attribute>
　　3. add chinese tokenizer jar to classpath in solrconfig.xml
　　lucene-analyzers-smartcn-4.7.0.jar
　　<lib dir="../contrib/analysis-extras/lucene-libs" regex=".*\.jar" />
　　References
　　http://wiki.apache.org/solr/ClusteringComponent
　　http://www.cnblogs.com/tomcattd/archive/2013/08/20/3270143.html
　　http://carrot2.github.io/solr-integration-strategies/carrot2-3.6.3/index.html

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

Red Hat RHCE 8 (EX294) Cert Guide

c++ size_t 和 int 的区别

HERE 使用 AWS EF 和 JFrog Artifactory 打

C++ 指针大全：从基础到进阶，一篇快速上手

wirelessnetview好用的无线分析工具

亿图图示专家(EDraw Max) V7.9 中文破解版

[经验分享] Solr: Clustering documents with carrot

浏览过的版块

扫码加入运维网微信交流群