结合源码浅析solr facet

wheat · 发表于 2016-12-15 10:24:22

分类：搜索(lucene&solr) 源码分析2013-08-05 15:33 1234人阅读评论(0) 收藏举报
solrfacet源码分析
基于solr4.4
SearchHandler实现SolrRequestHandler，SolrCoreAware(inform接口)，在SolrCore初始化的过程中，
会依次调用SolrRequestHandler中的inform(SolrCore core)，在inform的调用中，初始化SearchHandler中的components对象，
component对象包含有QueryComponent、FacetComponent、HighlightComponent等，其中QueryComponent主要负责查询部分，
FacetComponent处理facet、HighlightComponent负责高亮显示。在查询过程中，会根据SearchHandler中的component配置，依次调用component的链。
    在处理请求时，SearchHandler.handleRequestBody(SolrQueryRequest req, SolrQueryResponse rsp)的实现中
会调用component的prepare、process、distributedProcess方法，在QueryComponent中调用SolrIndexSearcher，
SolrIndexSearcher继承了lucene的IndexSearcher类进行搜索。solr FacetComponent实现对Term的层面的统计，本章重点说一下solr中的FacetComponent组件。
    QueryComponent会先处理q参数里的查询，查询的结果的DocID保存在DocSet里，这里是一个无序的document ID 的集合,把docSet封装到SimpleFacets里
    在FacetComponent.process方法中，调用SimpleFacets.getFacetCounts()获取统计结果，对于返回给客户端的结果有三种类型，分别是facet_queries、facet_fields、facet_dates、facet_ranges，我们用的比较多的是facet_fieds的统计(查询参数中包含facet.filed=xxx，可以包含多个facet.field)，facet_filed的统计最终会调用SimpleFacets.getTermCounts(field)，在这个方法实现中根据facet.method参数的值的不同调用对应的统计实现。
      facet.method通常包含enmu、fc两个值，默认是fc，该字段表示了facet的两种统计算法。
      enum通过遍历field的terms来计算facet count，
参见SimpleFacets中的代码，

counts = getFacetTermEnumCounts(searcher, docs, field, offset, limit, mincount,missing,sort,prefix);
enum适用于字段值比较少的情况，Solr会遍历该字段的所有取值,并从filterCache里为每个值分配一个filter，然后计算每个filter与主查询的交集.
      fc(filed cache)通过遍历document，在文档内搜索cache内的值，如果找到就将cache内的值加1
参见SimpleFacets中的代码，
UnInvertedField uif = UnInvertedField.getUnInvertedField(field, searcher);
counts = uif.getCounts(searcher, docs, offset, limit, mincount,missing,sort,prefix);
FacetComponent 在根据某个field的词时，会用到fieldValueCache，key是facet.field的值，value是UnInvertedField，
UnInvertedField这个类主要负责完成把field域每个词Term，以及词Term在所有文档field域的频率，即出现的次数。
保存在一个数组中，创建的UnInvertedField保存在fieldValueCache缓存中，得到UnInvertedField后，
调用UnInvertedField的getCounts方法，跟查询到的document ID 做交集，如果不是查询结果的document ID,,则该Field的词的个数为0，
除此之外，还对field出现的词做一个排序，solr的FacetComponet有两种排序选择，分别是count和index，count是按每个词出现的次数，
index是按词的字典顺序。如果查询参数不指定facet.sort，solr默认是按count排序。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

Red Hat RHCE 8 (EX294) Cert Guide

c++ size_t 和 int 的区别

HERE 使用 AWS EF 和 JFrog Artifactory 打

C++ 指针大全：从基础到进阶，一篇快速上手

wirelessnetview好用的无线分析工具

亿图图示专家(EDraw Max) V7.9 中文破解版

[经验分享] 结合源码浅析solr facet

浏览过的版块

扫码加入运维网微信交流群