设为首页 收藏本站
查看: 891|回复: 0

[经验分享] solr进阶: 如何定制搜索服务,扩展搜索逻辑

[复制链接]

尚未签到

发表于 2016-12-16 08:41:28 | 显示全部楼层 |阅读模式
  前两天发了篇"剖析solr实用性",主要黑了solr建索引让我觉得不舒服,还黑了solr只是个通用的丢入了servlet容器里的简单服务,事实证明我错了。这篇博客我要纠正并回答那篇博客里自己总结的问题:如何定制solr实现自己的搜索服务。
  solr是一个可扩展的服务,我们可以添加自己的包和类,在solr已经实现的default处理逻辑之上,再添加我们自己的搜索逻辑。实现手段就是继承solr的基础类,重写或者改写新的FilterSearch Component以及Request Handler类,来取代solr默认的处理类或者与之并存。我也是读了源码,参考了默认类的实现过程,才找到了定制的方法,下面一一说明。
  


Request Handler
  solrconfig.xml里,对/select设置的默认处理类是solr.SearchHandler

  <requestHandler name="/select" class="solr.SearchHandler">
<lst name="defaults">
<str name="echoParams">explicit</str>
<int name="rows">10</int>
<str name="df">usergoods_mix</str>
</lst>
</requestHandler>源码中,SearchHandler类在org.apache.solr.handler.component包下,继承了RequestHandlerBase类,他最主要的逻辑在handleRequestBody函数中,
  @Override
public void handleRequestBody(SolrQueryRequest req, SolrQueryResponse rsp) throws Exception, ParseException, InstantiationException, IllegalAccessException
{}SearchHandler还有一个主要的成员变量
protected List<SearchComponent> components = null;SearchHandler主要职责是借助solrconfig.xml配置文件里设置的默认或者新增的requestHandler参数以及search component类,构建一个ResponseBuilder
ResponseBuilder rb = new ResponseBuilder(req, rsp, components);
  根据配置把各个search component该做的事都分配好,search component是真正读取处理SolrQueryRequest内的查询参数,往SolrQueryResponse里填写数据的地方。下面会再介绍search component的两个prepare()和process()函数。
  


定制Request Handler

默认的request handler直接得到你http里url带来的传参,然后就开始根据配置分发任务,让各自的component去处理查询请求了。定制request handler的好处是,在这个步骤之中,你可以再额外进行一些别的逻辑处理,比如你可以写写log,在得到SolrQueryRequest后,传入前查看处理一下里面的query,对SolrQueryResponse里得到的数据集再做些处理等等。定制方式是自己继承StandardRequestHandler类(该类继承了SearchHandler),
package myplugin.handler;
import org.apache.solr.handler.StandardRequestHandler;
import org.apache.solr.request.SolrQueryRequest;
import org.apache.solr.response.SolrQueryResponse;
public class MySearchHandler extends StandardRequestHandler {
public void handleRequestBody(SolrQueryRequest request,
SolrQueryResponse response) throws Exception {
super.handleRequestBody(request, response);
//TODO: whatever you want
}
}并在solrconfig.xml里配置即可起效。
  <requestHandler name="/test" class="myplugin.handler.MySearchHandler">
<lst name="defaults">
<str name="echoParams">explicit</str>
<int name="rows">10</int>
<str name="df">usergoods_mix</str>
</lst>
</requestHandler>别忘了把自己的jar包放到webapp/的WEB-INF的lib目录下。solr也为我们定制了别的handler,比如DisMaxRequestHandler,LukeRequestHandler,MoreLikeThisHandler  和SpellCheckerRequestHandler等等。大家可以自己看看源码,知道他们分别做什么。都在org.apache.solr.handler内。
  


Search Component
  search component的意义远比handler重要的多。solr已经在solrconfig.xml给我们定制了几个默认的component

       <searchComponent name="query"     class="solr.QueryComponent" />
<searchComponent name="facet"     class="solr.FacetComponent" />
<searchComponent name="mlt"       class="solr.MoreLikeThisComponent" />
<searchComponent name="highlight" class="solr.HighlightComponent" />
<searchComponent name="stats"     class="solr.StatsComponent" />
<searchComponent name="debug"     class="solr.DebugComponent" />一般处理我们查询请求的一定避免不了第一个query component。阅读源码发现,所有这些类都继承SearchComponent。所以我们定制的时候也要继承SearchComponent。  拿QueryComponent举例子说明search component的重要性,最重要的两个函数是

public class QueryComponent extends SearchComponent
{
public static final String COMPONENT_NAME = "query";
public void prepare(ResponseBuilder rb) throws IOException{}
public void process(ResponseBuilder rb) throws IOException {}
// ...
}下面截取一段prepare里的代码说明QueryComponent是怎么读取SolrQueryRequest(res)里的内容,并最后把结果写进SolrQueryResponse(rsp)的。
public void process(ResponseBuilder rb) throws IOException
{
SolrQueryRequest req = rb.req;
SolrQueryResponse rsp = rb.rsp;
SolrParams params = req.getParams();
if (!params.getBool(COMPONENT_NAME, true)) {
return;
}
SolrIndexSearcher searcher = req.getSearcher();
// ...

      DocListAndSet res = new DocListAndSet();
res.docList = new DocSlice(0, docs, luceneIds, null, docs, 0);
if (rb.isNeedDocSet()) {
// TODO: create a cache for this!
List<Query> queries = new ArrayList<Query>();
queries.add(rb.getQuery());
List<Query> filters = rb.getFilters();
if (filters != null) queries.addAll(filters);
res.docSet = searcher.getDocSet(queries);
}
rb.setResults(res);
rsp.add("response",rb.getResults().docList);
  对同一个request handler,可以按顺序配置多个search component,这些component会在handler类里各自得到自己的任务,把SolrQueryRequest和SolrQueryResponse传承下去,在这个过程中,我们可以加入自己的component,定制我们想要的搜索结果和搜索逻辑
  


定制search component
  我简单把实现代码帖一下,主要还是通过继承基础类,最后配置到solrconfig.xml内。

package myplugin.component;
import java.io.IOException;
import org.apache.solr.handler.component.ResponseBuilder;
import org.apache.solr.handler.component.SearchComponent;

public class MySearchComponent extends SearchComponent {
String query = null;
@Override
public void prepare(ResponseBuilder rb) throws IOException {
query = rb.req.getParams().get("q", "");
System.out.println("prepare: " + query);
}
@Override
public void process(ResponseBuilder rb) throws IOException {
if (query != null) {
rb.rsp.add("mytest", "zbf"); // <str name="mytest">zbf</str>
//SimpleOrderedMap map = (SimpleOrderedMap) builder.rsp.getValues();
//DocList doclist = (DocList) map.get("response");
//System.out.println("process: " + map.get("response").toString());
//System.out.println("process: " + map.get("mytest").toString());
}
}
@Override
public String getDescription() {
return "MySearchComponent";
}
@Override
public String getSource() {
return "";
}
@Override
public String getSourceId() {
return "";
}
@Override
public String getVersion() {
return "0.1";
}
}

主要就是在prepare()里获取到SolrQueryRequest里的查询query,在process()里自己处理,并且获取到前一次component处理得到的SolrQueryResponse,里面可能会有已经排好序的查询数据集,你也可以做一些二次处理,简单过滤,重新排序等事情
  <requestHandler name="/test" class="myplugin.handler.MySearchHandler">
<lst name="defaults">
<str name="echoParams">explicit</str>
<int name="rows">10</int>
<str name="df">usergoods_mix</str>
</lst>
<arr name="components">
<str>query</str>
<str>myComponent</str>
</arr>
</requestHandler>
<searchComponent name="myComponent" class="myplugin.component.MySearchComponent">
</searchComponent>
  先声明自己的searchComponent,然后放入handler里使用起来,注意配置顺序,因为component是按顺序串接起来的。
  


定制Filter
  最后简单说下Filter,他的作用就是如果你自己定制了Filter,你就可以按自己的方式处理字符串。比如你的查询query里传来的是“field:如何 定制 搜索服务”,如果你直接交给solr的api去做那么"如何"使用的是field字段,但是空格之后的word都会归结到default field里,这是solr包装了lucene的接口之后的结果,可能刚开始在组装自己的查询url的时候会不太适应,所以如果你定制一个自己的filter,就可以解决这样的问题。
  定制Filter要继承两个类。其实在配置IKAnalyzer的时候大家可以看到

    <fieldType name="text_ik" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"  isMaxWordLength="true"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<!-- 同上 -->
</analyzer>  
</fieldType>在tokenizer处使用一个类,在filter处使用一个Factory类。下面我举solr 3.1 cookbook上的例子说明一下。先是自己的filter类,
package pl.solr;
import java.io.IOException;
import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.TermAttribute;
public class ExampleFilter extends TokenFilter {
private final TermAttribute termAttr = (TermAttribute)
addAttribute(TermAttribute.class);     
public ExampleFilter(TokenStream stream) {
super(stream);
}     
@Override
public boolean incrementToken() throws IOException {
if (input.incrementToken()) {
String term = termAttr.term();
if (term.length() <= 1) {
return true;
}
StringBuffer buffer = new StringBuffer();
buffer.append(term.charAt(1)).append(term.charAt(0)).
append(term.substring(2));            
termAttr.setTermBuffer(buffer.toString());
termAttr.setTermLength(buffer.length());
return true;
}
return false;
}
}然后是工厂类,
package pl.solr;
import org.apache.lucene.analysis.TokenStream;
import org.apache.solr.analysis.BaseTokenFilterFactory;
public class ExampleFilterFactory extends BaseTokenFilterFactory {
@Override
public TokenStream create(TokenStream stream) {
return new ExampleFilter(stream);
}
}最后是配置文件:
<fieldtype name="exampleType" stored="true" indexed="true"
class="solr.TextField" >
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory" />
<filter class="pl.solr.ExampleFilterFactory" />
</analyzer>
</fieldtype>
  


总结

前几天我也不知道solr的这几个玩法,把solr给小看了。其实solr是一个高可扩展的东西,你要实现自己的搜索服务,就继承solr的基本类,增加自己的扩展类到solr的配置文件里,可以取代solr的默认处理类,也可以和solr的类共同处理。所以以上说的request handler,search component以及filter给我们实现了很好的扩展方式,用起来比较像SOA的架构,像OSGi里的各部分组件。  之后如果对solr有更深的理解或者解读,会再做分享。
  

  (全文完)

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-314926-1-1.html 上篇帖子: solr 字段配置,和数据库数据索引配置 下篇帖子: [转]使用 PHP 和 Apache Solr 实现企业搜索
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表