设为首页 收藏本站
查看: 1154|回复: 0

[经验分享] Solr的自动完成/自动补充实现介绍(1): autoComplete

[复制链接]

尚未签到

发表于 2015-11-12 10:07:01 | 显示全部楼层 |阅读模式
原文:http://java.dzone.com/news/solr-and-autocomplete-part-1

大部分人已经见过自动完成(autocomplete)的功能了(见下图),solr提供了构建这个功能的机制。今天,我将给你展示如何使用facet的方式来添加自动完成机制。

DSC0000.png

索引
设想你想在你的在线商店中,给用户一些提示,比如商品的名称。假设我们的索引构建如下:

Xml代码   DSC0001.png

  • <field name=&quot;id&quot; type=&quot;string&quot; indexed=&quot;true&quot; stored=&quot;true&quot; multiValued=&quot;false&quot; required=&quot;true&quot;/>  
  • <field name=&quot;name&quot; type=&quot;text&quot; indexed=&quot;true&quot; stored=&quot;true&quot; multiValued=&quot;false&quot; />  
  • <field name=&quot;description&quot; type=&quot;text&quot; indexed=&quot;true&quot; stored=&quot;true&quot; multiValued=&quot;false&quot; />  


text类型的定义为:
Xml代码  

  • <fieldType name=&quot;text&quot; class=&quot;solr.TextField&quot; positionIncrementGap=&quot;100&quot;>  
  • <analyzer>  
  • <tokenizer class=&quot;solr.WhitespaceTokenizerFactory&quot;/>  
  • <filter class=&quot;solr.WordDelimiterFilterFactory&quot; generateWordParts=&quot;1&quot; generateNumberParts=&quot;1&quot; catenateWords=&quot;1&quot; catenateNumbers=&quot;1&quot; catenateAll=&quot;0&quot; splitOnCaseChange=&quot;1&quot;/>  
  • <filter class=&quot;solr.LowerCaseFilterFactory&quot;/>  
  • </analyzer>  
  • </fieldType>  


配置
开始前,首先考虑你要实现的功能:是要实现一个名字的提示,还是全名的提示。这都依赖于我们的选择,我们必须为需要引导的地方设置适当的域。

单词提示
在单词的情况下,我们使用的域也即一个token。在这种情况下,域名为name就足够了。但是,这属于一个词干,analysis的操作都在词干上,因此,我们最好换一个其他的类型。

全名提示
我们使用一个不同的域配置来定义全名提示--最好一个未被定义的域。但是我们不能使用基于类&#20284;string这种类型的域,基于这个原因,我们定义为一下的域:
引用<field name=&quot;name_auto&quot; type=&quot;text_auto&quot; indexed=&quot;true&quot; stored=&quot;true&quot; multiValued=&quot;false&quot; />

text_auto类型的定义为:
Xml代码  

  • <fieldType name=&quot;text_auto&quot; class=&quot;solr.TextField&quot;>  
  • <analyzer>  
  • <tokenizer class=&quot;solr.KeywordTokenizerFactory&quot;/>  
  • <filter class=&quot;solr.LowerCaseFilterFactory&quot;/>  
  • </analyzer>  
  • </fieldType>  


为了不影响原有数据的&#26684;式,将原数据进行拷贝:
引用<copyField source=&quot;name&quot; dest=&quot;name_auto&quot; />

如何使用
为了使用这个数据,我们准备了一个简单的查询语句:
引用q=*:*&facet=true&facet.field=FIELD&facet.mincount=1&facet.prefix=USER_QUERY

需要替换的地方:
   FIELD:我们打算提供建议的域,在本例中域名为name 或name_auto
   USER_QUERY:用户输入的字符

这里可以设置rows=0,这样可以只返回facet的结果,而没有查询结果。当然这不是必须的。

查询的一个例子可以这样写:
引用fl=id,name&rows=0&q=*:*&facet=true&facet.field=name_auto&facet.mincount=1&facet.prefix=har

查询结果会返回这样的结果:
Xml代码  

  • <response>  
  • <lst name=&quot;responseHeader&quot;>  
  • <int name=&quot;status&quot;>0</int>  
  • <int name=&quot;QTime&quot;>0</int>  
  • </lst>  
  • <result name=&quot;response&quot; numFound=&quot;4&quot; start=&quot;0&quot;/>  
  • <lst name=&quot;facet_counts&quot;>  
  • <lst name=&quot;facet_queries&quot;/>  
  • <lst name=&quot;facet_fields&quot;>  
  • <lst name=&quot;name_auto&quot;>  
  • <int name=&quot;hard disk&quot;>1</int>  
  • <int name=&quot;hard disk samsung&quot;>1</int>  
  • <int name=&quot;hard disk seagate&quot;>1</int>  
  • <int name=&quot;hard disk toshiba&quot;>1</int>  
  • </lst>  
  • </lst>  
  • <lst name=&quot;facet_dates&quot;/></lst>  
  • </response>  


扩展功能
这里说一下他的一些常用的功能。

第一个是显示用户的一些额外的信息,比如当你选择某个提示词时,显示的结果的数量。这是一个很有意思的特性。

另一个是使用facet.sort参数进行排序。这依赖于你的需求,我们可以按文档的数量排序(默认方式,设参数为true即可),或者按字母序排序(设为false)。

我们也可以通过设置facet.mincount来显示比指定的数量更多的提示词。

另外一个很好的特性是提示词不仅可以通过用户的类型获取,还可以通过其他的属性获取,这类&#20284;于类别。举个例子,我们想给用户展示家庭用品相关的商品,我们假设现在用户对DVD类型的商品并不感兴趣,这样我们添加一个参数: fq=department:homeApplications(假设有这个department)。通过这样的一个查询,你就不需要在所有的索引中匹配了,而是在我们选择的department里选择。

结尾
跟其他方法一样,它有优点,也有缺点。优点就是易于使用、没有额外的组件依赖,并且能将结果约束在一个很小的范围内来更好的匹配用户的需求;另外一个很大的优点是它对每个提示词都附带了结果的统计。缺点就是需要添加额外的类型和字段;另外由于其facet的机制,对机器性能和load都非常消耗。


PS:我自己测试了一下,由于这个功能是实时请求的(每个字母的输入都是一次请求),如果量很大的时候,统计数量会占用很大的内存,内存过小(我的2G)很容易OOM。所以,这个功能慎用。

网上有个哥们建议使用facet.prefix,由于目前没有这方面的强烈需求,故在此搁下,需要时再从这里起步。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-138217-1-1.html 上篇帖子: Nutch-1.3中没了自带的搜索war文件,Nutch爬取与Solr搜索结合 下篇帖子: Solr的配置及从数据库建立索引
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表