设为首页 收藏本站
查看: 1534|回复: 0

[经验分享] solr长文本搜索问题

[复制链接]

尚未签到

发表于 2018-11-2 06:25:19 | 显示全部楼层 |阅读模式
  多关键词搜索排序质量一直一个疼痛的问题,已经频繁遇到,目前还没来得及系统解决。
  针对之前的解决经验,做一个小节,后面可能随着对排序质量的提高,会越来越突出。
  请大家拍砖和丰富这方面的经验,提升解决需求的效率。
  
  分析
  当前默认都是phrasequery执行,对指定域先分词,然后按照短语去查询,当出现分词交叉后,结果就悲剧了。
  当非自动生成phrasequery时候,指定域也会分词,然后按照
  AND
  或者OR
  拼接起来去查,此时,短语的关联性丢失,挨在一起的可能没有排在前面,尽管有结果。
  当不自动生成phrasequery时候,““
  将查询出当做整体,此时依然会分词,只是查询时分词后的拼接去查。例如“交易成功”
  转为“交易
  成功”
  当扩展查询串去查,可能结果来自扩展串,有结果但不一定就是期望。
  改为
  建索引最多分词、查询最长匹配,能解压一部分场景需求,对于精准查询的短语、长文本尤其效果好,对于追求结果最多不适应。
  或者
  业务执行分词然后按照业务需求执行坡度或者相关性激励来调整相关性。例如(交易
  成功)~12And
  交易^10
  成功^2
  
  总结:
  新业务依赖长文本查询的,需要daily仔细测试,对多关键词的抽样测试不可少。
  新的对精准匹配要求高的检验使用IK分词,分别配置建索引和查询的分词模式。
  DismaxQueryparse
  能有效的减少查询IO和“去重“,完全可以替代
  OR
  扩展查询,目前发现一个不友好,例如
  “成功页面
  交易成功”,这个串中“成功”分量非常大,导致
  结果排序有点糟糕。
  Dismaqueryparse覆盖lucenequeryparse全部功能,同时提供更丰富的查询相关性设置,
  分词内部关系式OR
  ,一定能保证有结果,
  配饰使用方法,在solrconfig.xmlrequesthandler
  中配置edismax
  Phrasequery
  不启用,一种方法是schema
  verison定义为1.4就可以了,另外是
  fieldtype中显示定义不生成,同时solrconfig中配置lucene
  版本34
  
  问题背景
  使用paoding分词,默认AND
  ,autogeneralPhrasequery
  =true
  搜“交易成功
  幻灯片”
  没有结果–》AND之后幻灯片部分没有结果导致没有结果
  搜“交易成功”
  有结果
  搜“幻灯片”
  没有结果—-》原因是分词交叉
  使用paoding分词,autogeneralPhrasequery=false
  搜“交易成功
  幻灯片”
  有结果
  结果来自交易成功部分
  搜“交易成功”有结果
  搜“幻灯片”没有结果
  交叉依然没有结果
  使用paoding分词,autogeneralPhrasequery=false扩展OR
  搜“交易成功
  幻灯片”
  扩展为
  “交易成功
  幻灯片”OR“交易成功
  幻灯片”有结果,结果排序严重受关键词、索引影响
  搜“交易成功”扩展为“交易成功”
  OR“
  交易成功”有结果
  多余IO出现了
  搜“幻灯片”扩展为“幻灯片”
  OR
  “
  幻灯片”有结果
  结果排序与期望相差很远,排在一起的没在前面


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-629514-1-1.html 上篇帖子: freebsd solr 索引更新数据报错解决一例 下篇帖子: 转载--solr的searching过程(1)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表