设为首页 收藏本站
查看: 1412|回复: 0

[经验分享] Solr In Action 笔记(1) 之 Key Solr Concepts

[复制链接]

尚未签到

发表于 2015-7-17 07:03:40 | 显示全部楼层 |阅读模式
Solr In Action 笔记(1) 之 Key Solr Concepts
  题记:看了下《Solr In Action》还是收益良多的,只是奈何没有中文版,只能查看英语原版有点类,第一次看整本的英语书,就当复习下英语并顺便做下笔记吧。

1. Solr的框架
DSC0000.png
  从这张图上看Solr的组件还是很齐全以及清楚明了的,但是当你看Solr源码的时候就会发现,哎呀咋看起来这么类呢。
  2. Solr的查询方式
DSC0001.png DSC0002.png
  上面两张图分别举例了Solr的几个QueryComponent,比如facet,More like this,highlighting ,spatial ,以及spellcheck component  。

3. Solr的优化提示
  (1) Solr支持多个Core,可以对Solr的Core按时间划分为历史Core以及现在Core,分别存放以前的历史数据以及现在的数据,或者将Core按使用类别划分。
  (2) 提升Solr的并发查询性能的一个方法就是,增加shard以及replica个数,这是由于SolrCloud的查询方式是根据clusterstate.json的shard的顺序进行查询的,当shard和replica个数多的时候,对Solrcloud的并发查询就会进行分流。

4. Lucene的倒排表结构
  可以通过以下表格来加深理解倒排表,通过term我们可以快速定位到具体的Document,然后再根据Document快速取出所有stored的field的内容。
DSC0003.png

5. 查询方式

5.1 BooleanQuery
  BooleanQuery是很基础的一个查询方式,它就是对单个或者多个Term用AND,OR,NOT关系连接起来,它主要分为以下几种方式,假设以下的倒排表格式
   DSC0004.png
  
  通过Term Query查询new 和 home就可以分别获取他们的document如下,接下来分别对不同的boolean的方式对home和new的组合进行查询。
DSC0005.png

5.1.1 REQUIRED TERMS








  •   +new +house

  •   new AND house

  上述两种查询虽然在逻辑上是一致的,但是在物理上还是有区别的,+是单目运算,AND是双目运算。

5.1.2 OPTIONAL TERMS










  •   new house

  •   new OR house

  第一个查询是因为默认为操作符是OR

5.1.3 NEGATED TERMS










  •   new house –rental

  •   new house NOT rental

DSC0006.png
  这里需要说明一下多个term的boolean查询性能,由于倒排表的特性,对多个term的boolean查询其实是需要先取出来每个term的doc然后再进行处理,也就说有几个term就需要遍历几遍,当然Lucene在这一块是有优化的,以AND为例,请看以下代码:



1 private int doNext(int doc) throws IOException {
2     for(;;) {
3       // doc may already be NO_MORE_DOCS here, but we don't check explicitly
4       // since all scorers should advance to NO_MORE_DOCS, match, then
5       // return that value.
6       advanceHead: for(;;) {
7         for (int i = 1; i < docsAndFreqs.length; i++) {
8           // invariant: docsAndFreqs.doc  doc) {
16               // DocsEnum beyond the current doc - break and advance lead to the new highest doc.
17               doc = docsAndFreqs.doc;
18               break advanceHead;
19             }
20           }
21         }
22         // success - all DocsEnums are on the same doc
23         return doc;
24       }
25       // advance head for next iteration
26       doc = lead.doc = lead.scorer.advance(doc);
27     }
28   }
  首先,获取符合第一个查询条件的第一个doc ID ,记为A,
  第二,遍历其他的查询条件,获取第二个查询条件的doc id,记为B,如果B大于A,说明没有即符合A又符合B的Doc ID,那么第一个查询条件就会尝试获取大于等于B的Doc ID开始新的一轮循环。
  第三,如果B刚好等于A,说明即有符合A又有符合B的Doc ID,所以获取第三个查询的条件的Doc ID,记为C,再多A和C进行比较,之后就跟第二步一样。
  最后,当遍历所有查询条件,如果A符合所有查询条件则说明返回A,否则就返回最大值表示没有解。
  从上面的过程可以看出,多个term的查询性能还是很耗时的。
  
  再者就是多个Term的Boolean的准确性问题:
  假设我们查询New AND House,那么结果出来的Document都包含New 和 House,但是如果我查的是要求是New House 连一起的,那么用BooleanQuery出来的结果可能会包含House New,或者 new XXXXX house这样的并不符合要求的结果,这就是Boolean查询的不足之处。
  
  最后我们来看下,Solr是怎么处理Required Term ,OPTIONAL Term, NEGATED Term的评分因子的,以上三个分别对应required,prohibited,optional



1     public Scorer scorer(AtomicReaderContext context, Bits acceptDocs)
2         throws IOException {
3       List required = new ArrayList();
4       List prohibited = new ArrayList();
5       List optional = new ArrayList();
6       Iterator cIter = clauses.iterator();
7       for (Weight w  : weights) {
8         BooleanClause c =  cIter.next();
9         Scorer subScorer = w.scorer(context, acceptDocs);
10         if (subScorer == null) {
11           if (c.isRequired()) {
12             return null;
13           }
14         } else if (c.isRequired()) {
15           required.add(subScorer);
16         } else if (c.isProhibited()) {
17           prohibited.add(subScorer);
18         } else {
19           optional.add(subScorer);
20         }
21       }
22
23       if (required.size() == 0 && optional.size() == 0) {
24         // no required and optional clauses.
25         return null;
26       } else if (optional.size() < minNrShouldMatch) {
27         // either >1 req scorer, or there are 0 req scorers and at least 1
28         // optional scorer. Therefore if there are not enough optional scorers
29         // no documents will be matched by the query
30         return null;
31       }
32      
33       // simple conjunction
34       if (optional.size() == 0 && prohibited.size() == 0) {
35         float coord = disableCoord ? 1.0f : coord(required.size(), maxCoord);
36         return new ConjunctionScorer(this, required.toArray(new Scorer[required.size()]), coord);
37       }
38      
39       // simple disjunction
40       if (required.size() == 0 && prohibited.size() == 0 && minNrShouldMatch  1) {
41         float coord[] = new float[optional.size()+1];
42         for (int i = 0; i < coord.length; i++) {
43           coord = disableCoord ? 1.0f : coord(i, maxCoord);
44         }
45         return new DisjunctionSumScorer(this, optional.toArray(new Scorer[optional.size()]), coord);
46       }
47      
48       // Return a BooleanScorer2
49       return new BooleanScorer2(this, disableCoord, minNrShouldMatch, required, prohibited, optional, maxCoord);
50     }
5.2 短语查询








  •   "new home" OR "new house"

  •   "3 bedrooms" AND "walk in closet" AND "granite countertops"

  在BooleanQuery中,分析了它的劣势,查询的不准性,以及性能的耗时。Phrase queries 在查找连着的term时完美的解决以上两个问题,它主要用到了Term Position。下表是带有term position的倒排表格式,term position很清楚明白的记录了,每一个term在其document的位置,虽然它增加了索引文件的大小,但是却为我们的Pharse Query带来了大大的便利。
DSC0007.png
  同样出去new 和 house的信息,可以看出在document 5和8中,new 和 home是连着的,这提高了查询速度也提高了查询质量。就查询质量进行排序,PhraseQuery > BooleanQuery > FuzzyQuery
DSC0008.png

5.3 FuzzyQuery

5.3.1 通配符查询(wildcards Query)
  我们可以使用*来代替1个或多个字符,?来代替单个字符进行通配符查询,比如






  ■ 查询: offi* 符合 office, officer, official等等
  ■ 查询: off*r 符合 offer, officer, officiator等等
  ■ 查询: off?r 符合 offer, 但不符合officer
  这里需要注意点,通配符查询需要尝试去比较每一个term,所以查询是很费时间的。因此要想通配符查询速度快,那尽量让通配符的匹配范围小。比如要获取career,car*r的通配符速度速度肯定是快于ca*r的。我们来一个极端的情况,*ing这种通配符肯定是最慢的,因为需要遍历完所有的term。所以尽量将通配符放到查询term的后面位置。
  但是有时候我们不得不取查*ing这样的查询,这个时候?Solr给我提供了一个方法,就是将term字段倒置,比如caring倒置为gnirac,这个时候的通配符只需要取查gni*。该方法是通过ReversedWildcardFilterFactory类实现的(需要修改分析链配置),使用这个类Solr建所有时候会存放两份数据,一份是正向caring,另一份是逆向的gnirac,当查询*ing时候,Solr会自动识别。同样需要注意,及时使用ReversedWildcardFilterFactory,查询*ing仍然是很费时间的而且增加了索引的大小,所以除非万不得已请不需要这样处理。




  通配符查询只适合对单个term进行查询,像BooleanQuery那样,并不适用于PharseQuery短语查询。

5.3.2 范围查询(Range Query)
  Solr支持进行范围查询(Range Query),它不但支持数字类型,同样支持字符串类型(字典序进行排列)。比如:








  • Query: created:[2012-02-01T00:00.0ZTO2012-08-02T00:00.0Z]








  •   Query: yearsOld:[18TO21] Matches 18, 19, 20, 21

  •   Query: title:[boatTOboulder] Matches boat, boil, book, boulder, etc.

  •   Query:price:[12.99TO14.99] Matches 12.99, 13.000009, 14.99, etc.







  •   Query: yearsOld:{18TO21} Matches 19 and 20 but not 18 or 21

  • Query: yearsOld:[18TO21} Matches 18, 19, 20, but not 21


  • "["和"]"符号表示大于等于和小于等于


  • "{"和"}"符合大于和小雨
  •   由于Term在Index里面是按字典序排列的,所以对字符串类型的域进行RangeQuery时候,是按字典序进行的。

  • 同样范围查询同样很费时间,同样需要遍历较多的term。

5.3.3 编辑距离查询(EDIT-DISTANCE  Search)
  Solr的查询方式还是很丰富的,它又提供了编辑距离查询方式。编辑距离采用了Levenshtein编辑距离算法进行的,关于《Levenshtein编辑距离算法》介绍请看我的另外一篇文章,简单的说就是对一个字符串增加或者删除或者移位其中的一个字符则表示1个编辑距离。编辑距离查询使用很简单,用~表示是编辑距离查询,~后面跟数字表示距离数,比如:








  • Query: administrator~ Matches: adminstrator, administrater, administratior, and so forth 。(默认情况,等同 administrator~2)
  • Query: administrator~1 Matches with in one editdistance.
  • Query: administrator~2 Matches within two edit distances.
  • Query:administrator~N MatcheswithinNeditdistances.
  • 在进行编辑距离查询时候同样需要遍历不需要的term,所以当编辑距离大于2就会变得很慢。
  • 编辑距离查询是对于单个term有效,不能应用与短语查询中。

5.3.4 临近查询(PROXIMITY SEARCHING)
  相比于编辑距离查询适应于两个term近似但是不完全相同的情况,Solr还支持临近查询来支持短语查询方式来选出短语相近的结果,它将一个term为单位来计算term之间存在term的个数,比如:


  • Query: "chief officer"~1 ,表示最多可以在chief和officer存在一个term,比如 "chief executive officer", "chief financial officer"
  • Query: "chief officer"~2 ,表示最多可以在chief和officer存在两个term,"chief business development officer","officer chief"
  • Query: "chief officer"~N, 表示最多可以在chief和officer存在多个term
  • Query: "chief officer"~0, 表示一个短语查询。
  • 同样临近查询的速度还是会收到影响
  
  总结:
  至此已经简单介绍了Solr的倒排表索引格式以及不同方式的关键字查询。如果对查询速度有显著要求,尽量采用Boolean查询方式。
  
  
  
  
  
  
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-87390-1-1.html 上篇帖子: Solr参数(DisMax Event Facet) 下篇帖子: solr入门心得
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表