设为首页 收藏本站
查看: 1088|回复: 0

[经验分享] 全文检索学习及Apache SOLR的使用探索

[复制链接]

尚未签到

发表于 2016-12-16 10:00:19 | 显示全部楼层 |阅读模式
  最近,由于工作需要,准备在项目中搭建一个全文检索系统,预期实现的功能基本上与目前流行的全文检索别无二致。主要是提供给用户普通检索与高级检索的两种方式,可以实现根据发布内容时间排序,统计,等等相关的功能。
  因为公司目前没有相关的产品同时客户给出的需求也是模棱两可,所以只能参考其他网站的功能来进行简单的需求分析。苦于之前没有接触过相关知识,并且选用的Apache SOLR开源服务器也没有详细的中文教程,做起来还是蛮吃力的,不过好在SOLR的官方文档比较详细,其在开源社区的活跃度也蛮高,如果用心去读官方文档的话还是受益良多的,而且一般的问题都是可以解决的。废话不多说,下面列出一个从开始学习全文检索到使用SOLR来开发自己的全文检索应用的一个大致过程,希望对各位需要学习相关知识的却苦于摸不着头脑的朋友有所帮助。
  1.全文检索基础
  如果你不是想要深入研究,而是像我一样急功近利的话,这里大概需要1-2天的时间看看就可以,你需要了解的知识点是:什么是全文检索,全文检索中的一些基本概念,其实就是多了解底层的一些术语,因为在后期开发的过程中这些术语会经常用到,如果你不了解,那就很吃亏。这里不用太多的时间就可以搞定。
  2.Lucene
  Lucene是神马,如果你想要做全文检索的话,这个自然不用多说,其实在我还没接触全文检索的时候,大名鼎鼎的Lucene就已是如雷贯耳,当然,也仅仅是这样,当我真正的要去学习的时候才发现,哦,原来这个家伙是这么牛逼。不过同上一样,如果你不是真的准备自己来手工编写包括建立索引,查询等等相关的底层功能的话,我的建议是这里花费1-2天的时间看看即可,因为当你了解到后续的SOLR是如何强大的时候,你会对你在Lucene花费的时间过多而懊悔不已。当然,我就是这样的。当我刚学了Lucene曾自己写了一个建立索引的工具,不过无论我如何去修改线程及优化内存,始终达不到SOLR那样的效率及便利性,当然这是后话。当时40W的数据建立起索引大概需要将近20分钟,而同样的使用SOLR时间几乎缩短的了一半,并且在处理数据库的CLOB大字段时,也不会有内存溢出等让人抓狂的事情发生。
  3.SOLR
  可能有些人在接触SOLR之前都听说过Compass,比如我,当然我仅仅是在一些相关的教程中听说过却并没有真正的用到过他。所以没有办法比较这两者之间差异,我想同是开源软件应该各有千秋吧。由于本文仅仅是想要列一个提纲,给希望学习的人一些帮助,SOLR的详细内容会在后续的文章里慢慢介绍,这里只写一个大致的学习过程, 首先,需要了解的是SOLR是干什么用的,作为一个服务器需要如何配置,怎样启动,如何通过配置文件来建立数据库内容的索引(这里插一句,我认为大多数系统可能都是需要针对数据库的数据来建立索引的,当然,SOLR可以提供的建立索引内容不不仅仅是数据库,还包括了XML,JSON甚至真正的文档比如Word,PDF等,当然这些我没用过,所以可以根据自己的实际需求来了解相关文档如何去建立索引),还有需要学习查询,SOLR可以提供的查询是比较丰富的,包括了基本的查询,分组,结果过滤,排序及统计等功能,这些在其官网的WIKI中有比较详细的介绍,可以自行查找。值得一提的是,之前在我自己写的基于Lucene的建立索引工具中数据库CLOB字段的建立确实很让人头疼,不但拖慢了创建索引的时间,还拖垮了系统(经常会内存溢出),当时是为了解决这个问题才想到了要使用一些现有应用的,也就找到了SOLR,SLOR对于CLOB的支持真的是太好了,你只需要在数据源配置的data-config.xml文件中配置clob=true即可提供对大字段的支持,这真的是太牛逼了。
  4.SOLRJ
  是的,你没看错就是SOLRJ,这是SOLR提供的一个基于Java的Client包,在你下载的SOLR的包内就能找到,以及该包所依赖的全部类库,有了这个包,你几乎可以在你的Client程序中对如何连接SOLR服务器,如何创建查询条件,如何获取查询结果等这样的细节问题视而不见,因为这个包里提供的方法基本可以覆盖你的Client程序,你需要做的仅仅是把这个包引如你的工程,然后将其进一步封装成你所需要的程序就可以了。他的一些实用方法有些类似于hiberante等这样的ORM框架,这么说当然并不准确,实际体验还是需要各位自己去体会的。
  好了,基本上就是这些内容,剩下的就需要动手写你的客户程序了,不过有了SOLR的支持,我想整个过程会变的非常轻松。归纳一下整体的学习时间安排,前两项大概需要2-3天时间来完成,多了解了解基础,绝对是件好事,如果你像我一样对算法等具有恐惧感的话,就不要深挖了,然后在SOLR的学习过程中可能需要的时间比较多我觉得一周左右的时间还是够用的,作为一个服务端,合理的配置及优化绝对是对后期工作有决定性的帮助,如果你的索引每次在开发的时候都要进行修改,这绝对是一种浪费时间,无论SOLR有多么的强大,当然你也可以像我这样,趁着建立索引的空档写一篇口水文出来o(*≧▽≦)ツ,至于SOLRJ,我还是建议在你的客户端使用,这样减轻了好多不必要的劳动,重复造轮子可是大忌。
  最后,感谢您舍得时间来看这篇烂文章(高考作文零分这件事我会乱讲?)。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-315036-1-1.html 上篇帖子: solr的multivalued使用说明(转载) 下篇帖子: solr多字段搜索,排序打分规则
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表