设为首页 收藏本站
查看: 759|回复: 0

[经验分享] 利用SOLR搭建企业搜索平台 之三(配置文件)

[复制链接]

尚未签到

发表于 2015-7-17 11:24:16 | 显示全部楼层 |阅读模式
运行solr是个很简单的事,如何让solr高效运行你的项目,这个就不容易了。要考虑的因素太多。这里很重要一个就是对solr的配置要了解。懂得配置文件每个配置项的含义,这样操作起来就会如鱼得水!
在solr里面主要的就是solr的主目录下面的schema.xml,solrConfig.xml,如果你看过前两篇文章的话,你应该知道solr的主目录处于什么位置(c:\solr-tomcat\solr\conf\)。
在这个文章中,我们首先来说说这个schema.xml。
schema.xml,这个相当于数据表配置文件,它定义了加入索引的数据的数据类型的。主要包括types、fields和其他的一些缺省设置。
1》首先需要在types结点内定义一个FieldType子结点,包括name,class,positionIncrementGap等等一 些参数,name就是这个FieldType的名称,class指向org.apache.solr.analysis包里面对应的class名称,用来 定义这个类型的行为。在FieldType定义的时候最重要的就是定义这个类型的数据在建立索引和进行查询的时候要使用的分析器analyzer,包括分 词和过滤。在例子中text这个FieldType在定义的时候,在index的analyzer中使用 solr.WhitespaceTokenizerFactory这个分词包,就是空格分词,然后使用 solr.StopFilterFactory,solr.WordDelimiterFilterFactory,solr.LowerCaseFilterFactory,solr.EnglishPorterFilterFactory,solr.RemoveDuplicatesTokenFilterFactory 这几个过滤器。在向索引库中添加text类型的索引的时候,Solr会首先用空格进行分词,然后把分词结果依次使用指定的过滤器进行过滤,最后剩下的结果 才会加入到索引库中以备查询。Solr的analysis包并没有带支持中文的包,在第二篇文章中详细讲了怎样添加paoding中文分词器,详情请参见http://lianj-lee.javaeye.com/blog/424474
2》接下来的工作就是在fields结点内定义具体的字段(类似数据库中的字段),就是filed,filed定义包括name,type(为之 前定义过的各种FieldType),indexed(是否被索引),stored(是否被储存),multiValued(是否有多个值)等等。
例:



Xml代码 http://lianj-lee.javaeye.com/javascripts/syntaxhighlighter/clipboard_new.swf?clipboard=%3Cfields%3E%0A%09%3Cfield%20name%3D%22id%22%20type%3D%22integer%22%20indexed%3D%22true%22%20stored%3D%22true%22%20required%3D%22true%22%20%2F%3E%0A%09%3Cfield%20name%3D%22name%22%20type%3D%22text%22%20indexed%3D%22true%22%20stored%3D%22true%22%20%2F%3E%0A%09%3Cfield%20name%3D%22summary%22%20type%3D%22text%22%20indexed%3D%22true%22%20stored%3D%22true%22%20%2F%3E%0A%09%3Cfield%20name%3D%22author%22%20type%3D%22string%22%20indexed%3D%22true%22%20stored%3D%22true%22%20%2F%3E%0A%09%3Cfield%20name%3D%22date%22%20type%3D%22date%22%20indexed%3D%22false%22%20stored%3D%22true%22%20%2F%3E%0A%09%3Cfield%20name%3D%22content%22%20type%3D%22text%22%20indexed%3D%22true%22%20stored%3D%22false%22%20%2F%3E%0A%09%3Cfield%20name%3D%22keywords%22%20type%3D%22keyword_text%22%20indexed%3D%22true%22%20stored%3D%22false%22%20multiValued%3D%22true%22%20%2F%3E%0A%09%3Cfield%20name%3D%22all%22%20type%3D%22text%22%20indexed%3D%22true%22%20stored%3D%22false%22%20multiValued%3D%22true%22%2F%3E%0A%3C%2Ffields%3E

  •   
  •       
  •       
  •       
  •       
  •       
  •       
  •       
  •       
  •   
         
field的定义相当重要,有几个技巧需注意一下,对可能存在多值得字段尽量设置multiValued属性为true,避免建索引是抛出错误;如果不需要存储相应字段值,尽量将stored属性设为false。
3》建议建立了一个拷贝字段,将所有的全文字段复制到一个字段中,以便进行统一的检索:



Xml代码 http://lianj-lee.javaeye.com/javascripts/syntaxhighlighter/clipboard_new.swf?clipboard=%3Cfield%20name%3D%22all%22%20type%3D%22text%22%20indexed%3D%22true%22%20stored%3D%22false%22%20multiValued%3D%22true%22%2F%3E

  •   

并在拷贝字段结点处完成拷贝设置:



Xml代码 http://lianj-lee.javaeye.com/javascripts/syntaxhighlighter/clipboard_new.swf?clipboard=%3CcopyField%20source%3D%22name%22%20dest%3D%22all%22%2F%3E%0A%3CcopyField%20source%3D%22summary%22%20dest%3D%22all%22%2F%3E

  •   
  •   
  
4》除此之外,还可以定义动态字段,所谓动态字段就是不用指定具体的名称,只要定义字段名称的规则,例如定义一个 dynamicField,name 为*_i,定义它的type为text,那么在使用这个字段的时候,任何以_i结尾的字段都被认为是符合这个定义的,例 如:name_i,gender_i,school_i等。
schema.xml配置文件大体上就是这样,更多细节请参见solr wiki http://wiki.apache.org/solr/SchemaXml。如果以后有时间,我会定时更新这篇文章,以争取能让更多初学者带来便利。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-87619-1-1.html 上篇帖子: 利用SOLR搭建企业搜索平台 之二(中文分词) 下篇帖子: 利用SOLR搭建企业搜索平台 之四(MultiCore)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表