设为首页 收藏本站
查看: 1554|回复: 0

[经验分享] SOLR企业搜索平台 三 (schema.xml配置和solrj的使用)

[复制链接]

尚未签到

发表于 2018-11-2 06:31:19 | 显示全部楼层 |阅读模式
  前面讲到如何搭建solr运行环境以及对中文查询语句进行分词处理,这篇文章主要讲解对schema.xml的相关配置和如何使用solrj
  对于搜索程序来说,最重要的是理解他的总体架构.solr也是基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面.但是他的执行过程却无异于lucene
DSC0000.png

  搜索程序的典型组件,其中阴影部分由lucene完成
  我们首先来说说这个schema.xml。
  
schema.xml,这个相当于数据表配置文件,它定义了加入索引的数据的数据类型。主要包括types、fields和其他的一些缺省设置。
  

  
1)首先需要在types结点内定义一个FieldType子结点,包括name,class,positionIncrementGap等等一些参数,name就是这个FieldType的名称,class指向org.apache.solr.analysis包里面对应的class名称,用来定义这个类型的行为。在FieldType定义的时候最重要的就是定义这个类型的数据在建立索引和进行查询的时候要使用的分析器analyzer,包括分词和过滤。在第二篇文章中详细讲了怎样添加中文分词器,详情请参见http://3961409.blog.51cto.com/3951409/833417
  2)接下来的工作就是在fields结点内定义具体的字段(类似数据库中的字段),就是filed,filed定义包括name,type(为之前定义过的各种FieldType),indexed(是否被索引),stored(是否被储存),multiValued(是否有多个值)等等。
  
例:
  






  

  field的定义相当重要,有几个技巧需注意一下,对可能存在多值得字段尽量设置multiValued属性为true,避免建索引抛出错误;如果不需要存储相应字段值,尽量将stored属性设为false。
  3)建议建立了一个拷贝字段,将所有的全文字段复制到一个字段中,以便进行统一的检索: (此时进行查询使用all:jason就相当于使用ant_title:jason or ant_content:jason)
  



  

  并在拷贝字段结点处完成拷贝设置:
  





  

  4)除此之外,还可以定义动态字段,所谓动态字段就是不用指定具体的名称,只要定义字段名称的规则,例如定义一个dynamicField,name 为*_i,定义它的type为text,那么在使用这个字段的时候,任何以_i结尾的字段都被认为是符合这个定义的,例如:name_i,gender_i,school_i等。
  schema.xml配置文件大体上就是这样,更多细节请参见solr wiki http://wiki.apache.org/solr/SchemaXml。
  下面将使用solrj对索引进行操作
  1)新建工程,并加入以下jar包(参考http://wiki.apache.org/solr/Solrj)
  From /dist:


  • apache-solr-solrj-*.jar
  From /dist/solrj-lib


  • commons-codec-1.3.jar
  • commons-httpclient-3.1.jar
  • commons-io-1.4.jar
  • jcl-over-slf4j-1.5.5.jar
  • slf4j-api-1.5.5.jar
  也就是solr/dist/solrj-lib/中commons-codec-x.xjar , commons-httpclient-x.x.jar , commons-io-x.x.jar , jcl-over-slf4j-x.x.jar , slf4j-api-x.x.jar还有solr/dist/中apache-solr-solrj-x.x.x.jar , apache-solr-core-x.x.x.jar
  2)新建一个测试类
  


  • package cn.edu.ccut.blackant;

  • import java.io.IOException;
  • import java.net.MalformedURLException;

  • import org.apache.solr.client.solrj.SolrServerException;
  • import org.apache.solr.client.solrj.impl.CommonsHttpSolrServer;
  • import org.apache.solr.common.SolrInputDocument;
  • import org.junit.Test;

  • public class SolrTest {

  •     @Test
  •     public void test(){
  •         final String URL="http://localhost:8080/solr";
  •         //创建solrserver对象(CommonsHttpSolrServer)
  •         try {
  •             CommonsHttpSolrServer server=new CommonsHttpSolrServer(URL);

  •             SolrInputDocument doc = new SolrInputDocument();
  •             doc.addField("id", "2");//id必须有,value的值类型要根据schema.xml中规定的id类型而定
  •             doc.addField("ant_title", "atitle");
  •             doc.addField("ant_content", "jason");

  •             server.add(doc);
  •             server.commit();
  •         } catch (MalformedURLException e) {
  •             // TODO Auto-generated catch block
  •             e.printStackTrace();
  •         } catch (SolrServerException e) {
  •             // TODO Auto-generated catch block
  •             e.printStackTrace();
  •         } catch (IOException e) {
  •             // TODO Auto-generated catch block
  •             e.printStackTrace();
  •         }
  •     }
  • }
  

  项目中添加junit,具体做法是右键项目-->add library-->选择junit-->junit4-->finish
  3)运行测试类(运行相关信息需要查看控制台或者tomcat的日志文件)
  运行结果可以使用luke来查看,使用前一定要根据solr的版本来选择luke,这里是用的是solr3.5,所以luke也要用3.5版本
  下载地址http://code.google.com/p/luke/downloads/detail?name=lukeall-3.5.0.jar
  使用方法:
  3.1)进入文件所在路径
  3.2)在命令行java -jar ./lukeall-3.5.0.jar打开软件
  运行界面如图:
DSC0001.png

  需要说明的是要指定solr的索引文件路径.此处为/home/jason/solr-tomcat/solr/data/index,指定好路径以后
DSC0002.png

  运行成功的话将会生成新的索引,如图右下角所示.如果程序中id值不变,那么每次将会覆盖id为2的索引值,这样可以完成更新索引的操作
  4)访问http://127.0.0.1:8080/solr/admin/
  查询*:*(查询全部),如果结果包含程序中的信息,那么恭喜配置成功!



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-629518-1-1.html 上篇帖子: SOLR企业搜索平台 二 (分词安装) 下篇帖子: Solr监控
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表