设为首页 收藏本站
查看: 1275|回复: 0

[经验分享] sorl入门

[复制链接]

尚未签到

发表于 2017-12-20 08:21:56 | 显示全部楼层 |阅读模式
  本教程是从别人的基础上借鉴整理的
  Solr是一个独立的企业级搜索应用服务器,它对外提供API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引(solr生成倒排索引,数据库生成的索引是二叉树索引,效率差距很大);也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。Solr是一个类似于Google或者Bing的全文检索引擎, Solr是与搜索引擎优化(SEO)相关联的。很多公司也使用elasticsearch作为搜索引擎。

一、solr安装
  准备:tomcat7.0版本,solr5.3.0版本
  目前网络上对solr3.x和4.x的安装介绍比较多,这里使用新的5.3.1版本进行安装介绍。
  1、下载tomcat和solr压缩包并解压;
  2、将 solr 压缩包中 solr-5.3.0\server\solr-webapp\文件夹下有个webapp文件夹,将之复制到Tomcat\webapps\目录下,文件夹名改成solr ;
  3、将 solr 压缩包中 solr-5.3.0\server\lib\ext 中的 jar 全部复制到 Tomcat\ webapps\solr\WEB-INF\lib 目录中;
  4、将 solr 压缩包中 solr-5.3.0/ server/resources /log4j.properties 复制到Tomcat\ webapps\solr\WEB-INF\lib 目录中;
  5、将 solr 压缩包中 solr-5.3.0/server/solr 目录复制到计算机某个目录下,如D:\testsolr\solr_home(solr创建的core到时会存放在该目录下);
  6、打开Tomcat/webapps/solr/WEB-INF下的web.xml,找到如下配置内容(初始状态下该内容是被注释掉的):
  <env-entry><env-entry-name>solr/home</env-entry-name><env-entry-value>D:/testsolr/solr_home/solr</env-entry-value><env-entry-type>java.lang.String</env-entry-type></env-entry>
  将 env-entry-value 中的内容改成你的solr_home路径(第5步的文件),这里是D:/testsolr/solr_home/solr;
  7、保存关闭,而后启动tomcat,在浏览器输入http://localhost:8080/solr即可出现Solr的管理界面,如下:
DSC0000.jpg


二、创建第一个core
  1、将solr-5.3.0/dist中的solr-dataimporthandler、solr-dataimporthandler-extras的jar包copy到tomcat\webapps\solr\WEB-INF\lib下;
  2、在D:\testsolr\solr_home\solr下创建my_core文件夹(名称与下图的instanceDir一致,建议下图中的name也和该文件夹名一致);
  3、在my_core文件夹下创建data和conf文件夹;
  4、将solr-5.3.0\example\example-DIH\solr\solr\conf所有文件和文件夹都copy到D:\testsolr\solr_home\solr\my_core\conf下;
  5、启动tomcat,访问solr,创建core,如下
DSC0001.jpg

  如此,新增core即可完成;
  6、可以在“core selector”这里查询和编辑你的solr相关信息;

三、solr分词
  这里使用的是mmseg4j 分词,该jar包网上下载的普遍有问题,不能正常使用。经测试,该版本可以,下载地址:http://download.csdn.net/detail/u012385190/9550326;
  1、将文件里的jar包拷贝到Tomcat\webapps\solr\WEB-INF\lib下;
  2、在 D:\testsolr\solr_home\solr\ 目录下新建一个 dic 文件夹 , 把 新下载的词库(data文件夹下)拷贝到 dic 目录下;
  3、在 D:\testsolr\solr_home\solr\my_core\conf\schema.xml 文件的里添加如下:
  <fieldtype name="textComplex" positionIncrementGap="100"><analyzer><tokenizer mode="complex" dicPath="D:/testsolr/solr_home/solr/dic"></tokenizer></analyzer></fieldtype><fieldtype name="textMaxWord" positionIncrementGap="100"><analyzer><tokenizer mode="maxword" dicPath="D:/testsolr/solr_home/solr/dic"></tokenizer></analyzer></fieldtype><fieldtype name="textSimple" positionIncrementGap="100"><analyzer><tokenizer mode="simple" dicPath="D:/testsolr/solr_home/solr/dic"></tokenizer></analyzer></fieldtype>
  这里不同的name选用不同的分词方式;
  其中dicPath属性的值为第二步的地址,不要写错哦;
  4、在 D:\testsolr\solr_home\solr\my_core\conf\schema.xml 文件里添加如下 :
  

    <field name="name" type="textMaxWord" indexed="true" stored="true" multiValued="true" />  <field name="description" type="textMaxWord" indexed="true" stored="true" multiValued="true" />
  


  • 1
  • 2


  • 1
  • 2
  5、开启服务如下进行分词测试,如下图分词:
DSC0002.jpg

  如下图所示root字段是没有分词的结果:
DSC0003.jpg

  在过程中出现如下错误,是因为字段重复,在schema.xml中将另一个content字段的配置注释掉即可(name同理)。
DSC0004.jpg

  6、如此,分词ok

四、solr连接数据库
  接下来进行solr连接数据库,生成索引,以及查询方法。
  数据库建表语句:
  

CREATE TABLE `test_person` (  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(50) DEFAULT NULL COMMENT '姓名',
  `description` varchar(500) DEFAULT NULL COMMENT '简介',
  PRIMARY KEY (`id`)
  
);
  

  
insert into test_person(name,description) values('周星驰','香港著名喜剧演员');
  
insert into test_person(name,description) values('周润发','香港著名演员');
  
insert into test_person(name,description) values('周节能','台湾著名歌手,号称音乐天王');
  
insert into test_person(name,description) values('成龙','香港著名动作演员');
  
insert into test_person(name,description) values('山本一木','日本鬼子');
  
insert into test_person(name,description) values('仓木麻衣','日本歌手');
  


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  1、将数据库驱动包放入solr项目工程中(我用的MySQL,使用jar包mysql-connector-java-5.1.18-bin.jar);
  2、在自己创建的core实例的conf文件中进行数据配置(我的是D:\testsolr\solr_home\solr\my_core\conf\solr-data-config.xml),覆盖内容如下(数据库表自己根据配置自己建):
  

<?xml version="1.0" encoding="UTF-8"?>  
<dataConfig>
  <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/test" user="root" password="jhp123" />
  <document name="messages">
  <entity name="message" transformer="ClobTransformer" query="select * from test_peoson where name like '%${dataimporter.request.name}%'">
  <field column="id" name="id" />
  <field column="name" name="name" />
  <field column="description" name="description" />
  </entity>
  </document>
  
</dataConfig>
  

  url=”jdbc:mysql://localhost:3306/test” user=”root” password=”123” 这里配置了 mysql 的连接路径 , 用户名 , 密码
  

<field column="name" name="name" />  这里配置的是数据库里要索引的字段, 注意name是在分词的第4 步配置的,同时只有这样匹配的字段最终solr才会查询显示出来,所以需要用到的字段必须在该文件中<field column="***" name="***" />配置才可以;  


  • 1


  • 1
  3、在D:\testsolr\solr_home\solr\my_core\conf\schema.xml文件中添加如下字段信息:
  

<field name="name" type="textMaxWord" indexed="true" stored="true" multiValued="true" />  <field name="description" type="textMaxWord" indexed="true" stored="true" multiValued="true" />
  


  • 1
  • 2


  • 1
  • 2
  注意这里的配置是数据库里需要用到的字段,在分词时这两个字段已配置,故此步可省略。其中id字段已存。
  4、在 D:\testsolr\solr_home\solr\my_core\conf 目录下的 solrconfig.xml 文件里 , 添加如下代码 :
  

<requestHandler name="/dataimport">  <lst name="defaults">
  <str name="config">D:/testsolr/solr_home/solr/my_core/conf/solr-data-config.xml</str>
  </lst>
  </requestHandler>
  


  • 1
  • 2
  • 3
  • 4
  • 5


  • 1
  • 2
  • 3
  • 4
  • 5
  D:/testsolr/solr_home/solr/my_core/conf/solr-data-config.xml为上一步的配置文件地址;
  5、把本地下载解压的 solr文件里dist 目录下的 solr-dataimporthandler.jar 和 solr-dataimporthandler-extras.jar 复制到Tomcat \webapps\solr\WEB-INF\lib 目录下;
  6、如图打开solr,把数据库(其实也可以用 http/file 资源)中的记录放到索引中。现大概看下步骤:
DSC0005.jpg

  7、测试查询:
DSC0006.jpg

  8、solr查询参数详解,如下图所示
DSC0007.jpg

  如图所示对图中的参数进行解释:
  qt :(query type)指定那个类型来处理查询请求,一般不用指定,默认是standard;
  q : 查询的关键字,此参数最为重要,例如图中表示查询所有字段中含有“周星驰”三个字中的至少某一个字的数据;
  fq :(filter query)过虑查询,提供一个可选的筛选器查询。返回在q查询符合结果中同时符合的fq条件的查询结果,例如:q=id:1&fq=sort:[1 TO 5],找关键字id为1 的,并且sort是1到5之间的;
  sort : 排序方式,例如id desc 表示按照 “id” 降序;
  rows :指定返回结果最多有多少条记录,默认值为 10,配合start实现分页;

  fl : 指定返回哪些字段,用逗号或空格分隔,注意:字段区分大小写,例如,fl=>  df 默认的查询字段,一般默认指定。比如df为name,q为周星驰,则搜索name中含有周星驰”三个字中的至少某一个字的数据;
  wt:返回类型,有json、XML等;
  hl:高亮显示;
  facet:分组,其中facet.query表示所有的索引中含有该内容的数据有多少条,facet.field和facet.prefix需要结合,表示字段facet.field含有facet.prefix的内容共有多少条;
  solr查询参数具体参考:http://www.cnblogs.com/zhangweizhong/p/5056884.html
  solr在Java中的使用:http://blog.csdn.net/u012385190/article/details/53115546
  Solr是一个独立的企业级搜索应用服务器,它对外提供API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引(solr生成倒排索引,数据库生成的索引是二叉树索引,效率差距很大);也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。Solr是一个类似于Google或者Bing的全文检索引擎, Solr是与搜索引擎优化(SEO)相关联的。很多公司也使用elasticsearch作为搜索引擎。

一、solr安装
  准备:tomcat7.0版本,solr5.3.0版本
  目前网络上对solr3.x和4.x的安装介绍比较多,这里使用新的5.3.1版本进行安装介绍。
  1、下载tomcat和solr压缩包并解压;
  2、将 solr 压缩包中 solr-5.3.0\server\solr-webapp\文件夹下有个webapp文件夹,将之复制到Tomcat\webapps\目录下,文件夹名改成solr ;
  3、将 solr 压缩包中 solr-5.3.0\server\lib\ext 中的 jar 全部复制到 Tomcat\ webapps\solr\WEB-INF\lib 目录中;
  4、将 solr 压缩包中 solr-5.3.0/ server/resources /log4j.properties 复制到Tomcat\ webapps\solr\WEB-INF\lib 目录中;
  5、将 solr 压缩包中 solr-5.3.0/server/solr 目录复制到计算机某个目录下,如D:\testsolr\solr_home(solr创建的core到时会存放在该目录下);
  6、打开Tomcat/webapps/solr/WEB-INF下的web.xml,找到如下配置内容(初始状态下该内容是被注释掉的):
  

<env-entry>  <env-entry-name>solr/home</env-entry-name>
  <env-entry-value>D:/testsolr/solr_home/solr</env-entry-value>
  <env-entry-type>java.lang.String</env-entry-type>
  </env-entry>
  


  • 1
  • 2
  • 3
  • 4
  • 5


  • 1
  • 2
  • 3
  • 4
  • 5
  将 env-entry-value 中的内容改成你的solr_home路径(第5步的文件),这里是D:/testsolr/solr_home/solr;
  7、保存关闭,而后启动tomcat,在浏览器输入http://localhost:8080/solr即可出现Solr的管理界面,如下:


二、创建第一个core
  1、将solr-5.3.0/dist中的solr-dataimporthandler、solr-dataimporthandler-extras的jar包copy到tomcat\webapps\solr\WEB-INF\lib下;
  2、在D:\testsolr\solr_home\solr下创建my_core文件夹(名称与下图的instanceDir一致,建议下图中的name也和该文件夹名一致);
  3、在my_core文件夹下创建data和conf文件夹;
  4、将solr-5.3.0\example\example-DIH\solr\solr\conf所有文件和文件夹都copy到D:\testsolr\solr_home\solr\my_core\conf下;
  5、启动tomcat,访问solr,创建core,如下

  如此,新增core即可完成;
  6、可以在“core selector”这里查询和编辑你的solr相关信息;

三、solr分词
  这里使用的是mmseg4j 分词,该jar包网上下载的普遍有问题,不能正常使用。经测试,该版本可以,下载地址:http://download.csdn.net/detail/u012385190/9550326;
  1、将文件里的jar包拷贝到Tomcat\webapps\solr\WEB-INF\lib下;
  2、在 D:\testsolr\solr_home\solr\ 目录下新建一个 dic 文件夹 , 把 新下载的词库(data文件夹下)拷贝到 dic 目录下;
  3、在 D:\testsolr\solr_home\solr\my_core\conf\schema.xml 文件的里添加如下:
  

<fieldtype name="textComplex" positionIncrementGap="100">  <analyzer>
  <tokenizer mode="complex" dicPath="D:/testsolr/solr_home/solr/dic">
  </tokenizer>
  </analyzer>
  </fieldtype>
  <fieldtype name="textMaxWord" positionIncrementGap="100">
  <analyzer>
  <tokenizer mode="maxword" dicPath="D:/testsolr/solr_home/solr/dic">
  </tokenizer>
  </analyzer>
  </fieldtype>
  <fieldtype name="textSimple" positionIncrementGap="100">
  <analyzer>
  <tokenizer mode="simple" dicPath="D:/testsolr/solr_home/solr/dic">
  </tokenizer>
  </analyzer>
  </fieldtype>
  


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  这里不同的name选用不同的分词方式;
  其中dicPath属性的值为第二步的地址,不要写错哦;
  4、在 D:\testsolr\solr_home\solr\my_core\conf\schema.xml 文件里添加如下 :
  

    <field name="name" type="textMaxWord" indexed="true" stored="true" multiValued="true" />  <field name="description" type="textMaxWord" indexed="true" stored="true" multiValued="true" />
  


  • 1
  • 2


  • 1
  • 2
  5、开启服务如下进行分词测试,如下图分词:

  如下图所示root字段是没有分词的结果:

  在过程中出现如下错误,是因为字段重复,在schema.xml中将另一个content字段的配置注释掉即可(name同理)。

  6、如此,分词ok

四、solr连接数据库
  接下来进行solr连接数据库,生成索引,以及查询方法。
  数据库建表语句:
  

CREATE TABLE `test_person` (  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(50) DEFAULT NULL COMMENT '姓名',
  `description` varchar(500) DEFAULT NULL COMMENT '简介',
  PRIMARY KEY (`id`)
  
);
  

  
insert into test_person(name,description) values('周星驰','香港著名喜剧演员');
  
insert into test_person(name,description) values('周润发','香港著名演员');
  
insert into test_person(name,description) values('周节能','台湾著名歌手,号称音乐天王');
  
insert into test_person(name,description) values('成龙','香港著名动作演员');
  
insert into test_person(name,description) values('山本一木','日本鬼子');
  
insert into test_person(name,description) values('仓木麻衣','日本歌手');
  


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  1、将数据库驱动包放入solr项目工程中(我用的MySQL,使用jar包mysql-connector-java-5.1.18-bin.jar);
  2、在自己创建的core实例的conf文件中进行数据配置(我的是D:\testsolr\solr_home\solr\my_core\conf\solr-data-config.xml),覆盖内容如下(数据库表自己根据配置自己建):
  

<?xml version="1.0" encoding="UTF-8"?>  
<dataConfig>
  <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/test" user="root" password="jhp123" />
  <document name="messages">
  <entity name="message" transformer="ClobTransformer" query="select * from test_peoson where name like '%${dataimporter.request.name}%'">
  <field column="id" name="id" />
  <field column="name" name="name" />
  <field column="description" name="description" />
  </entity>
  </document>
  
</dataConfig>
  


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  url=”jdbc:mysql://localhost:3306/test” user=”root” password=”123” 这里配置了 mysql 的连接路径 , 用户名 , 密码
  

<field column="name" name="name" />  这里配置的是数据库里要索引的字段, 注意name是在分词的第4 步配置的,同时只有这样匹配的字段最终solr才会查询显示出来,所以需要用到的字段必须在该文件中<field column="***" name="***" />配置才可以;  


  • 1


  • 1
  3、在D:\testsolr\solr_home\solr\my_core\conf\schema.xml文件中添加如下字段信息:
  

<field name="name" type="textMaxWord" indexed="true" stored="true" multiValued="true" />  <field name="description" type="textMaxWord" indexed="true" stored="true" multiValued="true" />
  


  • 1
  • 2


  • 1
  • 2
  注意这里的配置是数据库里需要用到的字段,在分词时这两个字段已配置,故此步可省略。其中id字段已存。
  4、在 D:\testsolr\solr_home\solr\my_core\conf 目录下的 solrconfig.xml 文件里 , 添加如下代码 :
  

<requestHandler name="/dataimport">  <lst name="defaults">
  <str name="config">D:/testsolr/solr_home/solr/my_core/conf/solr-data-config.xml</str>
  </lst>
  </requestHandler>
  


  • 1
  • 2
  • 3
  • 4
  • 5


  • 1
  • 2
  • 3
  • 4
  • 5
  D:/testsolr/solr_home/solr/my_core/conf/solr-data-config.xml为上一步的配置文件地址;
  5、把本地下载解压的 solr文件里dist 目录下的 solr-dataimporthandler.jar 和 solr-dataimporthandler-extras.jar 复制到Tomcat \webapps\solr\WEB-INF\lib 目录下;
  6、如图打开solr,把数据库(其实也可以用 http/file 资源)中的记录放到索引中。现大概看下步骤:

  7、测试查询:

  8、solr查询参数详解,如下图所示

  如图所示对图中的参数进行解释:
  qt :(query type)指定那个类型来处理查询请求,一般不用指定,默认是standard;
  q : 查询的关键字,此参数最为重要,例如图中表示查询所有字段中含有“周星驰”三个字中的至少某一个字的数据;
  fq :(filter query)过虑查询,提供一个可选的筛选器查询。返回在q查询符合结果中同时符合的fq条件的查询结果,例如:q=id:1&fq=sort:[1 TO 5],找关键字id为1 的,并且sort是1到5之间的;
  sort : 排序方式,例如id desc 表示按照 “id” 降序;
  rows :指定返回结果最多有多少条记录,默认值为 10,配合start实现分页;

  fl : 指定返回哪些字段,用逗号或空格分隔,注意:字段区分大小写,例如,fl=>  df 默认的查询字段,一般默认指定。比如df为name,q为周星驰,则搜索name中含有周星驰”三个字中的至少某一个字的数据;
  wt:返回类型,有json、XML等;
  hl:高亮显示;
  facet:分组,其中facet.query表示所有的索引中含有该内容的数据有多少条,facet.field和facet.prefix需要结合,表示字段facet.field含有facet.prefix的内容共有多少条;
  solr查询参数具体参考:http://www.cnblogs.com/zhangweizhong/p/5056884.html
  solr在Java中的使用:http://blog.csdn.net/u012385190/article/details/53115546

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-425936-1-1.html 上篇帖子: 一、win7下搭建solr6运行环境(使用内嵌Jetty服务器) 下篇帖子: Tomcat8.5 与 Solr5.5 的集成
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表