ty9919 发表于 2017-12-19 18:55:22

关于solr配置自动定时增量导入数据到索引库

  开始之前,可以参考上篇博文增量索引-数据导入并索引:
  http://josh-persistence.iteye.com/admin/blogs/2017059
  Solr增量索引配置
  一、开始增量索引前的准备工作。
  1、data-config.xml中必要的属性
  <!--transformer 格式转化:HTMLStripTransformer 索引中忽略HTML标签   --->
  <!--query:查询数据库表符合记录数据   --->
  <!--deltaQuery:增量索引查询主键ID    --->    注意这个只能返回ID字段
  <!--deltaImportQuery:增量索引查询导入的数据--->
  <!--deletedPkQuery:增量索引删除主键ID查询---> 注意这个只能返回ID字段
   最主要的是我们要知道这样一个事实: last_index_time是DataImportHandler的一个默认字段,
  我们可以在任何SQL中使用,该字段用于表明上次做full import或者是delta import(增量导入)的最后一次时间。在SQL中可以使用${dih.delta.ID}来引用。
  2、数据库配置注意事项
  1)、如果只涉及添加与修改业务,那么数据库里只需添加一个类型为timpstamp,默认值为当前系统时间的字段 :CURRENT_TIMESTAMP(mysql)
  2)、如果还涉及删除业务,那么数据里就需额外再多添加一个字段isdelete,int类型的用0,1来标识,此条记录是否被删除,当然也可以用其他字段标识,ture或false都可以
  3、最重要的dataimporter.properties
  在C:\solr-tomcat\solr\testcore\conf新建一个文件:dataimport.properties, 这个配置文件很重要,它是用来记录当前时间与上一次修改时间的,通过该配置文件可以找出新增的、修改的或者删除的记录。实例:
  

<dataConfig>  <!--- 此段话配置的是一个MySQL的数据源,(数据源也可以配置在solrconfig.xml中)--->
  <dataSource name="acitvityDB" type="JdbcDataSource" driver="com.mysql.jdbc.Driver"
  url="jdbc:mysql://localhost/test" user="swang6" password="swang6"/>
  <document>         
  <entity pk="ID"dataSource="acitvityDB" name="myentity"
  query="select * from myentity WHERE isdelete=0"

  deltaQuery="select>  '${dataimporter.last_index_time}'"

  deletedPkQuery="select>
  deltaImportQuery="select * from myentity where>
  <!-- >  <field column="ID" name="id"/>
  <field column="name" name="name"/>
  <field column="address" name="address"/>
  <field column="age" name="age"/>
  <field column="my_date" name="my_date"/>
  <field column="isdelete" name="isdelete"/>
  

  </entity>
  </document>
  
</dataConfig>
  

  对dataimporter.properties的解释:
  

<!--pk="ID" 必须,因为其中的增量索引查询主键ID时需要-->  <!--dataSource="acitvityDB" 这个引用名字是引用上面数据源的名字 -->
  <!--name="myentity" 存在多个实体时,这个名字必须唯一 -->
  <!--query:用于全量导入而非增量导入
  query="select * from myentity WHERE isdelete=0
  query查询是指查询出表里所有的符合条件的数据,因为笔者测试的有删除业务,所以
  where后面有一个限定条件isdelete=0,意思为查询未被删除的数据   
  -->
  

  <!--deltaQuery : 用于增量导入且只返回ID

  deltaQuery="select>  '${dih.last_index_time}'"
  deltaQuery的意思是,查询出所有经过修改的记录的ID
  可能是修改操作,添加操作,删除操作产生的   
  -->
  

  <!--deletedPkQuery : 用于增量导入且只返回ID

  deletedPkQuery="select>  此操作只查询那些数据库里伪删除的数据的ID(即isdelete标识为1的数据)
  solr通过它来删除索引里面对应的数据
  -->
  <!--deltaImportQuery: 增量导入起作用,可以返回多个字段的值,一般情况下,都是返回所有字段的列

  deltaImportQuery="select * from myentity where>  deltaImportQuery查询是获取以上两步的ID,然后把其全部数据获取,根据获取的数据
  对索引库进行更新操作,可能是删除,添加,修改
  -->
  

  做了以上配置后,可以设置linux的cron job或者Spring 的TaskSchuduler或者Cron Job后,可以定时发url:
  http://localhost:8983/solr/dataimport?command=delta-import去做增量索引。更多关于Solr做增量索引的说明文档:http://wiki.apache.org/solr/DataImportHandler
  当然也可以用Solr自带的Scheduler来做增量索引:
  http://wiki.apache.org/solr/DataImportHandler#Scheduling
页: [1]
查看完整版本: 关于solr配置自动定时增量导入数据到索引库