设为首页 收藏本站
查看: 1130|回复: 0

[经验分享] solr6.6 导入 pdf/doc/txt/json/csv/xml文件

[复制链接]
发表于 2017-12-20 10:32:36 | 显示全部楼层 |阅读模式
  文本主要介绍通过solr界面dataimport工具导入文件,包括pdf、doc、txt 、json、csv、xml等文件,看索引结果有什么不同。其实关键是managed-schema、solrconfig.xml和data-config.xml(需要创建)这三个配置文件。

  1、创建core
  启动solr,创建mycore
  solr start
  solr create -c mycore


  2、修改配置

   2.1、创建data-config.xml文件
  找到刚才创建的mycore文件夹,solr-6.6.0\server\solr\mycore,在下面的conf文件夹下建立data-config.xml文件,具体参见文件夹下solr-6.6.0\example\example-DIH\solr\tika\conf\tika-data-config.xml的内容:
  

<dataConfig>  
<dataSource type="BinFileDataSource"/>
  
<document>
  
<entity name="file" processor="FileListEntityProcessor" dataSource="null"
  
baseDir="${solr.install.dir}/example/exampledocs" fileName=".*pdf"
  
rootEntity="false">
  

  
<field column="file" name="id"/>
  

  
<entity name="pdf" processor="TikaEntityProcessor"
  
url="${file.fileAbsolutePath}" format="text">
  

  
<field column="Author" name="author" meta="true"/>
  
<!-- in the original PDF, the Author meta-field name is upper-cased,
  
but in Solr schema it is lower-cased
  
-->
  

  
<field column="title" name="title" meta="true"/>
  
<field column="dc:format" name="format" meta="true"/>
  

  
<field column="text" name="text"/>
  

  
</entity>
  
</entity>
  
</document>
  
</dataConfig>
  

  修改如下:
  

<dataConfig>  
<dataSource type="BinFileDataSource"/>
  
<document>
  
<entity name="file" processor="FileListEntityProcessor" dataSource="null"
  
baseDir="D:/work/Solr/Import" fileName=".(doc)|(pdf)|(docx)|(txt)|(csv)|(json)|(xml)|(pptx)|(pptx)|(ppt)|(xls)|(xlsx)"
  
rootEntity="false">
  

  
<field column="file" name="id"/>
  
<field column="fileSize" name="fileSize"/>
  
<field column="fileLastModified" name="fileLastModified"/>
  
<field column="fileLastModified" name="fileLastModified"/>
  
<field column="fileAbsolutePath" name="fileAbsolutePath"/>
  
<entity name="pdf" processor="TikaEntityProcessor"
  
url="${file.fileAbsolutePath}" format="text">
  

  
<field column="Author" name="author" meta="true"/>
  
<!-- in the original PDF, the Author meta-field name is upper-cased,
  
but in Solr schema it is lower-cased
  
-->
  

  
<field column="title" name="title" meta="true"/>
  
<field column="text" name="text"/>
  

  
</entity>
  
</entity>
  
</document>
  
</dataConfig>
  

  fileName :(必选)使用正则表达式匹配文件
  baseDir : (必选) 文件目录
  recursive : 是否递归的获取文件,默认false
  rootEntity :在这里必须是false(除非你只想索引文件名)。在默认情况下,document元素下就是根实体了,如果没有根实体的话,直接在实体下面的实体将会被看做跟实体。
  对于根实体对应的数据库中返回的数据的每一行,solr都将生成一个document
  dataSource :如果你是用solr1.3,那就必须设为"null",因为它没使用任何dataSourde。不需要在solr1.4中指定它,它只是意味着我们不创建一个dataSource实例。在大多数情况下,
  只有一个DataSource(JdbcDataSource),当使用FileListEntityProcessor 的时候DataSource不是必须的
  processor:只有当datasource不是RDBMS时才是必须的
  onError :默认是"abort","skip"表示跳过当前文档,"continue"表示对错误视而不见

  2.2、修改solrconfig.xml文件
  增加如下内容:
  

<requestHandler name="/dataimport">  
<lst name="defaults">
  
<str name="config">data-config.xml</str>
  
</lst>
  
</requestHandler>
  



  2.3、修改managed-schema
  配置中文词库,具体参见:http://www.cnblogs.com/shaosks/p/7843218.html,增加如下内容:
  

<!-- mmseg4j fieldType-->  
<fieldType name="text_mmseg4j_complex" positionIncrementGap="100" >
  
<analyzer>
  
<tokenizer mode="complex" />
  
</analyzer>
  
</fieldType>
  
<fieldType name="text_mmseg4j_maxword" positionIncrementGap="100" >
  
<analyzer>
  
<tokenizer mode="max-word" />
  
</analyzer>
  
</fieldType>
  
<fieldType name="text_mmseg4j_simple" positionIncrementGap="100" >
  
<analyzer>
  
<tokenizer mode="simple" />
  
</analyzer>
  
</fieldType>
  


  增加以下三列,因为id列默认已经有了,不用创建,注意title和text两个字段的类型用了上面的text_mmseg4j_complex
  

<field name="title" type="text_mmseg4j_complex" indexed="true" stored="true"/>  
<field name="text" type="text_mmseg4j_complex" indexed="true" stored="true" omitNorms ="true"/>
  
<field name="author" type="string" indexed="true" stored="true"/>
  
<field name="fileSize" type="long" indexed="true" stored="true"/>
  
<field name="fileLastModified" type="date" indexed="true" stored="true"/>
  
<field name="fileAbsolutePath" type="string" indexed="true" stored="true"/>
  


  3、建立依赖的jar包
  在mycore下面建立lib文件夹, 然后往lib目录copy一些 DIH依赖的jar包,这些包要么在solr-6.6.0\contrib\extraction\lib下面,要么在solr-6.6.0\dist下面,
  样做的好处是每个core依赖的jar包都存放在各自core的子目录下分类存放,更方便管理,全部扔WEB-INF\lib下杂乱无章不好管理。如图:

  再修改solrconfig.xml文件
  增加
  

<lib dir="./lib" regex=".*\.jar"/>  



  4、准备导入的pdf文件
  在solr-6.6.0\bin的同级文件夹solr-6.6.0\ImportData下面有要导入的文件:
DSC0000.png


  5、导入pdf
  重启solr,打开浏览器,进入 solr导入界面导入pdf数据
DSC0001.png

DSC0002.png


  6、查询数据
DSC0003.png

  从索引结果可以看出,每种不同的文件,所有文件的主要内容都集中到text这一个字段中。索引这种索引方式适合doc,pdf,txt,html等这种非结构化文档,而对json、csv和json这种结构化文档就不合适了。
  但是这种方式在索引docx格式的word文档发生问题,抽取不到数据,这个还不知道什么原因
DSC0004.png

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-425989-1-1.html 上篇帖子: solr6.5的分词 下篇帖子: solr4.10.3部署到tomcat
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表