设为首页 收藏本站
查看: 1244|回复: 0

[经验分享] solr从pdf、office文档中建立索引

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2015-5-29 08:51:27 | 显示全部楼层 |阅读模式
使用solr从pdf、office文档中建立索引和从数据库中建立相似,只不过这里需要tika来解析这些文档。8.1 配置一个handler 这个handler首先要在solrConfig.xml中配置,如下所示:

        <requestHandler name="/dataimport"    class="org.apache.solr.handler.dataimport.DataImportHandler">
       <lst    name="defaults">
         <str    name="config">tika-data-config.xml</str>
          </lst>
   </requestHandler>
   
   
                                 
这里和7.1几乎一样,只不过修改了配置文件名(当然也可以不修改)。
8.2 文档配置tika-data-config.xml
        <dataConfig>  
          <dataSource type="BinFileDataSource" />
              <document>
               <entity    name="files" dataSource="binary"    rootEntity="false"
                  processor="FileListEntityProcessor"
               baseDir="D:/temp"    fileName=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)"
   
               recursive="true">
                   <field    column="fileAbsolutePath" name="id" />
                   <field    column="fileSize" name="size" />
                   <field    column="fileLastModified" name="lastModified" />
                   <entity
                          name="documentImport"
                          processor="TikaEntityProcessor"
                          url="${files.fileAbsolutePath}"
                          format="text">
                       <field    column="file" name="fileName"/>
                       <field    column="Author" name="author" meta="true"/>
                       <field    column="title" name="title" meta="true"/>
                       <field    column="text" name="text"/>
                   </entity>
                   </entity>
              </document>
   </dataConfig>
   
   
   
这里只说上面(7.2)没有说过的属性。
·        fileName :(必选)使用正则表达式匹配文件
·        baseDir : (必选) 文件目录
·        recursive : 是否递归的获取文件,默认false
·        rootEntity :在这里必须是false(除非你只想索引文件名)。在默认情况下,document元素下就是根实体了,如果没有根实体的话,直接在实体下面的实体将会被看做跟实体。对于根实体对应的数据库中返回的数据的每一行,solr都将生成一个document
·        dataSource :如果你是用solr1.3,那就必须设为“null”,因为它没使用任何dataSourde。不需要在solr1.4中指定它,它只是意味着我们不创建一个dataSource实例。在大多数情况下,只有一个DataSource(JdbcDataSource),当使用FileListEntityProcessor 的时候DataSource不是必须的
·        processor:只有当datasource不是RDBMS时才是必须的
·        onError :默认是“abort”,“skip”表示跳过当前文档,“continue”表示对错误视而不见


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-71709-1-1.html 上篇帖子: solr相似匹配 下篇帖子: Scala根类详解 office
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表