DOC和PDF一样索引文件

xsw222 · 发表于 2016-12-16 10:48:25

　　在一些博文中已经描述过如何索引二进制文件，即为Word文件、PDF文件和 LibreOffice文档创建索引。在此，利用数据导入处理程序（Data Import Handler）实现同样的功能。不久前 Solr 服务器发布了新的版本（3.1)，本文内容就基于此新版本加以描述。本文值目的是给出应用样例 - 所有变更以此样例应用为准。

假设
　　我们假设数据是可用的XML格式，并包含文档基本信息，以及定位文档的文件名，文件位于一定义的目录下。示例文件如下：

<?xml version="1.0" encoding="utf-8"?>
<albums>
<album>
<author>John F.</author>
<title>Life in picture</title>
<description>1.jpg</description>
</album>
<album>
<author>Peter Z.</author>
<title>Simple presentation</title>
<description>2.pptx</description>
</album>
</abums>

　　如上所示，文件数据由单个元素构成，并无唯一标识符，但可以处理（此类数据）。
　　首先修改（XML）模式，增加一字段，用以保存文件内容：

<field name="content" type="text" indexed="true" stored="true" multiValued="true"/>

　　接着，修改solrconfig.xml，补充DIH 配置：

<requestHandler name="/dataimport">
<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>

　　由于将使用额外定位的实体处理器（TikaEntityProcessor），所以需要修改加载DIH库的（配置）行：

<dataConfig>
<script><![CDATA[
id = 1;
function GenerateId(row) {
row.put('id', (id ++).toFixed());
return row;
}
]]></script>
<dataSource type="BinURLDataSource" name="data"/>
<dataSource type="URLDataSource" baseUrl="http://localhost/tmp/bin/" name="main"/>
<document>
<entity name="rec" processor="XPathEntityProcessor" url="data.xml" forEach="/albums/album" dataSource="main" transformer="script:GenerateId">
<field column="title" xpath="//title" />
<field column="description" xpath="//description" />
<entity processor="TikaEntityProcessor" url="http://localhost/tmp/bin/${rec.description}" dataSource="data">
<field column="text" name="content" />
<field column="Author" name="author" meta="true" />
<field column="title" name="title" meta="true" />
</entity>
</entity>
</document>
</dataConfig>

生成记录标识符 - 脚本

第一个有趣的特点是使用标准ScriptTransformer生成文档标识符。用javascript “GenerateId”方法和一个对它的引用（transformer=“script:GenerateId”），每条记录将被编号。坦率地说，这不是太好的处理缺乏标识符的方法，因为它不允许增量索引（我们无法区分各种版本的记录） - 用在这里只是显示修改记录多么容易。如果你不喜欢Javascript，您可以使用Java6支持的任何脚本语言。

使用多个数据源

另一个有趣的因素是多个数据源的使用。由于元数据由XML文件提供，需要下载这个文件；使用标准方法：定义UrlDataSource，然后用XpathEntityProcessor 分析传入的数据。既然要下载每个记录的二进制附件，定义了一个额外的数据源：BinURLDataSource和其他实体，使用TikaEntityProcessor；现在只需要通知实体在哪里下载文件（url 属性引用该实体-父）和使用那个数据源的提示（dataSource属性）；辅以一被索引的字段列表（附加的 meta 属性是指从文件元数据中检索的数据）。

可用字段

Apache Tika 允许您下载许多来自文件的其他数据。上例中只用了文档的标题（title）、作者（author）和内容（content）。有关可用字段的完整的信息都包含在由Metadata类实现的接口中（http://tika.apache.org/0.9/api/org/apache/tika/metadata/Metadata.html）-- 其中定义的常量。特别有趣的是DublinCore和MSOFFICE。

结论

启动Solr不久后将运行导入过程（调用地址：http://localhost:8983/solr/dataimport?command=full-import），文件将被索引，发送下列查询到Solr后，可见查询结果：http://localhost:8983/solr/select?q=*:* 。

【原文】http://java.dzone.com/news/indexing-files-doc-pdf-%E2%80%93-solr

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

Red Hat RHCE 8 (EX294) Cert Guide

c++ size_t 和 int 的区别

HERE 使用 AWS EF 和 JFrog Artifactory 打

C++ 指针大全：从基础到进阶，一篇快速上手

wirelessnetview好用的无线分析工具

亿图图示专家(EDraw Max) V7.9 中文破解版

[经验分享] DOC和PDF一样索引文件

浏览过的版块

扫码加入运维网微信交流群