solr特点六: DIH (从数据源导入数据)

linuxvpn · 发表于 2015-7-18 11:25:28

　　在这个结构化数据和非结构化数据的数量都很庞大的年代，经常需要从数据库、XML/HTML 文件或其他数据源导入数据，并使数据可搜索。过去，要编写自定义代码才能创建到数据库、文件系统或 RSS 提要的自定义连接。但现在，Solr 的 DataImportHandler（DIH）填补了这个空白，它使您能够从数据库（通过 JDBC）、RSS 提要、Web 页面和文件中导入数据。DIH 位于 apache-1.3.0/contrib/dataimporthandler 中，是 apache-1.3.0/dist/apache-solr-dataimporthandler-1.3.0.jar 中的一个 JAR 文件。

DataImportHandler警告
　　DataImportHandler不是文件 /Web 爬行器（crawler），它不直接支持从二进制文件格式中提取内容，比如 MS Office、Adobe PDF 或其他专有格式。本文没有详尽地介绍 DIH，如果要了解更多信息，请参见参考资料。
　　在概念上，DIH 可以分解为几个简单的部分：

DataSource：获取内容的数据库、Web 页面、RSS 提要或 XML 文件。
文档 / 实体声明：指定 DataSource的内容与 Solr 模式之间的映射。
导入：Solr 命令，使用它既可以进行完全导入，也可以只导入已经更改的实体的 增量导入。
EntityProcessor：用于映射的代码。Solr 自带四个工具：
- FileListEntityProcessor：在目录上迭代并导入文件。
- SqlEntityProcessor：连接到一个数据库并导入记录。
- CachedSqlEntityProcessor：将缓存添加到 SqlEntityProcessor。
- XPathEntityProcessor：使用 XPath 语句从 XML 文件抽取内容。
Transformer：用户定义的、可选的代码，用于在添加到 Solr 之前转换导入的内容。例如，DateFormatTransformer能够标准化日期。
变量替代：用运行时的值替代占位符变量。

　　首先，我需要设置一个 SolrRequestHandler将 DIH 和 Solr 关联起来。该设置要在 solr-dw/rss/conf/solrconfig.xml 文件中进行，如清单 6 所示：

清单 6. 将 DIH 和 Solr 关联起来



rss-data-config.xml

　　该配置表明：我可以通过 http://localhost:8983/solr/rss/dataimport 找到 DataImportHandler实例；该实例必须使用一个名为 rss-data-config.xml 的配置文件（位于 solr_dw/rss/conf 目录）来获取它的设置信息。到目前为止，一切都相当简单。
　　拨开下一层面纱，rss-data-config.xml 文件就是声明和使用 DataSource、实体和 Transformer的地方。在这个例子中，首先遇到的 XML 标记（在根元素后面）为 DataSource声明，如清单 7 所示：

清单 7. DataSource声明



　　清单 7 中的第一个声明设置一个与我的数据库相连接的 DataSource。它被命名为 ratings，因为我的评级信息就储存在里面。注意，虽然我没有为数据库用户设置密码，但实际可以向标记添加密码属性。如果了解 JDBC 设置的话，那么就应该很熟悉这个 DataSource声明了。第二个DataSource名为 rss，它声明内容将要通过 HTTP 来获取。稍后将声明这个 DataSource的 URL。
　　下一个值得讨论的标记是标记。它用来指定如何将 RSS 提要和数据库的内容映射到 Solr Document。一个实体就是被索引为一个单一文档的内容单位。例如，在一个数据库中，实体声明规定了如何将每一行转换成 Document中的 Field。一个实体里又可以包含一个或多个实体，因此子实体就变成整体 Document的 Field结构。
　　至此，来自 rss-data-config.xml 的带注释的示例可以清楚地说明与实体相关的大部分信息。在这个例子中，主实体从一个 RSS 提要获取内容，并将其与数据库中的行相关联以获得评级。清单 8 是一个缩略的 RSS 提要示例：

清单 8. 缩略的 RSS 反提要



Grant's Grunts: Lucene Edition
http://lucene.grantingersoll.com
Thoughts on Apache Lucene, Mahout,
Solr, Tika and Nutch
Wed, 01 Oct 2008 12:36:02 +0000

Charlotte JUG >> OCT 15TH - 6PM -
Search and Text Analysis
http://lucene.grantingersoll.com/2008/10/01/
charlotte-jug-%c2%bb-oct-15th-6pm-search-and-text-analysis/
Wed, 01 Oct 2008 12:36:02 +0000

http://lucene.grantingersoll.com/?p=112
> OCT 15TH - 6PM - Search and Text Analysis
I will be speaking at the Charlotte Java Users Group on Oct. 15th, covering things
like Lucene, Solr, OpenNLP and Mahout, amongst other things.
]]>

　　与此同时，数据库中的一行包含提要中的文章的 URL、一个评级（我随便编的）和一个修改日期。现在，我只需将它映射到 Solr 就可以了。为了完成此工作，我将逐行解释 rss-data-config.xml 中的实体声明，如清单 9 所示（它包含行数和换行符，以获得良好的格式）：

清单 9. 实体声明

1.
8.
9.
10.
11.
12.
13.
14.
15.
16.
20.
21.
22.

第 1 行：实体名（solrFeed）。
第 2 行：该项的可选主键，只有在导入增量时才用得到。
第 3 行：将要获取的 URL —在这个用例中是我在 Solr 上的博客站点。
第 4 行：用于从原始源映射内容的 EntityProcessor。
第 5 行：用于指定如何从 XML 获取记录的 XPath 表达。（XPath 提供一种在 XML 文件中指定特定元素或属性的方法。如果不熟悉 XPath 表达的话，请参阅参考资料）。
第 6 行：要使用的 DataSource的名称。
第 7 行：用于将字符串解析成 java.util.Date的 DateFormatTransformer。
第 8 行：将通道名称（博客名称）映射到以 Solr 模式字段命名的数据源。此过程每个通道只发生一次，因此 commonField属性指定该值必须用于每一个数据项。
第 9-14 行：将 RSS 提要的其他部分映射到 Solr Field。
第 15 行：映射出版日期，但使用 DateFormatTransformer将值解析为一个 java.util.Date对象。
第 16-21 行：从数据库获取每一篇文章的评级的子实体。
第 16 行：query属性指定要运行的 SQL。${solrFeed.link}值被代替变量解析为每一篇文章的 URL。
第 17 行：导入增量时要运行的查询。${dataimporter.last_index_time}由 DIH 提供。
第 18 行：使用 JDBC DataSource。
第 20 行：将数据库中的评级栏映射到评级字段。如果未指定名称属性，将默认使用栏名。

　　下一步是运行导入。这可以通过提交 HTTP 请求来实现：

http://localhost:8983/solr/rss/dataimport?command=full-import
　　该请求先将所有的文档从索引中移除，然后再进行完全导入。再强调一遍，这个请求首先从索引中移除全部文档，一定要警惕这一点。您可以随时浏览 http://localhost:8983/solr/rss/dataimport 获取 DIH 的状态。在这个用例中，我的输出如清单 10 所示：

清单 10. 导入结果

0
0

rss-data-config.xml

idle

11
13
0
2008-10-03 10:51:07
Indexing completed. Added/Updated: 10 documents.
Deleted 0 documents.
2008-10-03 10:51:18
2008-10-03 10:51:18
0:0:11.50

This response format is experimental. It is
likely to change in the future.

增量导入功能
　　使用数据库时，在完全导入之后，下一次只需导入那些改变了的记录。这个功能就叫做 增量导入。不幸的是，它还不能适用于 RSS 提要。要是可以的话，命令应该是这样的：
http://localhost:8983/solr/rss/dataimport?command=delta-import。
　　您为其创建索引的文档的数量可能与我不同（因为我有可能会把其他 Solr 文章添加到提要）。为文档创建索引之后，我就可以查询索引了，就像在http://localhost:8983/solr/rss/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on中一样，它返回了带索引的全部文档，共 10 篇。
　　有了这些准备，您就可以使用 DIH 了。再深入一些，就是如何替换变量和如何编写Transformer了。要想学习更多有关此话题的知识，请参见参考资料中的DataImportHandlerwiki 页面链接。

账号		自动登录	找回密码
密码			立即注册

wirelessnetview好用的无线分析工具

Red Hat RHCE 8 (EX294) Cert Guide

Shell从入门到精通（阿良）

亿图图示专家(EDraw Max) V7.9 中文破解版

zabbix3.4.1安装部署+微信推送信息+大屏显

Red Hat OpenShift I: Containers & Kubern

2025 年，C++ 还能“硬核”多久？

[经验分享] solr特点六: DIH (从数据源导入数据)

浏览过的版块

扫码加入运维网微信交流群