设为首页 收藏本站
查看: 461|回复: 0

[经验分享] Lucene学习之使用Apache Tika进行文档内容抽取

[复制链接]

尚未签到

发表于 2017-1-10 08:01:42 | 显示全部楼层 |阅读模式
  在上一篇关于Lucene的博客中,介绍了Lucene的入门以及中文文件的搜索问题解决,其中使用的例子是以文本文件作为搜索的文档,在创建索引时使用了Reader读取文件。但是在实际的应用过程中,经常需要对各种各样的非文本文件的内容进行全文搜索。我们常用的除了txt、html、xml等文本格式的文档外,还有大量的例如pdf、word、ppt等非文本格式的文档,在对这些文档中的内容进行搜索时,就需要先抽取其内容,然后再跟进其内容创建索引,才能被正确搜索。Apache Tika 就是一款强大的文档内容抽取框架,它集成了各种文档解析器,能够识别大多数的文档,并且能够扩展其他的解析器,而且对中文的识别也较好。经过不完全测试,能够识别的文档格式如下:


  • pdf文档
  • doc、docx、ppt、excel
  • txt、html、xml
  • zip、tar
  以上4类文档基本上包含了我们在创建一个资料库时所使用的文档格式。
  这个框架的使用也非常简单,代码如下(使用tika-app-1.4.jar):

import org.apache.tika.Tika;
public class SimpleTextExtractor {
public static void main(String[] args) throws Exception {
// 创建 Tika实例
Tika tika = new Tika();
// 使用tika对文件内容进行抽取,对常用的文档格式进行测试
//String filePath="D:/tikatest/test.pdf";
//String filePath="D:/tikatest/test.doc";
//String filePath="D:/tikatest/test.docx";
//String filePath="D:/tikatest/test.txt";
//String filePath="D:/tikatest/test.ppt";
//String filePath="D:/tikatest/test.wps";
String filePath="D:/tikatest/test.zip";
String text = tika.parseToString(new File(filePath));
System.out.println(text);
}
}

  需要下载Apacke tika的jar文件,下载链接:
  http://mirrors.hust.edu.cn/apache/tika/tika-app-1.4.jar

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-326231-1-1.html 上篇帖子: apache搭建Mercurial(HG)版本控制服务及权限控制 下篇帖子: apache-beanutils 记录一个很诡异的问题(已解决)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表