lwe-core\WEB-INF\lib下其他主要的关联文件: 元数据抽取
aperture-core aperture-tools-demork
http://aperture.sourceforge.net/ Aperture is a Java framework for extracting and querying full-text content and metadata from various information systems (e.g. file systems, web sites, mail boxes) and the file formats (e.g. documents, images) occurring in these systems. 多种数据格式文字获取tika
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。
PDF - 通过Pdfbox
MS-* - 通过POI
HTML - 使用nekohtml将不规范的html整理成为xhtml
OpenOffice 格式 - Tika提供
Archive - zip, tar, gzip, bzip等
RTF - Tika提供
Java class - Class解析由ASM完成
Image - 只支持图像的元数据抽取
XML
涉及不同格式的处理包:
pdfbox-1.1.0 fontbox-1.1.0
poi-3.7-20100617171931
poi-ooxml-3.7-20100617171931 poi-ooxml-schemas-3.7-20100617171931 poi-scratchpad-3.7-20100617171931
htmlparser-1.6.bundle.jar
metadata-extractor-2.4.0-beta1.bundle