內容抽取工具集合 Apache Tika 1.0 正式版發布

fmms 14年前發布 | 7K 次閱讀 Apache

內容抽取工具集合 Apache Tika

Tika是一個內容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且為文本抽取工作提供了一個統一的界面。其次，Tika也提供了便利的擴展API，用來豐富其對第三方文件格式的支持。

Tika提供了對如下文件格式的支持:

PDF - 通過Pdfbox
MS-* - 通過POI
HTML - 使用nekohtml將不規范的html整理成為xhtml
OpenOffice 格式 - Tika提供
Archive - zip, tar, gzip, bzip等
RTF - Tika提供
Java class - Class解析由ASM完成
Image - 只支持圖像的元數據抽取
XML

Tika的API十分便捷，核心是Parser interface，其中定義了一個parse方法：
public void parse(InputStream stream, ContentHandler handler, Metadata metadata)
用stream參數傳遞需要解析的文件流，文本內容會被傳入handler，而元數據會更新至metadata。

可以使用Tika的ParserUtils工具來根據文件的mime-type來得到一個適當的Parser來進行解析工作。或者Tika還提供了一個AutoDetectParser根據不同的二進制文件的特殊格式 (比如說Magic Code)，來尋找適合的Parser。

Apache Tika 1.0 正式版發布了，該版本包含大量的改進和bug修復，詳情請看 CHANGES

本文由用戶 fmms 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/news/view/121a43

Apache

內容抽取工具集合 Apache Tika 1.0 正式版發布

相關資訊

相關經驗

相關文檔