Apache Tika - Apache項目 - 其它

Apache Tika是一個Java工具包用于利用現有的解析類庫，從不同格式的文檔中（例如HTML，PDF，Doc)，檢測和提取出元數據和結構化內容。功能包括： 1.檢測文檔的類型，字符編碼，語言，等其他現有文檔的屬性。2.提取結構化的文字內容。3.該項目的目標使用群體主要為搜索引擎以及其他內容索引和分析工具。目前支持的文檔格式和對應的解析類庫如下：　

</TR>

</TR></TBODY></TABLE>

本文由用戶碼頭工人自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/project/5041490438120622365.html

Apache項目

相關文檔

文檔格式	相應的解析類庫
HTML	TagSoup
XML	自定義
微軟的Office文檔	Apache POI
OpenDocument format (ODF)	自定義
PDF	Apache PDFBox
EPUB	自定義
Rich Text Format (RTF)	自定義
壓縮文件格式(如 ar, cpio, tar, zip, gzip, bzip2等）	Apache組織的Commons Compress
Txt	ICU
音頻格式	主要采用Java的標準圖像處理包javax.sound
圖像格式	Java的標準圖像處理包javax.imageio，以及 metadata-extractor軟件包。
視頻格式	目前只支持Flash格式。
Java類文件	自定義
郵件mbox文件格式	自定義

sesese色

Apache Tika版本：

相關項目

相關經驗

相關資訊

相關文檔

目錄