Apache Tika是一個Java工具包用于利用現有的解析類庫,從不同格式的文檔中(例如HTML,PDF,Doc),檢測和提取出元數據和結構化內容。 功能包括: 1.檢測文檔的類型,字符編碼,語言,等其他現有文檔的屬性。2.提取結構化的文字內容。3.該項目的目標使用群體主要為搜索引擎以及其他內容索引和分析工具。目前支持的文檔格式和對應的解析類庫如下:
文檔格式 | 相應的解析類庫 | </TR>|||||||||||||||||||||||||
HTML | TagSoup | </TR>|||||||||||||||||||||||||
XML | 自定義 | </TR>|||||||||||||||||||||||||
微軟的Office文檔 | Apache POI | </TR>|||||||||||||||||||||||||
OpenDocument format (ODF) | 自定義 | </TR>|||||||||||||||||||||||||
Apache PDFBox | </TR>||||||||||||||||||||||||||
EPUB | 自定義 | </TR>|||||||||||||||||||||||||
Rich Text Format (RTF) | 自定義 | </TR>|||||||||||||||||||||||||
壓縮文件格式(如 ar, cpio, tar, zip, gzip, bzip2等) | Apache組織的Commons Compress | </TR>|||||||||||||||||||||||||
Txt | ICU | </TR>|||||||||||||||||||||||||
音頻格式 | 主要采用Java的標準圖像處理包javax.sound | </TR>|||||||||||||||||||||||||
圖像格式 | Java的標準圖像處理包javax.imageio, 以及 metadata-extractor軟件包。 | </TR>|||||||||||||||||||||||||
視頻格式 | 目前只支持Flash格式。 | </TR>|||||||||||||||||||||||||
Java類文件 | 自定義 | </TR>|||||||||||||||||||||||||
郵件mbox文件格式 | 自定義 | </TR></TBODY></TABLE>