Apache Tika是一個Java工具包用于利用現有的解析類庫,從不同格式的文檔中(例如HTML,PDF,Doc),檢測和提取出元數據和結構化內容。 功能包括: 1.檢測文檔的類型,字符編碼,語言,等其他現有文檔的屬性。2.提取結構化的文字內容。3.該項目的目標使用群體主要為搜索引擎以及其他內容索引和分析工具。目前支持的文檔格式和對應的解析類庫如下: 

</TR>

</TR>

</TR>

</TR>

</TR>

</TR>

</TR>

</TR>

</TR>

</TR>

</TR>

</TR>

</TR>

</TR>

</TR></TBODY></TABLE>

<DIV class=date>收錄時間:2011-01-24 17:35:43</DIV>

 本文由用戶 碼頭工人自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!
文檔格式 相應的解析類庫
HTML TagSoup
XML 自定義
微軟的Office文檔 Apache POI
OpenDocument format (ODF) 自定義
PDF Apache PDFBox
EPUB 自定義
Rich Text Format (RTF) 自定義
壓縮文件格式(如 ar, cpio, tar, zip, gzip, bzip2等) Apache組織的Commons Compress
Txt ICU
音頻格式 主要采用Java的標準圖像處理包javax.sound
圖像格式 Java的標準圖像處理包javax.imageio, 以及 metadata-extractor軟件包。
視頻格式 目前只支持Flash格式。
Java類文件 自定義
郵件mbox文件格式 自定義
  • sesese色