文檔文本內容提取Java類庫,Apache Tika 1.1 發布,
Tika是一個內容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且為文本抽取工作提供了一個統一的界面。其次,Tika也提供了便利的擴展API,用來豐富其對第三方文件格式的支持。
Apache Tika 1.1 發布了,該版本包含很多改進和 bug 修復,詳情請看
http://www.apache.org/dist/tika/CHANGES-1.1.txt
下載地址:
http://www.apache.org/dyn/closer.cgi/tika/apache-tika-1.1-src.zip
本文由用戶 fmms 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!