多種文檔的文本抽取工具:DocToText

jopen 10年前發布 | 17K 次閱讀 DocToText Office文檔處理

多種文檔的文本抽取工具:DocToText

SILVERCODERS DocToText是一個強大的開源免費工具,用于抽取多種文檔格式中的文本內容。它包含一個控制臺應用和C/C++工具包, 允許嵌入到其他應用程序中實現文本提取功能。

它支持的文檔格式包括:
MS Word (DOC), MS Excel (XLS, XLSB), MS PowerPoint (PPT), Rich Text Format (RTF), OpenDocument (also known as ODF and ISO/IEC 26300, full name: OASIS Open Document Format for Office Applications): text documents (ODT), spreadsheets (ODS), presentations (ODP), graphics (ODG), Office Open XML (ISO/IEC 29500, also called OOXML, OpenXML or MSOOXML) documents: MS Word (DOCX), MS Excel (XLSX), MS PowerPoint (PPTX), iWork formats (PAGES, NUMBERS, KEYNOTE), OpenDocument Flat XML formats (FODP, FODS, FODT), Portable Document Format (PDF), Email files (EML) and HyperText Markup Language (HTML)。

提取的文本可用于搜索,索引,歸檔等。

DocToText不僅可以從文檔中抽取文本內容,還可以提供嵌在odt, doc, docx 或 rtf文件中的注釋,讀取元數據如作者,最后修改時間和頁數。

項目主頁:http://www.baiduhome.net/lib/view/home/1389147082562

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!