 |
SILVERCODERS DocToText是一個強大的開源免費工具,用于抽取多種文檔格式中的文本內容。它包含一個控制臺應用和C/C++工具包, 允許嵌入到其他應用程序中實現文本提取功能。
它支持的文檔格式包括:
MS Word (DOC), MS Excel (XLS, XLSB), MS PowerPoint (PPT), Rich Text Format (RTF), OpenDocument (also known as ODF and ISO/IEC 26300, full name: OASIS Open Document Format for Office Applications): text documents (ODT), spreadsheets (ODS), presentations (ODP), graphics (ODG), Office Open XML (ISO/IEC 29500, also called OOXML, OpenXML or MSOOXML) documents: MS Word (DOCX), MS Excel (XLSX), MS PowerPoint (PPTX), iWork formats (PAGES, NUMBERS, KEYNOTE), OpenDocument Flat XML formats (FODP, FODS, FODT), Portable Document Format (PDF), Email files (EML) and HyperText Markup Language (HTML)。
提取的文本可用于搜索,索引,歸檔等。
|