文本內容提取Python庫：textract

jopen 11年前發布 | 35K 次閱讀 textract Python開發

textract 是一個能夠用于從各種文檔中提取文本內容 Python 庫。

# some python file
import textract
text = textract.process("path/to/file.extension")

當前支持：

.doc via antiword

.docx via python-docx

.eml via python builtins.

.json via python builtins.

.html via beautifulsoup4

.pptx via python-pptx

.pdf via pdftotext (default) or pdfminer

.txt via python builtins.

項目主頁：http://www.baiduhome.net/lib/view/home/1407202145926

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1407202145926.html

textract Python開發

相關經驗

相關資訊

相關文檔