Python的PDF解析器：PDFMiner

jopen 11年前發布 | 45K 次閱讀 PDFMiner PDF工具包

PDFMiner是一個可以從PDF文檔中提取信息的工具。與其他PDF相關的工具不同，它注重的完全是獲取和分析文本數據。PDFMiner允許你獲取某一頁中文本的準確位置和一些諸如字體、行數的信息。它包括一個PDF轉換器，可以把PDF文件轉換成HTML等格式。它還有一個擴展的PDF解析器，可以用于除文本分析以外的其他用途。

特性

Written entirely in Python. (for version 2.4 or newer)
Parse, analyze, and convert PDF documents.
PDF-1.7 specification support. (well, almost)
CJK languages and vertical writing scripts support.
Various font types (Type1, TrueType, Type3, and CID) support.
Basic encryption (RC4) support.
PDF to HTML conversion (with a sample converter web app).
Outline (TOC) extraction.
Tagged contents extraction.
Reconstruct the original layout by grouping text chunks.

PDFMiner內置兩個好用的工具：pdf2txt.py和dumppdf.py

pdf2txt.py從PDF文件中提取所有文本內容。但不能識別畫成圖片的文本，這需要特征識別。對于加密的PDF你需要提供一個密碼才能解析，對于沒有提取權限的PDF文檔你得不到任何文本。

dumppdf.py把PDF文件內容變成pseudo-XML格式。這個程序主要用于debug，但是它也可能用于提取一些有意義的內容（比如圖片）。

項目主頁：http://www.baiduhome.net/lib/view/home/1404269167780

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1404269167780.html

PDFMiner PDF工具包

Python的PDF解析器：PDFMiner

特性

相關經驗

相關資訊

相關文檔

目錄