.NET下讀取PDF文本總結

fefef123 11年前發布 | 46K 次閱讀 .NET PDF PDF工具包

在.NET下讀取PDF文本用到的類庫主要有兩個：PDFBox和iTextSharp。

1、下載PDFBox

下載地址：http://sourceforge.net/projects/pdfbox/

2、引用動態鏈接庫

解壓縮下載的PDFBox，找到其中的Bin目錄，需要在項目中添加引用的dll文件有：
IKVM.GNU.Classpath.dll
PDFBox-0.7.3.dll
FontBox-0.1.0-dev.dll
IKVM.Runtime.dll
將以上4個文件引用到項目中，在文件中需要引入以下2個命名空間：
using org.pdfbox.pdmodel;
using org.pdfbox.util;

3、API的使用方法看代碼：

    using org.pdfbox.pdmodel;  
    using org.pdfbox.util;  
    public void pdf2txt(FileInfo file,FileInfo txtfile)  
    {  
            PDDocument doc = PDDocument.load(file.FullName);  
            PDFTextStripper pdfStripper = new PDFTextStripper();  
            string text = pdfStripper.getText(doc);  
            StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));  
            swPdfChange.Write(text);  
            swPdfChange.Close();  
    }

iTextSharp，其實很多時候都是用于生成PDF，但是他讀取PDF的能力也不差，使用如下：

1、下載iTextSharp

下載地址：http://sourceforge.net/projects/itextsharp/

2、引用動態鏈接庫

解壓縮下載的壓縮包里面的itextsharp-dll-core.zip，得到itextsharp.dll，在項目中添加引用itextsharp.dll即可
在文件中需要引入以下3個命名空間：
using iTextSharp;
using iTextSharp.text;
using iTextSharp.text.pdf;

3、API的使用方法看代碼：

    private string OnCreated(string filepath)  
    {  
        try  
        {  
            string pdffilename = filepath;  
            PdfReader pdfReader = new PdfReader(pdffilename);  
            int numberOfPages = pdfReader.NumberOfPages;  
            string text = string.Empty;  

            for (int i = 1; i <= numberOfPages; ++i)  
            {  
                byte[] bufferOfPageContent = pdfReader.GetPageContent(i);  
                text += System.Text.Encoding.UTF8.GetString(bufferOfPageContent);  
            }  
            pdfReader.Close();  

            return text;  
        }  
        catch (Exception ex)  
        {  
            StreamWriter wlog = File.AppendText(System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase+"\\mylog.log");  
            wlog.WriteLine("出錯文件：" + e.FullPath + "原因：" + ex.ToString());  
            wlog.Flush();  
            wlog.Close();return null;  
        }  

    }

本文由用戶 fefef123 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1420012285796.html

.NET PDF PDF工具包

.NET下讀取PDF文本總結

相關經驗

相關資訊

相關文檔

目錄