.NET下讀取PDF文本總結
在.NET下讀取PDF文本用到的類庫主要有兩個:PDFBox和iTextSharp。
1、下載PDFBox
下載地址:http://sourceforge.net/projects/pdfbox/
2、引用動態鏈接庫
解壓縮下載的PDFBox,找到其中的Bin目錄,需要在項目中添加引用的dll文件有:
IKVM.GNU.Classpath.dll
PDFBox-0.7.3.dll
FontBox-0.1.0-dev.dll
IKVM.Runtime.dll
將以上4個文件引用到項目中,在文件中需要引入以下2個命名空間:
using org.pdfbox.pdmodel;
using org.pdfbox.util;
3、API的使用方法看代碼:
using org.pdfbox.pdmodel;
using org.pdfbox.util;
public void pdf2txt(FileInfo file,FileInfo txtfile)
{
PDDocument doc = PDDocument.load(file.FullName);
PDFTextStripper pdfStripper = new PDFTextStripper();
string text = pdfStripper.getText(doc);
StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));
swPdfChange.Write(text);
swPdfChange.Close();
} iTextSharp,其實很多時候都是用于生成PDF,但是他讀取PDF的能力也不差,使用如下:
1、下載iTextSharp
下載地址:http://sourceforge.net/projects/itextsharp/
2、引用動態鏈接庫
解壓縮下載的壓縮包里面的itextsharp-dll-core.zip,得到itextsharp.dll,在項目中添加引用itextsharp.dll即可
在文件中需要引入以下3個命名空間:
using iTextSharp;
using iTextSharp.text;
using iTextSharp.text.pdf;
3、API的使用方法看代碼:
private string OnCreated(string filepath)
{
try
{
string pdffilename = filepath;
PdfReader pdfReader = new PdfReader(pdffilename);
int numberOfPages = pdfReader.NumberOfPages;
string text = string.Empty;
for (int i = 1; i <= numberOfPages; ++i)
{
byte[] bufferOfPageContent = pdfReader.GetPageContent(i);
text += System.Text.Encoding.UTF8.GetString(bufferOfPageContent);
}
pdfReader.Close();
return text;
}
catch (Exception ex)
{
StreamWriter wlog = File.AppendText(System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase+"\\mylog.log");
wlog.WriteLine("出錯文件:" + e.FullPath + "原因:" + ex.ToString());
wlog.Flush();
wlog.Close();return null;
}
}
本文由用戶 fefef123 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!