.NET文本/數據抽取框架:Toxy
Toxy是一個.NET文本/數據抽取框架類似于Java中的 Apache Tika。它支持許多流行的格式比如:docx, xlsx, xls, pdf, csv, txt, epub, html 等。
統一的數據結構
對于文檔,數據結構被稱為 ToxyDocument.
對于電子表格,數據結構被稱為 ToxySpreadsheet.
For emails, the data structure is called ToxyEmail.
For business cards, the data structure is called ToxyBusinessCard.
For DOM based structue, the data structue is called ToxyDom.
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!