開源光學字符識別工具
Alison Neville 寫道 "紙張在許多地方已日益失寵,無紙化辦公談論 40 多年,辦公環境正限制紙山的生成。而過去幾年,無紙化辦公的概念發生了顯著的轉變。在計算機軟件的幫助下,包含大量重要管理數據和資訊的文檔可以更方便的以電子形式儲存。掃描文檔的好處不純粹是存檔理由。為了訪問基于紙張的信息和將信息整合進數字工作流,光學字符識別(OCR)技術至關重要。選擇正確的 OCR 工具要基于特定需求而定,例如在線 OCR 服務對某些人有用,但可能存在隱私問題和文件大小限制。OCR 軟件非大眾產品,因此開源替代相對于商業級重量級產品相對較少,再加上 OCR 軟件需要先進的算法將掃描的圖像正確翻譯成實際的文字,而圖像不僅僅含有文字,它還包含布局、圖形和表格,可能會跨越多頁。優秀的開源 OCR 軟件包括:最早由惠普開發的開源 OC 引擎 Tesseract,OCRopus,Cuneiform,Lios,等。
來自: Solidot
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!