用Java語言編寫的印刷體科技文檔識別系統:MathOCR

jopen 9年前發布 | 21K 次閱讀 MathOCR Java開發

MathOCR是一個用Java語言編寫的印刷體科技文檔識別系統,在GNU通用公共許可證版本3或(按你的意愿)更新版本下發布。

MathOCR具備基本的圖形預處理、版面分析和字符識別能力,特別是能夠識別數學公式。MathOCR可以不依賴于標準Java庫以外的庫而獨立工作,但也可以作為Tesseract、GNU Ocrad或GOCR等OCR系統的前端。

MathOCR項目在2014年作為中山大學大學生創新訓練計劃項目《圖片中數學公式的自動識別》的副產物而于2014年3月開始開發,同年9月發布首個版本,是少有的作為自由軟件的印刷體數學公式識別系統。其后,在2014年12月至2015年4月又作為開發者的本科畢業論文項目加入了文檔邏輯版面分析功能,從而擴展為一個印刷體科技文檔識別系統。

項目主頁:http://www.baiduhome.net/lib/view/home/1431671376591

 

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!