信息抽取組件 Minidx

fmms 12年前發布 | 14K 次閱讀 常用工具包 C/C++

Minidx 這一組件是專門為開發人員準備的,利用Minidx Extract-Text Com組件,您可以輕松的從Word,Xls,Pdf……等200多種文件格式中讀取文本內容。該組件本身用C++編寫,以Com組件的形式調用,您可以 在一切可以調用Com組件的開發語言中調用這一組件,快速的抽取各種文本內容。

Minidx是一個文件管理系統。它具有:
自帶超高速全文搜索引擎,瞬間找到所需要的文件
具有自己的存儲系統,安全的管理重要文檔
可存儲與管理TB級別的數據,數據量的大小對系統運行的效率影響甚微
采用IFilter抽取文本,無須安裝例如Office的應用程序即可閱讀內容
基于Unicode編碼,可正常輸入/顯示多國語言
高亮語法顯示,方便地閱讀多種文檔
檢索結果高亮顯示,方便查看
模糊查詢,自動識別同義詞 例如要查詢where時,輸入whe也能得到結果
自帶Web服務器,可方便的在Internet/局域網共享所管理的文檔
獨立的P2P功能,可自由選擇啟動服務端/客戶端,或者同時啟動
可以根據創建時間,修改時間,訪問時間,標題,存儲路徑,內容等各項屬性分等級,分目錄地實現精確查詢
可方便設定過濾字段

搜索引擎特性:
整個引擎非常小,由2萬多行C/C++代碼實現
標準C/C++編寫,幾乎可以運行在所有的系統
無需太多內存,在較低的硬件環境下也可以運行而不影響效率
方便的集成到各種系統,利用Minidx引擎,僅僅需要添加幾行代碼就可以讓系統具有全文檢索功能
超高速檢索,百萬條記錄也能在毫秒內返回結果
字,詞,句檢索
條件”與”,”或”查詢,以及他們的組合查詢
采用UNICODE字符集,多國語言字符串混合查詢
精確查詢,甚至一個標點符號也可以精確定位

項目主頁:http://www.baiduhome.net/lib/view/home/1326804245608

 本文由用戶 fmms 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!