信息抽取組件 Minidx
Minidx 這一組件是專門為開發人員準備的,利用Minidx Extract-Text Com組件,您可以輕松的從Word,Xls,Pdf……等200多種文件格式中讀取文本內容。該組件本身用C++編寫,以Com組件的形式調用,您可以 在一切可以調用Com組件的開發語言中調用這一組件,快速的抽取各種文本內容。
Minidx是一個文件管理系統。它具有:
*自帶超高速全文搜索引擎,瞬間找到所需要的文件
*具有自己的存儲系統,安全的管理重要文檔
*可存儲與管理TB級別的數據,數據量的大小對系統運行的效率影響甚微
*采用IFilter抽取文本,無須安裝例如Office的應用程序即可閱讀內容
*基于Unicode編碼,可正常輸入/顯示多國語言
*高亮語法顯示,方便地閱讀多種文檔
*檢索結果高亮顯示,方便查看
*模糊查詢,自動識別同義詞 例如要查詢where時,輸入whe也能得到結果
*自帶Web服務器,可方便的在Internet/局域網共享所管理的文檔
*獨立的P2P功能,可自由選擇啟動服務端/客戶端,或者同時啟動
*可以根據創建時間,修改時間,訪問時間,標題,存儲路徑,內容等各項屬性分等級,分目錄地實現精確查詢
*可方便設定過濾字段
搜索引擎特性:
*整個引擎非常小,由2萬多行C/C++代碼實現
*標準C/C++編寫,幾乎可以運行在所有的系統
*無需太多內存,在較低的硬件環境下也可以運行而不影響效率
*方便的集成到各種系統,利用Minidx引擎,僅僅需要添加幾行代碼就可以讓系統具有全文檢索功能
*超高速檢索,百萬條記錄也能在毫秒內返回結果
*字,詞,句檢索
*條件”與”,”或”查詢,以及他們的組合查詢
*采用UNICODE字符集,多國語言字符串混合查詢
*精確查詢,甚至一個標點符號也可以精確定位