Java搜索引擎 MG4J

fmms 12年前發布 | 15K 次閱讀 Java 搜索引擎

MG4J 是另一個搜索引擎。與Lucene 主要區別是,它提供了cluster 功能,具有更OO的設計方式。

MG4J可以讓你為大量的文檔集合構建一個被壓縮的全文本索引,通過使內插編碼(interpolative coding)技術。

雖然MG4J(Managing Gigabytes for Java)不是一個像Lucene、Egothor和Xapian那樣的信息檢索庫,但是我們相信正在讀這本書的每一位軟件工程師都應該知道它,因為它對構建Java信息檢索庫提供了低水平的支持。MG4J是在一本很流行的書問世之后被命名的,這本書是由H.Witten,Alistair Moffat和Timothy所寫,名字是《管理十億字節:壓縮并且索引文檔和圖片》。在使用他們的分布式、可容錯的網頁爬蟲UbiCrawler收集到大量的網頁數據后,它的作者需要一個軟件來解析那些收集來的數據,由于這個需求,MG4J誕生了。

MG4J的庫提供了優化的類來處理I/O,轉化索引文件的壓縮等等。

項目主頁:http://www.baiduhome.net/lib/view/home/1325595007031

 本文由用戶 fmms 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!