Java搜索引擎 MG4J
MG4J 是另一個搜索引擎。與Lucene 主要區別是,它提供了cluster 功能,具有更OO的設計方式。
MG4J可以讓你為大量的文檔集合構建一個被壓縮的全文本索引,通過使內插編碼(interpolative coding)技術。
雖然MG4J(Managing Gigabytes for Java)不是一個像Lucene、Egothor和Xapian那樣的信息檢索庫,但是我們相信正在讀這本書的每一位軟件工程師都應該知道它,因為它對構建Java信息檢索庫提供了低水平的支持。MG4J是在一本很流行的書問世之后被命名的,這本書是由H.Witten,Alistair Moffat和Timothy所寫,名字是《管理十億字節:壓縮并且索引文檔和圖片》。在使用他們的分布式、可容錯的網頁爬蟲UbiCrawler收集到大量的網頁數據后,它的作者需要一個軟件來解析那些收集來的數據,由于這個需求,MG4J誕生了。
MG4J的庫提供了優化的類來處理I/O,轉化索引文件的壓縮等等。
本文由用戶 fmms 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!