4個能夠與Lucene相媲美的開源搜索引擎

jopen 12年前發布 | 13K 次閱讀 Lucene

MG4J - Managing Gigabytes for Java

4個能夠與Lucene相媲美的開源搜索引擎

MG4J可以讓你為大量的文檔集合構建一個被壓縮的全文本索引,通過使內插編碼(interpolative coding)技術。與Lucene 主要區別是,它提供了cluster 功能,具有更OO的設計方式。雖然MG4J(Managing Gigabytes for Java)不是一個像Lucene、Egothor和Xapian那樣的信息檢索庫,但是我們相信正在讀這本書的每一位軟件工程師都應該知道它,因為它對構建Java信息檢索庫提供了低水平的支持。MG4J是在一本很流行的書問世之后被命名的,這本書是由 H.Witten,Alistair Moffat和Timothy所寫,名字是《管理十億字節:壓縮并且索引文檔和圖片》。在使用他們的分布式、可容錯的網頁爬蟲UbiCrawler收集到大量的網頁數據后,它的作者需要一個軟件來解析那些收集來的數據,由于這個需求,MG4J誕生了。 MG4J的庫提供了優化的類來處理I/O,轉化索引文件的壓縮等等。

Terrier - Information Retrieval Platform

4個能夠與Lucene相媲美的開源搜索引擎
Terrier是一個高度靈活,高效的開源搜索引擎, 易于部署在大型的文件集合。Terrier實現非常優秀的索引和搜索功能,為開發大型檢索應用程序提供了一個理想的平臺。它支持多索引策略比如:multi-pass, single-pass 和 大型MapReduce索引。

Lemur - Search Engine

4個能夠與Lucene相媲美的開源搜索引擎
Lemur(狐猴)系統是CMU和UMass聯合推出的一個用于自然語言模型和信息檢索研究的系統。在這個系統上可以實現基于自然語言模型和傳統的向量空 間模型以及Okapi的ad hoc或者分布式檢索,可以使用結構化查詢,跨語言檢索,過濾,聚類等等。目前最新的版本是3.0,CMU和UMass在9月將推出新的版本 Indri(大狐猴),將加入支持terabyte(1000G就是1T)的數據庫和結構化的文檔查詢(比如將html文檔解析為不同的doc representation方式,利用html文檔的結構表達方式信息tag, title, meta等)。
運行Lemur需要什么?Lemur可以在windows或者Unix環境下使用,因此我們可以直接在windows下使用lemur。但是lemur提 供了shell script文件來演示完整的使用lemur進行檢索的過程,所以在windows下需要安裝cygwin來模擬Unix環境。Lemur還提供了一個 GUI程序以及用戶交互的界面的CGI,其中有Java程序可以直接看到檢索的結果,,因此需要安裝Java 虛擬機,CGI程序需要Perl的解釋器

Xapian - Search Engine Library

4個能夠與Lucene相媲美的開源搜索引擎

Xapian由C++編寫,但可以綁定到Perl, Python, PHP, Java, Tcl, C# 和Ruby甚至更多的語言,Xapian可以說是STL編程的典范,在這里您可以找到熟悉的引用計數型智能指針、容器和迭代器,甚至連命名也跟STL相似,相信一定能引起喜好C++++和STL的你的共鳴(實際上,很少C++++程序員完全不使用STL)。由于Xapian使用的是STL和C運行時庫,因此具有高度可移值性,官方說法是可以運行在Linux、 Mac OS X、 FreeBSD、 NetBSD、 OpenBSD、Solaris,、HP-UX,、Tru64和IRIX,,甚至其它的Unix平臺,在Microsoft Windows上也跑得很好。當然,并不能像Java那樣“一次編譯,到處可以運行”,當移植到其它平臺時,一般來說是需要重新編譯的。

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!