4個能夠與Lucene相媲美的開源搜索引擎
MG4J - Managing Gigabytes for Java
Terrier - Information Retrieval Platform
Terrier是一個高度靈活,高效的開源搜索引擎, 易于部署在大型的文件集合。Terrier實現非常優秀的索引和搜索功能,為開發大型檢索應用程序提供了一個理想的平臺。它支持多索引策略比如:multi-pass, single-pass 和 大型MapReduce索引。
Lemur - Search Engine
Lemur(狐猴)系統是CMU和UMass聯合推出的一個用于自然語言模型和信息檢索研究的系統。在這個系統上可以實現基于自然語言模型和傳統的向量空 間模型以及Okapi的ad hoc或者分布式檢索,可以使用結構化查詢,跨語言檢索,過濾,聚類等等。目前最新的版本是3.0,CMU和UMass在9月將推出新的版本 Indri(大狐猴),將加入支持terabyte(1000G就是1T)的數據庫和結構化的文檔查詢(比如將html文檔解析為不同的doc representation方式,利用html文檔的結構表達方式信息tag, title, meta等)。
運行Lemur需要什么?Lemur可以在windows或者Unix環境下使用,因此我們可以直接在windows下使用lemur。但是lemur提 供了shell script文件來演示完整的使用lemur進行檢索的過程,所以在windows下需要安裝cygwin來模擬Unix環境。Lemur還提供了一個 GUI程序以及用戶交互的界面的CGI,其中有Java程序可以直接看到檢索的結果,,因此需要安裝Java 虛擬機,CGI程序需要Perl的解釋器
Xapian - Search Engine Library
Xapian由C++編寫,但可以綁定到Perl, Python, PHP, Java, Tcl, C# 和Ruby甚至更多的語言,Xapian可以說是STL編程的典范,在這里您可以找到熟悉的引用計數型智能指針、容器和迭代器,甚至連命名也跟STL相似,相信一定能引起喜好C++++和STL的你的共鳴(實際上,很少C++++程序員完全不使用STL)。由于Xapian使用的是STL和C運行時庫,因此具有高度可移值性,官方說法是可以運行在Linux、 Mac OS X、 FreeBSD、 NetBSD、 OpenBSD、Solaris,、HP-UX,、Tru64和IRIX,,甚至其它的Unix平臺,在Microsoft Windows上也跑得很好。當然,并不能像Java那樣“一次編譯,到處可以運行”,當移植到其它平臺時,一般來說是需要重新編譯的。