LinkedIn已將可自定義的索引引擎IndexTank開源
LinkedIn已將IndexTank開源,這是一種運行在云中的文檔索引引擎,它讓用戶可以自定義編制索引的過程,并對結果進行微調。
IndexTank是在一年之前發布的,在十月份被LinkedIn收購,并在最近開放了源代碼。IndexTank是與Google自定義搜索類似的云服務,它基于Amazon Web Services運行,給網站提供了為其中的內容編制索引的功能,而網站的訪問者會在稍后搜索這些內容。IndexTank聲稱他們的用戶擁有完全的控制權,可以決定對什么編制索引,何時編制索引,以及如何對結果排序。這意味著網站可以在搜索結果的基礎之上,對想要優先顯示的文檔做出改善,而不需要依賴于Google的搜索算法。
和很多站點不同,IndexTank不會爬取網頁的內容,從而對其建立索引,而是會由站點向索引引擎發送要索引的數據。這樣,文檔在創建之后就可以索引到,這提供了實時的結果。另外,我們可以免費添加這項服務。
IndexTank包括三個主要組件:
- 索引引擎——只對簡單文本建立索引的引擎。而PDF、微軟文檔以及其他文檔類型需要在建立索引之前轉換為文本格式。
- API——可以通過Java、Python、.NET、Ruby和PHP客戶端訪問的RESTful的接口。
- Nebulizer——一種多租戶框架,其中存放不限數量、運行在IaaS基礎架構上的索引引擎。
IndexTank加入了Zoie,那是一種基于Apache Lucene構建的實時搜索引擎,并由LinkedIn于2008年開源。
IndexTank聲稱他們已經在一年間吸引了成千上萬的用戶,其中最值得關注的就是Reddit,但這家公司在被LinkedIn收購的時候還沒有盈利。
IndexTank的源代碼可以在GitHub:Index Engine和API plus Nebulizer處下載。
查看英文原文: LinkedIn Open Sources IndexTank, a Customizable Indexing Engine轉自: http://www.infoq.com/cn/news/2012/01/IndexTank
本文由用戶 openkk 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!