LinkedIn已將可自定義的索引引擎IndexTank開源

openkk 12年前發布 | 9K 次閱讀 索引引擎

LinkedIn已將IndexTank開源,這是一種運行在云中的文檔索引引擎,它讓用戶可以自定義編制索引的過程,并對結果進行微調。

IndexTank是在一年之前發布的,在十月份被LinkedIn收購,并在最近開放了源代碼。IndexTank是與Google自定義搜索類似的云服務,它基于Amazon Web Services運行,給網站提供了為其中的內容編制索引的功能,而網站的訪問者會在稍后搜索這些內容。IndexTank聲稱他們的用戶擁有完全的控制權,可以決定對什么編制索引,何時編制索引,以及如何對結果排序。這意味著網站可以在搜索結果的基礎之上,對想要優先顯示的文檔做出改善,而不需要依賴于Google的搜索算法。

和很多站點不同,IndexTank不會爬取網頁的內容,從而對其建立索引,而是會由站點向索引引擎發送要索引的數據。這樣,文檔在創建之后就可以索引到,這提供了實時的結果。另外,我們可以免費添加這項服務。

IndexTank包括三個主要組件:

  • 索引引擎——只對簡單文本建立索引的引擎。而PDF、微軟文檔以及其他文檔類型需要在建立索引之前轉換為文本格式。
  • API——可以通過Java、Python、.NET、Ruby和PHP客戶端訪問的RESTful的接口。
  • Nebulizer——一種多租戶框架,其中存放不限數量、運行在IaaS基礎架構上的索引引擎。

IndexTank加入了Zoie,那是一種基于Apache Lucene構建的實時搜索引擎,并由LinkedIn于2008年開源。

IndexTank聲稱他們已經在一年間吸引了成千上萬的用戶,其中最值得關注的就是Reddit,但這家公司在被LinkedIn收購的時候還沒有盈利。

IndexTank的源代碼可以在GitHub:Index EngineAPI plus Nebulizer處下載。

查看英文原文: LinkedIn Open Sources IndexTank, a Customizable Indexing Engine
轉自: http://www.infoq.com/cn/news/2012/01/IndexTank

 本文由用戶 openkk 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!