實時分布式搜索和分析引擎,ElasticSearch 2.0.1 和 2.1.0 發布

jopen 9年前發布 | 17K 次閱讀 ElasticSearch

Elasticsearch是一個實時分布式搜索和分析引擎。它讓你以前所未有的速度處理大數據成為可能。

它用于全文搜索、結構化搜索、分析以及將這三者混合使用:

  • 維基百科使用Elasticsearch提供全文搜索并高亮關鍵字,以及輸入實時搜索(search-as-you-type)搜索糾錯(did-you-mean)等搜索建議功能。

    </li>

  • 英國衛報使用Elasticsearch結合用戶日志和社交網絡數據提供給他們的編輯以實時的反饋,以便及時了解公眾對新發表的文章的回應。

    </li>

  • StackOverflow結合全文搜索與地理位置查詢,以及more-like-this功能來找到相關的問題和答案。

    </li>

  • Github使用Elasticsearch檢索1300億行的代碼。

    </li> </ul>

    但是Elasticsearch不僅用于大型企業,它還讓像DataDog以及Klout這樣的創業公司將最初的想法變成可擴展的解決方案。Elasticsearch可以在你的筆記本上運行,也可以在數以百計的服務器上處理PB級別的數據。

    Elasticsearch所涉及到的每一項技術都不是創新或者革命性的,全文搜索,分析系統以及分布式數據庫這些早就已經存在了。它的革命性在于將這些獨立且有用的技術整合成一個一體化的、實時的應用。它對新用戶的門檻很低,當然它也會跟上你技能和需求增長的步伐。

    如果你打算看這本書,說明你已經有數據了,但光有數據是不夠的,除非你能對這些數據做些什么事情。

    很不幸,現在大部分數據庫在提取可用知識方面顯得異常無能。的確,它們能夠通過時間戳或者精確匹配做過濾,但是它們能夠進行全文搜索,處理同義詞和根據相關性給文檔打分嗎?它們能根據同一份數據生成分析和聚合的結果嗎?最重要的是,它們在沒有大量工作進程(線程)的情況下能做到對數據的實時處理嗎?

    這就是Elasticsearch存在的理由:Elasticsearch鼓勵你瀏覽并利用你的數據,而不是讓它爛在數據庫里,因為在數據庫里實在太難查詢了。

    ElasticSearch 2.0.1和2.1.0發布: