開源數據分析工具:Druid

ygfb 9年前發布 | 49K 次閱讀 Druid 數據挖掘

Druid 是一個針對在線分析處理(OLAP)事件數據而設計的開源數據存儲分析工具。它提供了低延遲(實時)數據攝取、靈活的數據探索及快速的數據聚合功能。現存 的已實施的Druid項目已經能處理數萬億的事件和拍字節(拍字節即PB,1PB=1024TB)的數據了。Druid現在是面向用戶分析應用中使用率最 高的。

開源數據分析工具:Druid

關鍵特性

 

  • 次秒級(sub-second)OLAP查詢:Druid的列取向和反向索引能使其能進行復雜的多維度過濾,并掃描出哪些才是一個查詢所真正需要的。數據的聚合與過濾只在毫秒之間就得以完成。
  • 實時的流式攝取:典型的數據庫分析都是分批次來進行的。由于事務鎖或其它瓶頸因素限制,使得一次只處理一個事 件這種方式的數據攝取速度很慢。Druid使用無鎖方式攝取數據集,以實現每節點每秒能同時攝取并查詢上萬個事件的功能。簡單地說,一個事件從發生到可被 觀測之間的延遲只取決于傳遞給Druid的速度。
  • 強大的分析應用:Druid有許多為多租戶(multi-tenancy)內置的特性。擁有為上千并發用戶而設計的強大的面向用戶分析應用。
  • 性價比高:Druid在進行規模應用時非常節省成本而且還內置了諸多能降低成本的功能。通過簡單的配置就能降低成本并提高性能。
  • 高有效性:Druid作為軟件即服務的一種實現方式,需要做到時刻可用。Druid支持滾動更新,這樣即使在更新升級期間,你的數據及查詢功能仍然保持可用。
  • 大規模應用:現有的Druid實施項目處理著數萬億的事件、拍字節量級的數據并在每秒鐘執行上千次查詢。

開發資源

官方網站:http://druid.io/
開源地址:https://github.com/druid-io/druid/

 本文由用戶 ygfb 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!