大規模并行查詢引擎:BlinkDB

jopen 11年前發布 | 15K 次閱讀 BlinkDB 分布式/云計算/大數據

BlinkDB 是一個用于在海量數據上運行交互式 SQL 查詢的大規模并行查詢引擎。它允許用戶通過權衡數據精度來提升查詢響應時間,其數據的精度被控制在允許的誤差范圍內。

大規模并行查詢引擎:BlinkDB

為了達到這個目標,BlinkDB 使用兩個核心思想:

  • 一個自適應優化框架,從原始數據隨著時間的推移建立并維護一組多維樣本;
  • 一個動態樣本選擇策略,選擇一個適當大小的示例基于查詢的準確性和(或)響應時間需求。

我們已經使用了 TPC-H 基準測試來評估 BlinkDB 的性能,實際分析工作負載來自 Conviva Inc. 和在 非死book Inc 的部署。

VLDB 2012 中,BlinkDB 演示了在 Amazon EC2 集群部署了 100 個節點,大約 17TB 的數據中查詢不到 2 秒鐘,比 Hive 快 200 倍,錯誤率在 2-10%。

大規模并行查詢引擎:BlinkDB

項目主頁:http://www.baiduhome.net/lib/view/home/1376959504819

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!