大規模并行查詢引擎:BlinkDB
BlinkDB 是一個用于在海量數據上運行交互式 SQL 查詢的大規模并行查詢引擎。它允許用戶通過權衡數據精度來提升查詢響應時間,其數據的精度被控制在允許的誤差范圍內。

為了達到這個目標,BlinkDB 使用兩個核心思想:
- 一個自適應優化框架,從原始數據隨著時間的推移建立并維護一組多維樣本;
- 一個動態樣本選擇策略,選擇一個適當大小的示例基于查詢的準確性和(或)響應時間需求。
我們已經使用了 TPC-H 基準測試來評估 BlinkDB 的性能,實際分析工作負載來自 Conviva Inc. 和在 非死book Inc 的部署。
在 VLDB 2012 中,BlinkDB 演示了在 Amazon EC2 集群部署了 100 個節點,大約 17TB 的數據中查詢不到 2 秒鐘,比 Hive 快 200 倍,錯誤率在 2-10%。
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!