Apache Hive v2.1.0-rc0 發布

jopen 8年前發布 | 8K 次閱讀 數據倉庫 Hadoop Apache Hive

Hive是一個基于Hadoop的開源數據倉庫,用于存儲和處理海量結構化數據。它是非死book 2008年8月開源的一個數據倉庫框架,提供了類似于SQL語法的HQL語句作為數據訪問接口,Hive有如下優缺點:

優點:

  • Hive 使用類SQL 查詢語法, 最大限度的實現了和SQL標準的兼容,大大降低了傳統數據分析人員學習的曲線;
  • 使用JDBC 接口/ODBC接口,開發人員更易開發應用;
  • 以MR 作為計算引擎、HDFS 作為存儲系統,為超大數據集設計的計算/ 擴展能力;
  • 統一的元數據管理(Derby、MySql等),并可與Pig 、Presto 等共享;

缺點:

  • Hive 的HQL 表達的能力有限,有些復雜運算用HQL 不易表達;
  • 由于Hive自動生成MapReduce 作業, HQL 調優困難;
  • 粒度較粗,可控性差

 

Hive運行架構

下載

 

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!