Apache Hive v2.2.0 發布

jopen 7年前發布 | 10K 次閱讀 數據倉庫 Hadoop Apache Hive

 

Hive是一個基于Hadoop的開源數據倉庫,用于存儲和處理海量結構化數據。它是非死book 2008年8月開源的一個數據倉庫框架,提供了類似于SQL語法的HQL語句作為數據訪問接口,Hive有如下優缺點:

優點:

  • Hive 使用類SQL 查詢語法, 最大限度的實現了和SQL標準的兼容,大大降低了傳統數據分析人員學習的曲線;
  • 使用JDBC 接口/ODBC接口,開發人員更易開發應用;
  • 以MR 作為計算引擎、HDFS 作為存儲系統,為超大數據集設計的計算/ 擴展能力;
  • 統一的元數據管理(Derby、MySql等),并可與Pig 、Presto 等共享;

缺點:

  • Hive 的HQL 表達的能力有限,有些復雜運算用HQL 不易表達;
  • 由于Hive自動生成MapReduce 作業, HQL 調優困難;
  • 粒度較粗,可控性差

Hive運行架構

下載

本站原創,轉載時保留以下信息:
本文轉自:深度開源(open-open.com)
原文地址:http://www.baiduhome.net/news/view/4b4365ec

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!