Hive未來兩年的路線圖

jopen 10年前發布 | 10K 次閱讀 Hive

Hive是一個基于Hadoop的數據倉庫平臺,它是SQL-on-Hadoop框架的代表項目。但是它在處理交互式查詢的速度一直不夠快。今年4月,Hortonworks完成了Stinger項目的目標,不僅改進了Hive的功能,還將其性能提升了100倍。

9月3日,Hortonworks宣布開始下一階段的工作,即Stinger.next,以便進一步擴展其功能及提升其性能。它將要實現的一些關鍵特性可以使Hive滿足新的業務應用場景,包括:

  1. 支持ACID事務——用戶將可以插入、更新和刪除現有數據。Hive將由傳統的一次寫入、頻繁讀取的系統發展為一個支持變化數據分析的系統。
  2. 實現亞秒級查詢——用戶可以將Hive用于像交互式儀表板和探究性分析這樣對響應時間有更高要求的應用場景。
  3. 全面支持SQL:2011 Analytics——用戶可以使用標準SQL在Hive上部 署復雜的報表,而且更快捷、更簡便、更可靠。而基于成本的、功能強大的優化器可以確保工具生成的查詢和復雜查詢的運行速度。屆時,Hive將在 Hadoop上提供企業級SQL用戶所享有的全部表達能力。它將在支持窗口函數、用戶自定義函數、子查詢、Rollup、Cube、標準聚集、內連接、外 連接、半連接和交叉連接的基礎上,增加對不等連接、集合函數(并、交、差)、時間間隔類型等的支持。

Stinger.next計劃用時18個月,將分三個階段交付。事務支持將于2014年底發布,亞秒級查詢將在2015年上半年推出,而對SQL:2011 Analytics的全面支持則將于2015年底完成。

此外,Hive還將與機器學習框架Spark集成,使用戶可以通過Hive運行機器學習模型。除了上述特性外,Hive還將獲得如下增強:

  • Hive Streaming Ingest將幫助用戶基于最新數據擴展運營報表;
  • Hive Cross-Geo Query使用戶可以在分布式數據集上查詢和生成報表;
  • 物化視圖使用戶可以存儲相同數據的多個視圖;
  • 改進可用性;
  • 簡化部署過程。

而據Gigaom報道,Stinger.next的成功對于許多公司而言將不是個好消息,因為他們已經投入了大量的人力和財力,用于構建自己的SQL-on-Hadoop引擎,其中包括Cloudera ImpalaIBM Big SQLPivotal Greenplum等商業產品,以及由Salesforce.com-built構建的Apache Phoenix和由MapR主導的Apache Drill等開源產品。Apache Spark社區也正在開發自己的交互式SQL引擎。雖然Cloudera聯合創始人兼首席戰略官Mike Olson認為Impala比Hive要快得多,但是,對于已使用Hive多年的用戶而言,功能不斷擴展、性能不斷提升的Hive將非常有吸引力。

另一方面,Hortonworks聲稱,他們的關鍵合作伙伴,如Microsoft、Informatica、Microstrategy和 Tableau都將加入Stinger.next計劃。Hortonworks將繼續在速度、規模和SQL語義方面對Hive進行擴展。

來自:http://www.infoq.com/cn/news/2014/09/hive

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!