2014年Hadoop大事件盤點
2014已經過去了,如果從Hadoop 2005年加入Apache開始算起,這頭小象也轉眼就要十歲了。這一年里,Hadoop技術有什么重要發展?商用Hadoop供應商都干了啥?Hadoop市場又有那些大事兒發生?讓我們來盤點一下吧。
技術是永遠的干貨
Hadoop版本更新
今年四次版本更新都是圍繞HDFS和Yarn進行的。詳細信息見Hadoop更新 路線圖 。
- 2014年2月,Hadoop 2.3.0發布,新特性包括支持HDFS的混合存儲分級,可以集中管理HDFS內存里的緩存數據,通過HDFS中的YARN分布式緩存簡化MapReduce分配及一些Bug修正。
- 2014年4月,Hadoop 2.4.0發布。包括HDFS支持ACL權限控制機制、容易升級、支持支持https訪問、支持ResourceManager因故障掛掉重啟后,可以恢復之前正在運行的應用程序(用戶不需重新提交)、 增加了Yarn共享信息存儲模塊ATS 等。
- 2014年8月,Hadoop 2.5.0發布。新特性包括擴展文件屬性、改進 HDFS 的 Web UI,提升 Yarn共享信息存儲模塊ATS 安全性,更豐富的 YARN REST API 等。
- 2014年11月,Hadoop 2.6.0發布。增加了基于HadoopKeyProvider API編寫的密鑰管理服務器Hadoop Key Management Server(KMS)、HDFS實現了一個透明的,端到端的加密方式、長期存在的服務可以在YARN中運行、支持Docker容器中的本機應用程序等。
Hadoop 2 的逐步更新是不是意味著Hadoop已經走向成熟的企業級技術了呢?其實它還有很長的路要走。
SQL-on-Hadoop
如果不能使用SQL語言,Hadoop無疑是在構建下一個數據孤島,因此SQL-on-Hadoop獲得了越來越多的關注。
- Apache Hive 0.13發布。Hive是最早的基于Hadoop的SQL引擎。
- Apache 基金會宣布Apache Drill升級成為基金會的頂級項目。Drill包含SQL解析器,兼容SQL環境和Hive。
除此之外,還有很多SQL引擎可供選擇。
- 數據庫領域初創公司Splice Machine上周宣布,發布SQL-on-Hadoop數據庫,官方宣稱它可以在HDFS(Hadoop分布式文件系統)中運行SQL查詢和ACID事務。
喧囂與騷動
Hadoop市場從未像今年這樣熱鬧過,商用版Hadoop供應商紛紛抱大腿,很多傳統廠商也來分一杯羹。
- 因特爾放棄了自己研發的Hadoop發行版,轉而支持Cloudera,以7.4億美元收購Cloudera 18%的股份。
- 紅帽和Cloudera聯盟,一起開發包括數據集成和應用開發工具,以及數據平臺在內的軟件解決方案。
- Cloudera成立中國分公司,取名“肯睿(上海)軟件有限公司”,正式入華。
Hortonworks
- 惠普投資5000萬美元與Hortonworks達成戰略性合作關系,二者聯手開發Hadoop技術,使其在惠普的Haven 大數據 平臺上運行。
- EMC分拆公司Pivotal和Hortonworks合作,聯手打造Hadoop標準管理工具Apache Ambari。
Teradata
- Teradata收購數據咨詢公司Think Big Analytics,借此獲得Hadoop業務能力
- Teradata與MapR合作,獲得MapR軟件、專業服務及客戶支持服務的經銷權,并作為同時使用Teradata及MapR解決方案客戶的單點聯系方提供服務。
Oracle
- Oracle最新推出的SQL擴展方案——Oracle大數據SQL(Big Data SQL)能實現一條SQL查詢來從Cloudera Hadoop(CDH)和Oracle NoSQL數據庫中調取數據,同時也支持Exadata上運行的Oracle關系型數據庫。
應用案例
很多CIO非常關心Hadoop技術發展到什么程度了,還有沒有成熟。其實CIO更應該關心的是自己的企業發展到什么程度了,適不適合使用Hadoop。沒有完全成熟的技術,只有能否滿足業務需求的產品。很多公司都應用了Hadoop技術,來看看今年曝光的應用案例吧!
- 美國電商eBay每天要處理100PB的數據,其中包括50TB的機器數據。它采用了三層平臺戰略,其中第三層平臺就是Hadoop,eBay部署了兩個2萬節點的Hadoop集群,能處理80PB的數據。
- 數字媒體軟件供應商Adobe公司運用SAP Data Service將Hadoop數據加載到SAP內存數據庫HANA上。
- 思科首席數據架構師Bhargava帶領他的團隊從事開發Hadoop的工作,一些Hadoop用戶案例已經投入市場,比如集成線下和線上客戶信息。雖然現在Hadoop的規模還很小,但在接下來兩年里,它會呈指數增長。
最后的最后。。。
程序員有福了!Hadoop從業者的年收入最高,134500元。是數據庫從業者中收入最高的,超過了NoSQL從業者和Oracle DBA。新的一年是不是又有新的選擇了?
(責任編輯:中國統計網)