Strata+Hadoop World 2015見聞
原文 http://www.csdn.net/article/2015-03-19/2824266
Strata+Hadoop World(SHW)是世界最大的大數據盛會,它為各種技術提供了深度交流的機會,參會者在這里能看到最領先的技術、最廣泛的應用場景、最有趣的用例教學,以及最全面的大數據行業和趨勢探討。
SHW的演講不僅涵蓋了全世界大數據領域頂尖技術專家,同時還有各種大數據應用場景的經驗介紹,包括金融、多媒體、零售、物流等。2月17-20 日在美國加州San Jose舉行的Strata+Hadoop World 2015匯聚了超過200場技術分享,150家展商以及5000名參會者。
本文中,我將為讀者帶來這次大會的見聞以及硅谷大數據界的最新動向和發展趨勢,下面分五個部分展開。
政府與大數據
“Understanding and innovating with data, has the potential to change the way we do almost anything for the better.”——Barrack Obama
這是美國總統奧巴馬,為本次SHW大會送來祝詞中的一句話。
總統親自出馬,為大會助陣,是因為美國政府剛剛任命了DJ Patil作為政府的首席數據科學家(Chief Data Scientist),這也是美國政府內部首次設立“數據科學家”這個職位,之后將開始組建數據科學相關的新機構。此外,美國政府近期發布了 135,000組政府數據,免費提供給民眾和科研機構、商業公司下載使用,并會在未來保證數據的更新以及增加公開數據的種類。
這兩項舉措,都顯示出了美國政府對于大數據時代以及其背后巨大潛力的重視,并將其作為未來政府執政的重要組成部分向全美推廣。
隨后,在DJ Patil的演講中,他也向大家介紹了美國政府對于大數據的部分規劃。
利用政府的龐大數據庫,創造價值回饋于廣大民眾。比如利用數據分析,幫助醫療衛生系統工作,預測天氣變化及災害,管理交通預防擁堵等。
在政府內部推行大數據使用,從而提高政府效率,將資源用在最需要的地方。
大力扶持數據科學產業,通過政府牽頭帶動數據科學的更快發展,保持領先地位。同時也從教育出發,培養數據科學人才。
建立官方大數據行業標準,對大數據行業的發展進行有效管理和監督。
不得不說,美國政府對于大數據的重視超出我的預料,美國政府擁抱大數據的態度值得全世界學習。
大數據科技
Strata+Hadoop World大會的主題仍然是最前沿的數據科學與技術。而這些技術中間,Hadoop與Spark自然是最受關注的明星。
Cloudera CTO Amr Awadallah在演講中介紹了未來Hadoop的發展,其中著重提到了今年Cloudera的主題是“Flexibility”——也就是靈活性。 Hadoop希望成為“智能手機”一樣的角色,不僅能管理和存儲多種類型的數據,還可以在上面部署各種各樣的應用,對存儲和管理的數據進行處理和使用。
此外,Hadoop還將加強安全建設,Cloudera安全架構師Eddie Garcia也在隨后做了詳細介紹。
去年奪得了最佳創業公司(Data-Driven Startup)的MemSQL,在今年的大會上已經成長為極具競爭力的一家新型數據庫公司,并且在Keynote上發表了題為“Close Encounters with the Third Kind of Database”的主旨演講。而在今年的創業公司評選環節,獲得頭名的是一款名為Snowflake的SQL數據倉庫。Snowflake是一款彈性數 據云服務平臺,能在一個系統內處理半結構化和結構化數據而不需要轉換存儲結構或者設置統一的操作模式。
同時多家大數據架構或工具廠商也都在演講中表示未來將會更好地支持非關系型數據庫。
大數據與商業
這次的SHW大會上也出現了一些傳統企業,介紹大數據技術的實際應用。在商業領域,對于大數據的需求主要有三點。
時效性:隨著大數據技術在商業領域不斷普及,傳統行業對于大數據技術的要求已從“能用”向“好用”轉變,其中很重要的一點就是對實時性的要求正在不斷提高。
易用性:不只是用起來簡單,還包括對多種工具、開發架構的整合,多種開發環境的支持以及跨平臺的一體化要求。
安全性:隨著大數據深入到企業更深層,安全性也是企業在應用大數據技術時需要考慮的重要部分,除了保證數據不會泄露、被盜取之外,還應該保證數據不會因為故障或意外而丟失。VISA公司就分享了有關Hadoop應用中的安全保障問題。
中國大數據市場
本次SHW大會,恰逢中國的春節,而中國元素也成為其中非常亮眼的一部分。在大會上,中國企業華為和騰訊,先后發表了題為“大數據如何改變電信的 運營和商業模式(How Big Data Transforms the Way Telcos Operate and Do Business)”以及“騰訊的Spark應用與優化(Usages and Optimizations of Spark at Tencent)”的主題演講,并在現場和會議期間得到了熱烈的反響。此外,同樣來自中國的SequoiaDB(巨杉數據庫)在Session環節發表了 “SequoiaDB加速你的數據(Accelerate your data with SequoiaDB)”的演講。
總的來說,現場觀眾和硅谷媒體,對中國企業和中國大數據市場很感興趣。他們也驚異于中國在大數據技術上并不落后于硅谷的大數據巨頭們,中國的技術 圈也開發出了性能和功能都很有沖擊力的NoSQL數據庫產品。同時,他們也看到了中國大數據市場潛力巨大,卻又有特色,這就賦予本土大數據產品廣闊的發展 空間。
新型數據庫
數據庫作為底層數據存儲和管理工具,是大數據生態系統中不可或缺的一環。傳統關系型數據庫已經存在了幾十年,雖然有其適合的場景,但對于大數據應 用,存在諸多局限。新型數據庫是本屆SHW大會的焦點話題之一。高性能、高可用、靈活的數據結構等特性,都讓其成為大數據存儲分析的不二之選。
大會不僅有多家參加演講和展示的數據庫廠商,更有許多數據庫資深研發人員和架構師來到現場。為此,我總結了有關數據庫的資訊,并對未來該領域發展做出了預測。
新型數據庫不斷壯大
眾所周知,關系型數據庫已出現了近40年,并且在很長一段時間里是數據庫領域當之無愧的王者。如今,新型數據庫,包括NoSQL以及NewSQL兩種主要類型,正在進入越來越多的應用領域。
多家新型數據庫廠商參加了本屆SHW,其中有NoSQL界的佼佼者,如Couchbase、Aerospike、Marklogic和 SequoiaDB等,也有NewSQL的許多廠商,如MemSQL、VoltDB、ScaleDB和CitusDB等。這些企業在現場和 Cloudera、Hortonworks這些大數據領頭羊一樣,得到了廣泛的關注。
隨著“大數據時代”的到來,在高并發、大數據量、分布式及實時性的要求之下,傳統的關系型數據庫,因為其數據模型及預定義的操作模式,在很多情況 下不能很好地滿足以上需求,所以新型數據庫在大數據場景下,正取代傳統關系型數據庫成為主導。正如MemSQL的CEO Eric Frenkiel在Keynote演講中說道:“We need a new kind of database to do things we have never done before!”
SQL與Hadoop集成遇到了挑戰
值得注意的是,除NoSQL等新型數據庫技術外,傳統的數據庫廠商也在尋求能讓關系型數據庫完美對接Hadoop等大數據架構的方法,但尚未找到完美的解決方法。
展會上,IBM工程師分享了他們在SQL與Hadoop結合上進行的嘗試。其中提到,SQL和Hadoop對接的難點之一是SQL語句如何在 Hadoop上執行,因為Hadoop文件系統HDFS的設計并不能有效運行SQL。IBM則正在探究如何更好地解決這個核心問題。大會上IBM分享了基 于IBM BigInsight的BigSQL實現SQL與Hadoop對接。
同樣作為傳統RDBMS領頭羊的Oracle也在大會上發布了最新版的Oracle BigDataSQL以及Oracle NoSQL等大數據產品。
大數據架構加強對NoSQL的支持
NoSQL在數據庫領域的影響力日漸壯大,領頭羊MongoDB、Cassandra和Redis已在DB-Engine的數據庫排名上進入了前十。大數據架構、平臺也都在越來越強化對于NoSQL數據庫的支持。
Amr Awadallah也提到Hadoop未來很重要的一點就是加強對NoSQL數據庫的支持:“We will improve the integration with NoSQL database to make Hadoop more versatile”。
無獨有偶,在另外一場主題演講中,Databricks CTO Matei Zaharia也介紹了Spark在2015年的發展方向,包括新增機器學習的流水線功能,R語言集成,當然也包括了更好地支持NoSQL數據庫。
可以看到,NoSQL數據庫在大數據生態系統中的作用和地位正在不斷提升。
總結
作為一名大數據技術從業人員,我參加這次大會的收獲主要有以下幾個方面。
- 在現場與眾多世界大數據界頂尖專家進行深度交流,了解最前沿的技術和想法。
- 在廠商的分享中,了解了更多大數據應用場景和應用方向,這是大數據行業未來的趨勢。
- 在展示和演講中,來自中國的工程師也向硅谷展示了中國的大數據技術和發展。
希望未來能有更多中國廠商和技術專家參與這樣的國際技術大會,促進國內外技術交流,將先進的技術和發展方向帶回中國。
作者介紹:王濤,巨杉CTO,畢業于加拿大卡爾加里大學計算機科學專業。曾就職于IBM多倫多實驗室。