助人就是助己:IBM宣布大規模資助開源大數據項目Spark
本周一,IBM 宣布 將對開源實時大數據分析項目Apache Spark進行大規模資助,藍色巨人宣稱,其資助的力度之大相當于每年數億美元的投入。
Hadoop技術出自Google、Yahoo這些互聯網公司,主要是為了對規模龐大的各類數據進行處理和分析。不過近年來隨著大數據應用的流 行,越來越多的公司也希望自己具備類似的能力,這使得Hadoop逐步進入了主流。Hadoop以及相關的分發企業如Cloudera, Hortonworks等也成為了大數據領域的投資熱點。
Spark同樣也提供大數據處理與分析能力。如果說Hadoop勝在規模的話,那么Spark就勝在速度。這項由2年前UC Berkeley AMP實驗室開發的技術將中間輸出結果保存在內存而不是分布式文件系統中,從而可以提供實時的數據分析能力。與Hadoop獲得的資助相比,對Spark 的支持還很不夠。
正是在此背景下IBM宣布了對Spark的大規模資助。藍色巨人將投入超過3500名開發者到Spark相關項目,為項目提供機器學習技術,并 將Spark嵌入到IBM的數據分析和商用軟件中,同時還會把Spark作為服務在它的Bluemix開發平臺上提供出來。為了鼓勵基于Spark的創 新,IBM還將在舊金山設立一個Spark技術中心。IBM還將把自己的一個研究項目SystemML開源。這個項目是利用機器學習技術去識別數據模式, 而它正是在Spark基礎上開發的。
IBM還計劃與UC Berkeley的AMPLab、DataCamp、Galvanize以及Big Data University等學術及教育組織合作提供Spark教育課程,目標是培養100萬名數據工程師和數據科學家。
IBM的大規模資助令人矚目。回顧過去,正是由于IBM的出手才讓若干關鍵技術得到了普及,比如說1980年代IBM對PC的投入,2000年代對Linux的投入均加速了相關技術成為主流的進程。
當然,對于IBM來說,對Spark的大規模投入實際上也在幫助它自己。此舉不僅能強化自己在大數據領域的地位,同時也能吸引更多開發者加盟它的生態體系,幫助IBM更快更好地解決其業務問題。
而放眼更大的環境,開源化已成不可逆轉的趨勢。技術巨頭比以往任何時候都更加熱情地涌入到這一潮流當中。比方說Google開源了自己最大的秘密之一,非死book更是 幾乎將自己變成了一所開源實驗室 。因為這些巨頭明白,如果不擁抱開源,也許就會被開源消滅。
原創文章,作者:boxi