IBM如何擁抱Spark

jopen 9年前發布 | 24K 次閱讀 Spark

Spark 是目前相當火熱的開源計算框架,相對于 Hadoop ,Spark優勢是高性能和易用性。Spark的高性能源于其采用內存儲存數據,應用可以以內存的速度進行運算;Spark的易用性在于通用的API,用戶可以編寫復雜的并行計算程序,使之看上去就像串行程序。這也使得Spark程序更容易開發和讀懂。由于其高性能,Spark已成為機器學習的重要工具。日前, IBM宣布加入Spark社區 ,并與Spark的核心貢獻公司 Databricks 合作。那么IBM將如何與社區進行合作,其自身又在Spark、大數據及機器學習領域有哪些計劃?InfoQ受邀與IBM進行交流,并對以上問題進行了解讀。

IBM對社區的貢獻和對未來的規劃

IBM大中華區大數據與分析事業部總經理鐘澤敏表示,在美國的舊金山研究室有一個Spark的技術中心,有超過200位的技術人員在Spark技術中心里工作。技術中心主要的功能是把Spark的技術應用在一些企業級應用場景中,這解決了開源的另一個問題。Databricks CEO Ion Stoica表示,考慮到IBM在Spark研發方面的投入,非常期待IBM成為Spark的核心貢獻者。

IBM大中華區大數據與分析事業部數據平臺方案總經理劉勝利認為,IBM在全球的研發分為兩大類,第一類叫Reserch,第二類是Develop,這兩類的工作性質還是非常不同的。Reserch就是研究,他們專注研究先進的、超前的技術的前期的研發。而 SystemML 是IBM研發了超過十年的機器學習技術。沃森( Watson )在幾年前的大型活動里,整合了很多SystemML機器學習的功能。

他表示,IBM與Databricks合作,是希望把SystemML的功能輸送給Spark,讓Spark具有更強大的機器學習能力,讓數據科學家專注于算法,而不是一些簡單的、細節的技術本身。

Databricks計劃開發一個機器學習框架 MLbase ,這與IBM的SystemML是什么關系,雙方的合作如何互補呢?IBM大中華區軟件架構師總監、IBM技術科學院委員林旭光認為,SystemML其實并不是提供算法,它其實是提供一個定義的機制,可以讓Data Center定義自己的算法。劉勝利表示, SPSS 提供了很多和 ML Lab 相似的算法,并且比后者算法更多。“我們看到ML Lab的算法有局限性。”舉個例子,一個專賣店會收集一些他的客戶辦的卡,這個卡會記錄客戶到他那買過什么樣的東西。那么下一步專賣店對客戶進行促銷,首先要對客戶進行分群,但是算法本身并不能解決分群的問題。還有很多行業的知識,比如對用戶畫像和智能推薦等。IBM可能在這方面有更強的東西,算法本身是標準化的。比如說你要分群客戶是用二叉樹算法、神經元網絡算法還是哪個算法,這在實際操作中是有一些經驗可循的。

那么IBM會以什么樣的方式與節奏節奏,拿出多少”干貨”與社區共享自己在機器學習等方面的技術呢?IBM大中華區大數據分析平臺銷售總監洪建勛表示,“我們做了一件很關鍵的事情,如何把從企業級市場得到的客戶需求跟最新的技術有效的銜接起來?這點是IBM一直致力于在做的很重要的事情。同時,新技術很多,可能出現孤島,我們能夠讓新的技術為企業真正融合,把這些所謂的單點和孤島全部連接起來打通,把原來可能存在的問題盡可能地減少。”

毫無疑問,IBM對企業應用的理解是眾多互聯網公司無法比擬的,這種經驗和理解是否能成為指導社區發展的力量呢?洪建勛認為,以Hadoop發展那么多年的經驗看,Hadoop社區盡管規模很大,但是新的組件一直在涌現。重點技術一直有變化,而IBM這種企業級IT廠商有很多新的經驗。“這也是成立ODP的價值,你可以在ODP中看到很多老的IT公司,為開放平臺貢獻自己的思想,為企業級客戶服務。”

IBM培養Spark技術人才

鐘澤敏透露,IBM已經開辦免費的課程,預計在第三季度就會更新第二批免費的課程。與Databricks、 AMPlab 合作培養數據科學家。

此外,IBM去年宣布投資1億美金,在中國推動”U100”計劃,后來又推出了” A100 “(百企大數據)計劃,跟國內商學院一起培養學生。該項目由香港中文大學、對外經貿大學、西南交大聯合發起,集合約50所商學院,IBM到學校里實地去幫老師和學生做數據挖掘、數據清洗。其中用到的工具、解決方案都由IBM提供。這個價值對于商學院,從老師到教育體系的改革,再到人才培養,都非常重要。事實上已有很多項目已經出了成果,這些研究項目都是非常有實際意義的。目前,IBM在大數據的投入已經超過250億美元。

為什么是Open Data Platform?

Open Data Platform 是眾多IT巨頭企業聯合成立的開放數據平臺。劉勝利表示,對于大部分企業用戶,開源了并不是意味著大家可以直接用。“我們希望大家在使用Hadoop的時候不再局限于有限的廠商”,所以在開源之上又推出了開放數據平臺。希望在選擇開放數據平臺里這些核心部件的時候,大家選用公共的、統一的這些代碼。那么,使用這樣一個開放的數據平臺,就不再受限于某一家的開源代碼,既利用了開源的好處,同時又讓企業用戶不再被廠家束縛。

鐘澤敏表示,IBM還是注重在企業級應用。包括SQL、R語言以及數據分析都是IBM的優勢。劉勝利認為,IBM做分析挖掘的語言以及SQL關系型數據庫已有30多年的歷史,有大量的優化技術。另外,SPSS的許多預測分析產品的算法也可以和Spark結合,因為SPSS使Spark上可以處理的數據量、處理的速度、處理的能力都得到了極大的提升。特別是SPSS最大的研發實驗室在中國,有一大堆數學科學家在研究算法。

林旭光補充道,有些客戶反饋說,用了一些廠家的開源組件之后,沒辦法遷移到別的平臺上去,雖然產品也是開源的。這是因為這些開源產品只有幾家公司或很小的群體在支持。基于此,做Open Data Platform一個很重要的目標就是,IBM用的只是開源的組件,并且都是可遷移的。

未來IBM會陸續推出Spark系列產品,包括Watson Analytics、DataWorks、PuerData一體機,以及一些方案和正在孵化的項目。

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!