微軟開源大數據框架 REEF

jopen 11年前發布 | 7K 次閱讀 開源

在本周一的國際知識挖掘與數據發現大會上,微軟信息服務首席技術官Raghu Ramakrishnan透露微軟計劃近期內開放其大數據框架REEF(Retainable Evaluator Execution Framework)。REEF被設計運行于下一代Hadoop資源管理器YARN之上,非常適合運行機器學習任務。

微軟開源大數據框架 REEF

資源管理器YARN是Apache hadoop項目的一部分,可以讓用戶在同一物理集群上運行和管理多種任務(例如批處理MapReduce、用Storm進行流處理或圖形處理包)。 YARN不但能幫企業整合多個需要管理的系統,還能在同一數據和地點運行多種分析任務。有些情況下,整個工作流都能在單一集群上完成。

但Ramakrishnan指出,有些類型的任務,例如機器學習,對數據移動、任務監控有特殊要求,而且經常需要能夠在之前的結果中回滾,并不適合YARN這樣的框架。而運行在YARN紙上的REEF能夠解決這些問題。

微軟開源大數據框架 REEF

根據Ramakrishnan的演講稿,REEF分為兩個主要部分(上圖):

一個是求值器Evaluators,是用來承載REEF服務的容器,另一個是活動代碼Activities,是在求值器內部運行的用戶代碼。

總的來說,REEF是一個很有意義的技術,解決了一些公司長期遺留的難題。值得注意的是,REEF的開源標志著微軟對Hadoop(主要通過YARN)及開源社區的戰略投入,微軟正融入Hadoop開源社區,并試圖通過回報社區讓自己在開發者眼中變得“性感”起來。

總體來看,微軟大數據戰略的核心 是在Azure上提供Hadoop、機器學習、高性能計算和數據分析服務。因此,微軟在大數據技術方面的動作也絕不僅限于與Hortonworks在 Hadoop平臺上的合作,正如微軟技術研究員Dave Campbell所言:“Hadoop只是微軟信息生產線邁出的第一步。”而REEF的開源,正是微軟打造機器學習業務生態環境的第一步。

來自IT經理網

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!