微軟開源大數據框架 REEF
在本周一的國際知識挖掘與數據發現大會上,微軟信息服務首席技術官Raghu Ramakrishnan透露微軟計劃近期內開放其大數據框架REEF(Retainable Evaluator Execution Framework)。REEF被設計運行于下一代Hadoop資源管理器YARN之上,非常適合運行機器學習任務。
資源管理器YARN是Apache hadoop項目的一部分,可以讓用戶在同一物理集群上運行和管理多種任務(例如批處理MapReduce、用Storm進行流處理或圖形處理包)。 YARN不但能幫企業整合多個需要管理的系統,還能在同一數據和地點運行多種分析任務。有些情況下,整個工作流都能在單一集群上完成。
但Ramakrishnan指出,有些類型的任務,例如機器學習,對數據移動、任務監控有特殊要求,而且經常需要能夠在之前的結果中回滾,并不適合YARN這樣的框架。而運行在YARN紙上的REEF能夠解決這些問題。
根據Ramakrishnan的演講稿,REEF分為兩個主要部分(上圖):
一個是求值器Evaluators,是用來承載REEF服務的容器,另一個是活動代碼Activities,是在求值器內部運行的用戶代碼。
總的來說,REEF是一個很有意義的技術,解決了一些公司長期遺留的難題。值得注意的是,REEF的開源標志著微軟對Hadoop(主要通過YARN)及開源社區的戰略投入,微軟正融入Hadoop開源社區,并試圖通過回報社區讓自己在開發者眼中變得“性感”起來。
總體來看,微軟大數據戰略的核心 是在Azure上提供Hadoop、機器學習、高性能計算和數據分析服務。因此,微軟在大數據技術方面的動作也絕不僅限于與Hortonworks在 Hadoop平臺上的合作,正如微軟技術研究員Dave Campbell所言:“Hadoop只是微軟信息生產線邁出的第一步。”而REEF的開源,正是微軟打造機器學習業務生態環境的第一步。
來自IT經理網