微軟大數據框架:REEF

jopen 11年前發布 | 31K 次閱讀 REEF

REEF 是微軟開發的一個大數據框架。 REEF運行在YARN的上層。YARN是 新一代Hadoop資源管理器,通過YARN,用戶可以運行和管理同一個物理集群機上的多種作業,例如MapReduce批處理和圖形處理作業。這樣不僅 可以鞏固一個組織管理的系統數目,而且可以對相同的數據進行不同類型的數據分析。某些情況下,整個數據流可以執行在同一個集群機上。

微軟大數據框架:REEF

Ramakrishnan表示,對于某些類型的作業,例如機器學習,YARN并不是一個理想的框架,因為這些作業對于數據傳輸、任務監控和結果集迭代等方面有一些特殊的要求。

而REEF可以解決這些問題。REEF分為兩個部分:Evaluator和Activity。Evaluator 是YARN的容器,包括REEF服務和Activity(用戶代碼)都運行在Evaluator內。Ramakrishnan展示了一個工作流示 例,YARN可以向上構建一個Evaluator,Activity代碼會在Evaluator運行和完成,這時同一個Evaluator可以再次恢復初 始狀態運行起來,以便其他的Activity繼續運行。

從理論上來說,REEF是一個有趣的技術,它試圖去解決一些公司進行數據分析時的遺留問題。同時值得注意的是,REEF在某種程度上表明了微軟擁抱Hadoop和開源的強烈意愿。幾年前,微軟只是致力于開發Hadoop的替代品和專有平臺。而現在,它也在推動Hadoop社區的工作并提高自身代碼的開放度。

原文鏈接:Microsoft to open source a big data framework called REEF

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!