Mahout通過可插拔的后端平臺Spark和Flink獲取自優化矩陣代數接口

jopen 9年前發布 | 17K 次閱讀 Mahout

在柏林最近GOTO發布會,Mahout的提交者Sebastian Schelter概述了Mahout中的 最新進展 ,即持續努力為數據分析創造一個可擴展的基礎,使其如R或Python一樣易用。

Schelter所述的主要目標是提供一種簡單的基于DSL(域特定語言)Scala語言,它類似于R語言中的矩陣表示法,但又能提供集群的大矩陣分布式存儲和并行計算的可能性。

Schelter說到,最終的庫將無縫地提供對本地和分布式矩陣的使用。Mahout團隊通過設計使得這個庫不依賴于特定的平臺,相反它有一個可插拔的后端以針對不同的平臺。

Schelter說,目前 Apache Spark (星火)發展最為快速,但是 Apache Flink ,另一個正在孵化的下一代大數據平臺,也將在Mahout的考慮之中。

這種新結構的一個重要方面是提供不同操作的可能性,比如,基于涉及矩陣的大小來進行潛在的深入優化。根據Schelter所說,主要的設計目標是讓數據科學家能夠編寫出可伸縮的代碼,而不必過分擔心并行的因素。這個 演示頁 給出了結果界面的第一印象。

Apache Mahout最初是在Hadoop之上實現一些機器學習算法的一個項目。它涵蓋了 分類,聚類,推薦和文檔學習模型 算法。到目前為止,這些算法是基于Hadoop和MapReduce的計算模型,而不是其它更靈活的模型,比如Apache Spark。Apache Spark已經開始發展自己的機器學習庫 mllib ,目前它涵蓋的算法要比Mahout少,但他們的項目主頁聲稱其算法要比Mahout快很多(譯者注:這里是說基于MapReduce的Mahout),這些改進是因為將計算移動到內存中以及更好地支持了迭代算法。

Mahout開始不僅僅依靠MapReduce,這正是其它各種各樣分布式計算替代方法出現的時候。

谷歌自身前段時間已開始探索替代的計算方案,這其中包括 Percolator (咖啡濾壺),它允許谷歌在搜索的數據庫上做增量更新,還有 Pregel (普雷格爾),一個專為分布式圖形計算建立的系統。Pregel反過來又導致了象 Apache Giraph斯坦福大學GPS 的開源項目。

卡內基 - 梅隆大學開發的GraphLab是可替代另一種工具箱,它提供了各種各樣的機器學習算法的分布式實現。

查看英文原文: Mahout to Get Self-Optimizing Matrix Algebra Interface with Pluggable Backends for Spark and Flink

</div> 來自:http://www.infoq.com/cn/news/2014/12/mahout-spark-flink

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!