雅虎開源“TensorFlowOnSpark” - TensorFlow 與 Apache Spark 結合

jopen 7年前發布 | 12K 次閱讀 Spark TensorFlow

TensorFlow 與 Apache Spark 結合:雅虎開源“TensorFlowOnSpark”

雅虎昨日宣布開源TensorFlowOnSpark。

它使得深度學習框架 TensorFlow 能與 Apache Spark 中的數據集兼容。對于使用 Spark 來處理不同類型數據的機構和開發者來說,這無疑是一個好消息。TensorFlowOnSpark 的開源代碼,已基于 Apache 2.0 協議在 GitHub 上發布。

眾所周知,深度學習有海量數據需求。雷鋒網了解到,許多業內公司利用 Spark 對超大規模的數據集進行管理。讓深度學習框架直接、方便地獲取這部分數據,將為 ML 開發提供極大助力。

雅虎在官方博客中宣布了這一消息,并解釋了此前雅虎 Big ML 開發團隊遇到的問題:

“現有的深度學習框架,往往需要設立單獨的深度學習數據組。這強迫我們為同一個機器學習流水線創建多個程序。維護多個獨立的數據組,要求我們在它們之間傳輸海量數據集——這導致不必要的系統復雜性和端到端的學習延遲。”

TensorFlow 與 Apache Spark 結合:雅虎開源“TensorFlowOnSpark”

為解決這一問題,雅虎此前開發了 CaffeOnSpark。它使得基于 Caffe機器學習框架開發的程序,能與 Apache Spark 兼容。雷鋒網 (公眾號:雷鋒網) 了解到,雅虎已將基于 CaffeOnSpark 的程序,用于鑒別搜索中的不恰當搜索結果,以及自動探測電子競技游戲直播視頻中的關鍵看點。

雅虎去年開源了 CaffeOnSpark。如今它對 TensorFlow 做了同樣的工作。兩者的原理幾乎相同,只是把機器學習框架換成了 TensorFlow。

雅虎表示,把 TensorFlow 程序移植到 TensorFlowOnSpark 相對方便,并經過反公司內部的反復驗證。

“這通常只需要修改十行以內的 Python 代碼。許多使用 TensorFlow 的雅虎開發者已輕松地把 TensorFlow 程序,移植到 TensorFlowOnSpark 執行。”

 

來自: http://www.leiphone.com/news/201702/XwhHugKHTk86WQso.html

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!