雅虎開源“TensorFlowOnSpark” - TensorFlow 與 Apache Spark 結合

jopen 8年前發布 | 12K 次閱讀 Spark TensorFlow

TensorFlow 與 Apache Spark 結合：雅虎開源“TensorFlowOnSpark”

雅虎昨日宣布開源TensorFlowOnSpark。

它使得深度學習框架 TensorFlow 能與 Apache Spark 中的數據集兼容。對于使用 Spark 來處理不同類型數據的機構和開發者來說，這無疑是一個好消息。TensorFlowOnSpark 的開源代碼，已基于 Apache 2.0 協議在 GitHub 上發布。

眾所周知，深度學習有海量數據需求。雷鋒網了解到，許多業內公司利用 Spark 對超大規模的數據集進行管理。讓深度學習框架直接、方便地獲取這部分數據，將為 ML 開發提供極大助力。

雅虎在官方博客中宣布了這一消息，并解釋了此前雅虎 Big ML 開發團隊遇到的問題：

“現有的深度學習框架，往往需要設立單獨的深度學習數據組。這強迫我們為同一個機器學習流水線創建多個程序。維護多個獨立的數據組，要求我們在它們之間傳輸海量數據集——這導致不必要的系統復雜性和端到端的學習延遲。”

TensorFlow 與 Apache Spark 結合：雅虎開源“TensorFlowOnSpark”

為解決這一問題，雅虎此前開發了 CaffeOnSpark。它使得基于 Caffe機器學習框架開發的程序，能與 Apache Spark 兼容。雷鋒網 (公眾號：雷鋒網) 了解到，雅虎已將基于 CaffeOnSpark 的程序，用于鑒別搜索中的不恰當搜索結果，以及自動探測電子競技游戲直播視頻中的關鍵看點。

雅虎去年開源了 CaffeOnSpark。如今它對 TensorFlow 做了同樣的工作。兩者的原理幾乎相同，只是把機器學習框架換成了 TensorFlow。

雅虎表示，把 TensorFlow 程序移植到 TensorFlowOnSpark 相對方便，并經過反公司內部的反復驗證。

“這通常只需要修改十行以內的 Python 代碼。許多使用 TensorFlow 的雅虎開發者已輕松地把 TensorFlow 程序，移植到 TensorFlowOnSpark 執行。”

來自： http://www.leiphone.com/news/201702/XwhHugKHTk86WQso.html

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/news/view/6e23e2a9

Spark TensorFlow

雅虎開源“TensorFlowOnSpark” - TensorFlow 與 Apache Spark 結合

相關資訊

相關經驗

相關文檔