Python實現的分布式計算框架：DPark

jopen 12年前發布 | 47K 次閱讀 DPark 分布式/云計算/大數據

DPark 是 Spark 的 Python 克隆，是一個Python實現的分布式計算框架，可以非常方便地實現大規模數據處理和迭代計算。 DPark 由豆瓣實現，目前豆瓣內部的絕大多數數據分析都使用DPark 完成，正日趨完善。

import dpark
 file = dpark.textFile("/tmp/words.txt")
 words = file.flatMap(lambda x:x.split()).map(lambda x:(x,1))
 wc = words.reduceByKey(lambda x,y:x+y).collectAsMap()
 print wc

項目主頁：http://www.baiduhome.net/lib/view/home/1370500999727

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1370500999727.html

DPark 分布式/云計算/大數據

Python實現的分布式計算框架：DPark

相關經驗

相關資訊

相關文檔

目錄