Python實現的分布式計算框架:DPark

jopen 11年前發布 | 47K 次閱讀 DPark 分布式/云計算/大數據

DPark 是 Spark 的 Python 克隆,是一個Python實現的分布式計算框架,可以非常方便地實現大規模數據處理和迭代計算。 DPark 由豆瓣實現,目前豆瓣內部的絕大多數數據分析都使用DPark 完成,正日趨完善。

import dpark
 file = dpark.textFile("/tmp/words.txt")
 words = file.flatMap(lambda x:x.split()).map(lambda x:(x,1))
 wc = words.reduceByKey(lambda x,y:x+y).collectAsMap()
 print wc

項目主頁:http://www.baiduhome.net/lib/view/home/1370500999727

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!