Python實現的分布式計算框架:DPark
DPark 是 Spark 的 Python 克隆,是一個Python實現的分布式計算框架,可以非常方便地實現大規模數據處理和迭代計算。 DPark 由豆瓣實現,目前豆瓣內部的絕大多數數據分析都使用DPark 完成,正日趨完善。
import dpark file = dpark.textFile("/tmp/words.txt") words = file.flatMap(lambda x:x.split()).map(lambda x:(x,1)) wc = words.reduceByKey(lambda x,y:x+y).collectAsMap() print wc
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!