大數據賽道上的單挑：MapReduce與Spark到底誰快？

jopen 10年前發布 | 12K 次閱讀 MapReduce

原文 http://www.ctocio.com/ccnews/19303.html

通常人們認為Spark的性能和速度全面優于MapReduce，但最新的對決顯示MapReduce在某些方面也有勝場，而且數據規模越大優勢越大。

Apache Spark是當今最火爆的大數據處理框架。通常人們認為Spark的性能和速度全面優于MapReduce，且更加容易使用，而且Spark已經擁有一個龐大的用戶和貢獻者社區，這意味著Spark更加符合下一代低延遲、實時處理、迭代計算的大數據應用的要求，大有取代MapReduce的趨勢。

關于Spark和Mapreduce的性能PK已經在業界進行多次，不少人認為Spark僅僅是在內存計算環境比Mapreduce表現出色，但也有公司認為Spark全面壓倒Mapreduce，例如2014年Spark商業化公司Databrick在磁盤環境給Spark做了GraySort 跑分測試（下圖），顯示Spark的磁盤性能也同樣彪悍。

大數據賽道上的單挑：MapReduce與Spark到底誰快？

那么，Spark真的是全面超越MapReduce了嗎？

近日，IBM中國研究中心發布的一篇論文中的比測試顯示，在Word Count、K-means和PageRank三類大數據處理任務中，Spark比MapReduce分別快2.5倍、5倍和5倍。這得益于的RDD緩存減少了CPU和磁盤開銷。

大數據賽道上的單挑：MapReduce與Spark到底誰快？

但是在排序任務（Sort）方面，MapReduce的執行速度是Spark的兩倍（兩者的速度差異隨著數據集規模的增加逐漸拉大，數據集越大，MapReduce的優勢越明顯，上圖），因為MapReduce混編數據的執行模型比Spark的效率高很多。

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/news/view/17abb20

MapReduce

大數據賽道上的單挑：MapReduce與Spark到底誰快？

相關資訊

相關經驗

相關文檔