大數據賽道上的單挑:MapReduce與Spark到底誰快?
通常人們認為Spark的性能和速度全面優于MapReduce,但最新的對決顯示MapReduce在某些方面也有勝場,而且數據規模越大優勢越大。
Apache Spark是當今最火爆的大數據處理框架。通常人們認為Spark的性能和速度全面優于MapReduce,且更加容易使用,而且Spark已經擁有一個 龐大的用戶和貢獻者社區,這意味著Spark更加符合下一代低延遲、實時處理、迭代計算的大數據應用的要求,大 有取代MapReduce的趨勢 。
關于Spark和Mapreduce的性能PK已經在業界進行多次,不少人認為Spark僅僅是在內存計算環境比Mapreduce表現出色,但 也有公司認為Spark全面壓倒Mapreduce,例如2014年Spark商業化公司Databrick在磁盤環境給Spark做了GraySort 跑分測試(下圖),顯示Spark的磁盤性能也同樣彪悍。
那么,Spark真的是全面超越MapReduce了嗎?
近日,IBM中國研究中心發布的一篇 論文 中的比測試顯示,在Word Count、K-means和PageRank三類大數據處理任務中,Spark比MapReduce分別快2.5倍、5倍和5倍。這得益于的RDD緩存減少了CPU和磁盤開銷。
但是在排序任務(Sort)方面,MapReduce的執行速度是Spark的兩倍(兩者的速度差異隨著數據集規模的增加逐漸拉大,數據集越大,MapReduce的優勢越明顯,上圖),因為MapReduce混編數據的執行模型比Spark的效率高很多。
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!