Spark之后,誰將接手大數據

jopen 9年前發布 | 13K 次閱讀 Spark

 

隨著智能終端數量的極速增加,大數據已經成為當今社會的主題詞。其高容量、高速度和多類型的特征也反映著時代的發展特點。為了能夠挖掘大數據背后的潛在價值,Apache基金會提出了 Hadoop平臺 。該平臺的MapReduce框架一步步發展,已經成為大數據處理的核心技術。然而,MapReduce剛剛“稱霸”大數據不久, Spark 就迅速崛起。其超高的性能和易用性很快吸引了業界的注意,并使得很多公司開始放棄MapReduce。 據預測 ,Spark將會在五年以后全面替代MapReduce。由此可見,大數據領域日新月異,技術更迭十分迅速。那么,在Spark之后,什么技術會接手之后的大數據處理呢?接下來,本文就對該問題進行一定的探討。

作為Apache基金會所開發的分布式處理平臺,Hadoop最核心的設計包括HDFS分布式文件系統和分布式計算框架MapReduce。 MapReduce一步步完善,終于成為大數據處理中的核心技術。Hadoop也以其低成本、高擴展性、靠可靠性以及靠容錯性等優點,成為主流的大數據處理平臺。然而,2009年由伯克利大學提出的Spark項目,異軍突起。在不到7年之間內,Spark經歷了從研究性項目,到Apache基金項目,進而頂級項目的過程。Cloudera社區的領軍人物 Justin Kestelyn甚至預測 ,Spark將會在五年后徹底替代MapReduce。而十年之后,MapReduce將會成為業界的回憶。

Kestelyn提到 ,Spark崛起有著其必然的原因——它存在三個方面的核心優勢。

  • 首先,Spark為Scala、Java和Python語言提供了豐富而統一的API接口,使其代碼量比MapReduce可減少50%-80%。
  • 其次,Spark為批處理和流處理也提供了統一的API。
  • 最重要的方面是,Spark的性能要大大優于MapReduce。其訪問內存數據的速度是MapReduce的100倍,而訪問磁盤的速度也是MapReduce的10倍。由此可見,Spark替代MapReduce已成為必然趨勢。

那么,在日新月異的大數據領域,Spark又能主導分布式計算多久呢?之后,又是那種技術替代Spark呢?MongoDB的副總裁 Kelly Stirman曾表示 ,大數據領域的上一次飛躍源于對昂貴的計算和存儲的優化,而其下一次變革肯定與相關目前昂貴的工程人員相關。未來,更易上手的技術將會競爭力越強,更易吸引廣大用戶的注意。Databricks的聯合創始人 Ion Stoica表示 ,Spark的成功就與其易用性密切相關。Adobe公司移動應用方面的副總裁 Matt Asay也認為 ,易用性必然會成為未來大數據領域競爭的熱點。那么,能夠在未來主導大數據處理的技術也必然是在易用性方面做的最好的一個。

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!