Spark與Flink：對比與分析

jopen 10年前發布 | 35K 次閱讀 Spark

原文 http://www.csdn.net/article/2015-07-16/2825232

Spark是一種快速、通用的計算集群系統，Spark提出的最主要抽象概念是彈性分布式數據集(RDD)，它是一個元素集合，劃分到集群的各個節點上，可以被并行操作。用戶也可以讓Spark保留一個RDD在內存中，使其能在并行操作中被有效的重復使用。Flink是可擴展的批處理和流式數據處理的數據處理平臺，設計思想主要來源于Hadoop、MPP數據庫、流式計算系統等，支持增量迭代計算。

原理

Spark 1.4特點如下所示。

Spark為應用提供了REST API來獲取各種信息，包括jobs、stages、tasks、storage info等。
Spark Streaming增加了UI，可以方便用戶查看各種狀態，另外與Kafka的融合也更加深度，加強了對Kinesis的支持。
Spark SQL（DataFrame）添加ORCFile類型支持，另外還支持所有的Hive metastore。
Spark ML/MLlib的ML pipelines愈加成熟，提供了更多的算法和工具。
Tungsten項目的持續優化，特別是內存管理、代碼生成、垃圾回收等方面都有很多改進。
SparkR發布，更友好的R語法支持。

Spark與Flink：對比與分析

圖1 Spark架構圖

Spark與Flink：對比與分析

圖2 Flink架構圖

Spark與Flink：對比與分析

圖3 Spark生態系統圖

Flink 0.9特點如下所示。

DataSet API 支持Java、Scala和Python。
DataStream API支持Java and Scala。
Table API支持類SQL。
有機器學習和圖處理（Gelly）的各種庫。
有自動優化迭代的功能，如有增量迭代。
支持高效序列化和反序列化，非常便利。
與Hadoop兼容性很好。

Spark與Flink：對比與分析

圖4 Flink生態系統圖

分析對比

性能對比

首先它們都可以基于內存計算框架進行實時計算，所以都擁有非常好的計算性能。經過測試，Flink計算性能上略好。

測試環境：

CPU：7000個；
內存：單機128GB；
版本：Hadoop 2.3.0，Spark 1.4，Flink 0.9
數據：800MB，8GB，8TB；
算法：K-means：以空間中K個點為中心進行聚類，對最靠近它們的對象歸類。通過迭代的方法，逐次更新各聚類中心的值，直至得到最好的聚類結果。
迭代：K=10，3組數據

Spark與Flink：對比與分析

圖5 迭代次數

總結：Spark和Flink全部都運行在Hadoop YARN上，性能為Flink > Spark > Hadoop(MR)，迭代次數越多越明顯，性能上，Flink優于Spark和Hadoop最主要的原因是Flink支持增量迭代，具有對迭代自動優化的功能。

流式計算比較

它們都支持流式計算，Flink是一行一行處理，而Spark是基于數據片集合（RDD）進行小批量處理，所以Spark在流式處理方面，不可避免增加一些延時。Flink的流式計算跟Storm性能差不多，支持毫秒級計算，而Spark則只能支持秒級計算。

與Hadoop兼容

計算的資源調度都支持YARN的方式

數據存取都支持HDFS、HBase等數據源。

Flink對Hadoop有著更好的兼容，如可以支持原生HBase的TableMapper和TableReducer，唯一不足是現在只支持老版本的MapReduce方法，新版本的MapReduce方法無法得到支持，Spark則不支持TableMapper和TableReducer這些方法。

SQL支持

都支持，Spark對SQL的支持比Flink支持的范圍要大一些，另外Spark支持對SQL的優化，而Flink支持主要是對API級的優化。

計算迭代

delta-iterations，這是Flink特有的，在迭代中可以顯著減少計算，圖6、圖7、圖8是Hadoop(MR)、Spark和Flink的迭代流程。

Spark與Flink：對比與分析

圖6 Hadoop（MR）迭代流程

Spark與Flink：對比與分析

圖7 Spark迭代流程

Spark與Flink：對比與分析

圖8 Flink迭代流程

Flink自動優化迭代程序具體流程如圖9所示。

Spark與Flink：對比與分析

圖9 Flink自動優化迭代程序具體流程

社區支持

Spark社區活躍度比Flink高很多。

總結

Spark和Flink都支持實時計算，且都可基于內存計算。Spark后面最重要的核心組件仍然是Spark SQL，而在未來幾次發布中，除了性能上更加優化外（包括代碼生成和快速Join操作），還要提供對SQL語句的擴展和更好地集成。至于Flink，其對于流式計算和迭代計算支持力度將會更加增強。無論是Spark、還是Flink的發展重點，將是數據科學和平臺API化，除了傳統的統計算法外，還包括學習算法，同時使其生態系統越來越完善。

Spark與Flink：對比與分析 作者： 盧億雷