Apache Spark 1.6 正式發布,性能大幅度提升
Apache Spark 1.6 正式發布,Spark 1.6 包含 1000+ 分支,主要是三個大方面的改進:性能提升,新的 Dataset API 和數據科學功能的擴展。這是社區開發非常重要的一個里程碑:Spark 貢獻者人數突破 1000 人,比 2014 年多一倍。
性能提升
根據 Apache Spark 官方 2015 年 Spark Survey,有 91% 的用戶想要提升 Spark 的性能。
-
Parquet 性能
-
自動化內存管理
-
流狀態管理速度提升 10X
Dataset API
Spark 團隊引入了 DataFrames。
新的科學計算功能
-
機器學習管道持久性
-
新的算法和功能:
-
univariate and bivariate statistics
-
survival analysis
-
normal equation for least squares
-
bisecting K-Means clustering
-
online hypothesis testing
-
Latent Dirichlet Allocation (LDA) in ML Pipelines
-
R-like statistics for GLMs
-
feature interactions in R formula
-
instance weights for GLMs
-
univariate and bivariate statistics in DataFrames
-
LIBSVM data source
-
non-standard JSON data
更多改進內容請看發行說明。
Apache Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。
Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。
盡管創建 Spark 是為了支持分布式數據集上的迭代作業,但是實際上它是對 Hadoop 的補充,可以在 Hadoo 文件系統中并行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發,可用來構建大型的、低延遲的數據分析應用程序。
來自: http://www.oschina.net/news/69617/apache-spark-1-6-0