Apache Spark 1.6 正式發布,性能大幅度提升

jopen 8年前發布 | 18K 次閱讀

Apache Spark 1.6 正式發布,性能大幅度提升

Apache Spark 1.6 正式發布,Spark 1.6 包含 1000+ 分支,主要是三個大方面的改進:性能提升,新的 Dataset API 和數據科學功能的擴展。這是社區開發非常重要的一個里程碑:Spark 貢獻者人數突破 1000 人,比 2014 年多一倍。Apache Spark 1.6 正式發布,性能大幅度提升

性能提升

根據 Apache Spark 官方 2015 年 Spark Survey,有 91% 的用戶想要提升 Spark 的性能。

  • Parquet 性能

  • 自動化內存管理

  • 流狀態管理速度提升 10X

Dataset API

Spark 團隊引入了 DataFrames。

新的科學計算功能

  • 機器學習管道持久性

  • 新的算法和功能:

    • univariate and bivariate statistics

    • survival analysis

    • normal equation for least squares

    • bisecting K-Means clustering

    • online hypothesis testing

    • Latent Dirichlet Allocation (LDA) in ML Pipelines

    • R-like statistics for GLMs

    • feature interactions in R formula

    • instance weights for GLMs

    • univariate and bivariate statistics in DataFrames

    • LIBSVM data source

    • non-standard JSON data

更多改進內容請看發行說明

Apache Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。

Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。

盡管創建 Spark 是為了支持分布式數據集上的迭代作業,但是實際上它是對 Hadoop 的補充,可以在 Hadoo 文件系統中并行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發,可用來構建大型的、低延遲的數據分析應用程序。

Apache Spark 1.6 正式發布,性能大幅度提升 Apache Spark 1.6 正式發布,性能大幅度提升

來自: http://www.oschina.net/news/69617/apache-spark-1-6-0

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!