Apache Spark 1.4.1 發布,開源集群計算系統
Apache Spark 1.4.1 發布,此版本是個維護版本,包括一些穩定性修復(DataFrame API, Spark Streaming, PySpark, Spark SQL 和 MLlib),基于 Spark 1.4 分支。強烈建議所有用戶升級到最新版本,此版本貢獻開發者有 85 人。
Spark 1.4.1 現已提供在下載頁面。
更新內容
Data Sources and DataFrames
-
SPARK-8804: Order of UTF8String is not consistent with String if there is any non-ascii character in it
-
SPARK-8406: Race condition when writing Parquet files
-
SPARK-8329: DataSource options parser no longer accepts ‘_’
-
SPARK-8368: ClassNotFoundException in closure for map
-
SPARK-8470: MissingRequirementError for ScalaReflection on user classes
-
SPARK-8358: DataFrame explode with alias and * fails
MLLib
-
SPARK-8151: Pipeline components should correctly implement copy
-
SPARK-8468: Some metrics in RegressionEvaluator should have negative sign
-
SPARK-8736: GBTRegressionModel shouldn’t threshold predictions
-
SPARK-8563: IndexedRowMatrix.computeSVD() yields the U with wrong numCols
PySpark
-
SPARK-8202: Infinite loop during external sort
-
SPARK-8573: Trigger exceptions when invalid operators are used
-
SPARK-8766: Support non ASCII characters in columns
SparkR
-
SPARK-8506: Support for Spark packages when initializing SparkR
-
SPARK-8085: Support for user defined schemas when reading from data sources
更多內容請看發行說明。
Apache Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。
Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。
盡 管創建 Spark 是為了支持分布式數據集上的迭代作業,但是實際上它是對 Hadoop 的補充,可以在 Hadoo 文件系統中并行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發,可用來構建大型的、低延遲的數據分析應用程序。