Spark - 開源經驗 - 第3頁

0推薦

22K 瀏覽

本文簡單介紹了Spark的使用方式。首先介紹Spark的交互界面的API使用，然后介紹如何使用Java、Scala以及Python編寫Spark應用。詳細的介紹請閱讀 Spark Program...

k9988xhil 9年前

Scala Spark 分布式/云計算/大數據

0推薦

10K 瀏覽

本文簡要描述了Spark在集群中各個組件如何運行。想了解如何在集群中啟動Spark應用，請參考 application submission guide 。

fyfg0690 9年前

Spark 分布式/云計算/大數據

0推薦

12K 瀏覽

Spark執行不少操作時都依賴于閉包函數的調用，此時如果閉包函數使用到了外部變量驅動程序在使用行動操作時傳遞到集群中各worker節點任務時就會進行一系列操作：

gy471150 9年前

Spark 分布式/云計算/大數據

0推薦

11K 瀏覽

要想明白spark application調度機制，需要回答一下幾個問題： 1.誰來調度？ 2.為誰調度？ 3.調度什么？ 3.何時調度？ 4.調度算法

NorineXGII 10年前

Spark 分布式/云計算/大數據

0推薦

26K 瀏覽

iOS XMPP：Openfire+spark環境搭建

RosCrowder 10年前

移動開發 Spark Openfire iOS開發

0推薦

30K 瀏覽

目前平臺使用Kafka + Flume的方式進行實時數據接入，Kafka中的數據由業務方負責寫入，這些數據一部分由Spark Streaming進行流式計算；另一部分數據則經由Flume存儲至H...

FloridaStil 10年前

Spark 分布式/云計算/大數據

0推薦

55K 瀏覽

在今天的文章中，我們將著重探討如何利用SMACK（即Spark、Mesos、Akka、Cassandra以及Kafka）堆棧構建可擴展數據處理平臺。雖然這套堆棧僅由數個簡單部分組成，但其能夠實現...

電子天府 10年前

Cassandra Kafka Spark 分布式/云計算/大數據

0推薦

54K 瀏覽

2013年年底，我第一次接觸到Spark，當時我對Spark所使用的Scala語言產生了較大的興趣。一段時間后，我做了一個預測泰坦尼克號船上人員生存概率的數據科學項目。事實證明這是一個更深入了解...

Ros62P 10年前

Spark 分布式/云計算/大數據

0推薦

59K 瀏覽

我們知道有eclipse的Hadoop插件，能夠在eclipse上操作hdfs上的文件和新建mapreduce程序，以及以Run On Hadoop方式運行程序。那么我們可不可以直接在eclip...

ZXF0109521 10年前

Eclipse Spark YARN 分布式/云計算/大數據

0推薦

15K 瀏覽

Tungsten-sort 算不得一個全新的shuffle 方案，它在特定場景下基于類似現有的Sort Based Shuffle處理流程，對內存/CPU/Cache使用做了非常大的優化。帶來高...

961408017 10年前

Spark 分布式/云計算/大數據

0推薦

56K 瀏覽

《深入理解Spark：核心思想與源碼分析》一書第一章的內容請看鏈接《第1章環境準備》

沒心沒肺 10年前

Spark 分布式/云計算/大數據

0推薦

13K 瀏覽

本文使用Scala2.10.6，sbt。請自行提前裝好。

daidai141 10年前

Spark 分布式/云計算/大數據

0推薦

27K 瀏覽

針對這段時間所學的做了一個簡單的綜合應用，應用的場景為統計一段時間內各個小區的網絡信號覆蓋率，計算公式如下所示：

jopen 10年前

Redis Kafka Spark 分布式/云計算/大數據

0推薦

78K 瀏覽

首先，要搞清楚Spark的幾個基本概念和原則，否則系統的性能調優無從談起：

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

22K 瀏覽

Spark是基于內存的分布式計算引擎，以處理的高效和穩定著稱。然而在實際的應用開發過程中，開發者還是會遇到種種問題，其中一大類就是和性能相關。在本文中，筆者將結合自身實踐，談談如何盡可能地提高應用程序性能。

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

21K 瀏覽

Apache 基金會下的 Spark 再次引爆了大數據的話題。帶著比 Hadoop MapReduce 速度要快 100 倍的承諾以及更加靈活方便的 API，一些人認為這或許預示著 Hadoop...

jopen 10年前

MapReduce Spark 分布式/云計算/大數據

0推薦

23K 瀏覽

正如你所知，spark實現了多種shuffle方法，通過 spark.shuffle.manager來確定。暫時總共有三種：hash shuffle、sort shuffle和tungsten-...

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

12K 瀏覽

正如你所知，spark實現了多種shuffle方法，通過 spark.shuffle.manager來確定。暫時總共有三種：hash shuffle、sort shuffle和tungsten-...

jopen 10年前

Spark 哈希表分布式/云計算/大數據

0推薦

8K 瀏覽

Spark中最核心的概念為 RDD（Resilient Distributed DataSets）中文為：彈性分布式數據集，RDD為對分布式內存對象的抽象它表示一個被分區不可變且能 ...

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

23K 瀏覽

在Spark0.6.0 版本開始支持 YARN 模式，隨后的版本在逐漸地完善。

jopen 10年前

Spark YARN 分布式/云計算/大數據

Spark 1.6.0 新手快速入門

《Spark官方文檔》集群模式概覽

Spark——共享變量

Spark Application的調度算法

iOS XMPP：Openfire+spark環境搭建

Spark使用CombineTextInputFormat緩解小文件過多導致Task數目過多的問題

數據處理平臺架構中的SMACK組合：Spark、Mesos、Akka、Cassandra以及Kafka

Apache Spark介紹及案例展示

在Eclipse上運行Spark(Standalone,Yarn-Client)

Spark Tungsten-sort Based Shuffle 分析

Spark設計理念與基本架構

Spark本地開發環境搭建

kafka+spark streaming+redis學習

Spark的性能調優

淺談Spark應用程序的性能調優

不同的瑞士軍刀：對比 Spark 和 MapReduce

Spark Shuffle之Sort Shuffle

Spark Shuffle之Hash Shuffle

Spark核心——RDD

在YARN上運行Spark

熱門問答

熱門文檔