• 0推薦
    22K 瀏覽

    Spark 1.6.0 新手快速入門

    本文簡單介紹了Spark的使用方式。首先介紹Spark的交互界面的API使用,然后介紹如何使用Java、Scala以及Python編寫Spark應用。詳細的介紹請閱讀 Spark Program...
    0推薦
    10K 瀏覽

    《Spark官方文檔》集群模式概覽

    本文簡要描述了Spark在集群中各個組件如何運行。想了解如何在集群中啟動Spark應用,請參考 application submission guide 。
    0推薦
    12K 瀏覽

    Spark——共享變量

    Spark執行不少操作時都依賴于 閉包函數 的調用,此時如果閉包函數使用到了外部變量驅動程序在使用行動操作時傳遞到集群中各worker節點任務時就會進行一系列操作:
    0推薦
    11K 瀏覽

    Spark Application的調度算法

    要想明白spark application調度機制,需要回答一下幾個問題: 1.誰來調度? 2.為誰調度? 3.調度什么? 3.何時調度? 4.調度算法
    0推薦
    26K 瀏覽

    iOS XMPP:Openfire+spark環境搭建

    iOS XMPP:Openfire+spark環境搭建
    0推薦
    30K 瀏覽

    Spark使用CombineTextInputFormat緩解小文件過多導致Task數目過多的問題

    目前平臺使用Kafka + Flume的方式進行實時數據接入,Kafka中的數據由業務方負責寫入,這些數據一部分由Spark Streaming進行流式計算;另一部分數據則經由Flume存儲至H...
    0推薦
    55K 瀏覽

    數據處理平臺架構中的SMACK組合:Spark、Mesos、Akka、Cassandra以及Kafka

    在今天的文章中,我們將著重探討如何利用SMACK(即Spark、Mesos、Akka、Cassandra以及Kafka)堆棧構建可擴展數據處理平臺。雖然這套堆棧僅由數個簡單部分組成,但其能夠實現...
    0推薦
    54K 瀏覽

    Apache Spark介紹及案例展示

    2013年年底,我第一次接觸到Spark,當時我對Spark所使用的Scala語言產生了較大的興趣。一段時間后,我做了一個預測泰坦尼克號船上人員生存概率的數據科學項目。事實證明這是一個更深入了解...
    0推薦
    59K 瀏覽

    在Eclipse上運行Spark(Standalone,Yarn-Client)

    我們知道有eclipse的Hadoop插件,能夠在eclipse上操作hdfs上的文件和新建mapreduce程序,以及以Run On Hadoop方式運行程序。那么我們可不可以直接在eclip...
    0推薦
    15K 瀏覽

    Spark Tungsten-sort Based Shuffle 分析

    Tungsten-sort 算不得一個全新的shuffle 方案,它在特定場景下基于類似現有的Sort Based Shuffle處理流程,對內存/CPU/Cache使用做了非常大的優化。帶來高...
    0推薦
    56K 瀏覽

    Spark設計理念與基本架構

    《深入理解Spark:核心思想與源碼分析》一書第一章的內容請看鏈接《第1章 環境準備》
    0推薦
    13K 瀏覽

    Spark本地開發環境搭建

    本文使用Scala2.10.6,sbt。請自行提前裝好。
    0推薦
    27K 瀏覽

    kafka+spark streaming+redis學習

    針對這段時間所學的做了一個簡單的綜合應用,應用的場景為統計一段時間內各個小區的網絡信號覆蓋率,計算公式如下所示:
    0推薦
    78K 瀏覽

    Spark的性能調優

    首先,要搞清楚Spark的幾個基本概念和原則,否則系統的性能調優無從談起:
    0推薦
    22K 瀏覽

    淺談Spark應用程序的性能調優

    Spark是基于內存的分布式計算引擎,以處理的高效和穩定著稱。然而在實際的應用開發過程中,開發者還是會遇到種種問題,其中一大類就是和性能相關。在本文中,筆者將結合自身實踐,談談如何盡可能地提高應用程序性能。
    0推薦
    21K 瀏覽

    不同的瑞士軍刀:對比 Spark 和 MapReduce

    Apache 基金會下的 Spark 再次引爆了大數據的話題。帶著比 Hadoop MapReduce 速度要快 100 倍的承諾以及更加靈活方便的 API,一些人認為這或許預示著 Hadoop...
    0推薦
    23K 瀏覽

    Spark Shuffle之Sort Shuffle

    正如你所知,spark實現了多種shuffle方法,通過 spark.shuffle.manager來確定。暫時總共有三種:hash shuffle、sort shuffle和tungsten-...
    0推薦
    12K 瀏覽

    Spark Shuffle之Hash Shuffle

    正如你所知,spark實現了多種shuffle方法,通過 spark.shuffle.manager來確定。暫時總共有三種:hash shuffle、sort shuffle和tungsten-...
    0推薦
    8K 瀏覽

    Spark核心——RDD

    Spark中最核心的概念為 RDD(Resilient Distributed DataSets) 中文為: 彈性分布式數據集 ,RDD為對分布式內存對象的 抽象它表示一個 被分區不可變 且能 ...
    0推薦
    23K 瀏覽

    在YARN上運行Spark

    在Spark0.6.0 版本開始支持 YARN 模式,隨后的版本在逐漸地完善。
    1 2 3 4 5 6 7

    經驗分享,提升職場影響力

    投稿

    熱門問答

      熱門文檔

      • sesese色