Spark - 開源經驗 - 第5頁

0推薦

84K 瀏覽

3月31日是 Spark 五周年紀念日，從第一個公開發布的版本開始，Spark走過了不平凡的5年：從剛開始的默默無聞，到13年的鵲起，14年的大爆發。Spark核心之上有分布式的機器學習，SQL...

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

38K 瀏覽

RDD是Spark中的抽象數據結構類型，任何數據在Spark中都被表示為RDD。從編程的角度來看，RDD可以簡單看成是一個數組。和普通數組的區別是，RDD中的數據是分區存儲的，這樣不同分區的數...

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

49K 瀏覽

Storm和Spark Streaming兩個都是分布式流處理的開源框架。但是這兩者之間的區別還是很大的，正如你將要在下文看到的。

6x7d 10年前

Spark 分布式/云計算/大數據

0推薦

16K 瀏覽

Spark是一個微型的Java Web框架，它的靈感來自于Sinatra，它的目的是讓你以最小的代價創建出一個Java Web應用。

jopen 10年前

Web框架 Spark

0推薦

40K 瀏覽

Spark on Yarn分yarn-cluster和yarn-client兩種模式。本文通過Cluster模式的TaskScheduler實現入手，梳理一遍spark on yarn的大致實現邏輯。

c6g3 11年前

Spark 分布式/云計算/大數據

0推薦

21K 瀏覽

順著昨天spark standalone實現那篇文章繼續扯淡，看看Mesos Scheduler的兩種實現的異同。對我來說，回過頭再仔細看Spark在這一層的實現，思路又清晰了許多。

jopen 11年前

Spark 分布式/云計算/大數據

0推薦

14K 瀏覽

本文不打算從源碼分析的角度看standalone如何實現，甚至有的模塊和類在分析中都是忽略掉的。本文目的是透過spark的standalone模式，看類似spark這種執行模式的系統，...

jopen 11年前

Spark 分布式/云計算/大數據

0推薦

29K 瀏覽

Spark是起源于美國加州大學伯克利分校AMPLab的大數據計算平臺，在2010年開源，目前是Apache軟件基金會的頂級項目。隨著 Spark在大數據計算領域的暫露頭角，越來越多的企業開始...

jopen 11年前

Spark 分布式/云計算/大數據

0推薦

29K 瀏覽

Spark是起源于美國加州大學伯克利分校AMPLab的大數據計算平臺，在2010年開源，目前是Apache軟件基金會的頂級項目。隨著Spark在大數據計算領域的暫露頭角，越來越多的企業開始關注和...

jopen 11年前

Spark 分布式/云計算/大數據

0推薦

109K 瀏覽

Spark是基于內存的大數據分析平臺，由UC Berkely AMP lab發布的一大神器。相比Hadoop而言，其最大的優勢是基于內存，這樣可以極大提高其速度和通用性。

by57 11年前

Spark 分布式/云計算/大數據

0推薦

24K 瀏覽

本文詳細總結Spark分布式集群的安裝步驟，幫助想要學習Spark的技術愛好者快速搭建Spark的學習研究環境。

jopen 11年前

Spark 分布式/云計算/大數據

0推薦

45K 瀏覽

本文嘗試從源碼層面梳理Spark在任務調度與資源分配上的做法。

jopen 11年前

Spark 分布式/云計算/大數據

0推薦

58K 瀏覽

Spark 基于內存計算，提高了在大數據環境下數據處理的實時性，同時保證了高容錯性和高可伸縮性，允許用戶將Spark 部署在大量廉價硬件之上，形成集群。

jopen 11年前

Spark 分布式/云計算/大數據

0推薦

30K 瀏覽

最近從Hadoop 1.x 轉到Hadoop 2.x 同時將一些java 程序轉為Scala的程序將平臺上的代碼減少了很多，在實施的過程中，開到一些Spark相關的YARN的部署上都是基于之前的...

jopen 11年前

Spark 分布式/云計算/大數據

0推薦

65K 瀏覽

Spark是一個通用的分布式內存計算框架，本文主要研討Spark的核心數據結構RDD的設計思路，及其在內存上的容錯。內容基于論文

jopen 11年前

Spark 分布式/云計算/大數據

0推薦

13K 瀏覽

Databricks Spark 知識庫

jopen 11年前

Spark 分布式/云計算/大數據

0推薦

114K 瀏覽

hadoop和spark集群的搭建，主要用到了hadoop2.5.2、spark1.2.0、scala2.11.4

jopen 11年前

Spark 分布式/云計算/大數據

0推薦

64K 瀏覽

對于大多數的大數據而言，實時性是其所應具備的重要屬性，信息的到達和獲取應滿足實時性的要求，而信息的價值需在其到達那刻展現才能利益最大化，例如電商網站，網站推薦系統期望能實時根據顧客的點擊行為分析...

jopen 11年前

Spark 分布式/云計算/大數據

0推薦

33K 瀏覽

視頻類網站大數據生態 Spark在愛奇藝的應用實踐

jopen 11年前

Spark 分布式/云計算/大數據

0推薦

136K 瀏覽

Spark可以在三個地方配置系統: Spark屬性控制大部分的應用參數。這些屬性可以通過SparkConf對象, 或者Java系統屬性. 環境變量可以為每臺機器配置，比如IP地址，通...

jopen 11年前

Spark 分布式/云計算/大數據

Spark 偽分布式 & 全分布式安裝指南

Spark RDD API詳解(一) Map和Reduce

Storm和Spark Streaming框架對比

Java的微型Web框架 Spark 簡易入門教程

Spark on Yarn: Cluster模式Scheduler實現

Spark on Mesos: 粗粒度與細粒度實現分析

梳理對Spark Standalone的理解

大數據計算平臺Spark內核全面解讀

Spark 內核研究

Spark本地安裝和簡單示例

搭建Spark完全分布式集群

Spark的任務調度

Spark初探

Spark on Yarn

分布式計算 Spark 入門介紹

Databricks Spark 知識庫

搭建hadoop/spark集群環境

網易大數據平臺的Spark技術實踐

視頻類網站大數據生態 Spark在愛奇藝的應用實踐

Spark 配置指南

熱門問答

熱門文檔