登錄
注冊
首頁
項目
經驗
代碼
文庫
問答
博客
資訊
Spark
(共
125
篇經驗)
0
推薦
10K
瀏覽
Hadoop和Spark的處理模型比較
Apache Spark的高性能一定程度上取決于它采用的異步并發模型(這里指server/driver端采用的模型),這與Hadoop 2.0(包括YARN和MapReduce)是一致的。Had...
jopen
9年前
Hadoop
Spark
分布式/云計算/大數據
0
推薦
19K
瀏覽
使用Docker在本地搭建hadoop,spark集群
本環境使用的單個宿主主機,而不是跨主機集群,本spark集群環境存在的意義可能在于便于本地開發測試使用,非常輕量級和便捷。這個部署過程,最好在之前有過一定的hadoop,spark集群部署經驗的...
jopen
9年前
Hadoop
Spark
Docker
分布式/云計算/大數據
0
推薦
21K
瀏覽
Spark的性能調優
下面這些關于Spark的性能調優項,有的是來自官方的,有的是來自別的的工程師,有的則是我自己總結的。
jopen
9年前
Spark
分布式/云計算/大數據
0
推薦
49K
瀏覽
基于Spark的機器學習經驗
這篇內容基于我去年的一些感悟寫的,但是今年才在Stuq 的微信群做的分享。從技術角度而言,對Spark的掌握和使用還是顯得很手生的。但是今天一位做數據分析相關的朋友說,受這篇內容影響,他接受了 ...
jopen
9年前
Spark
分布式/云計算/大數據
0
推薦
17K
瀏覽
Spark Streaming 源碼解析系列
作為跑在商業硬件上的大數據處理框架,Apache Hadoop 在誕生后的幾年內(2005~今)火的一塌糊涂,幾乎成為了業界處理大數據的事實上的標準工具
dfd7
9年前
Spark
分布式/云計算/大數據
0
推薦
7K
瀏覽
Spark如何解決常見的Top N問題
假設我們有一張各個產品線URL的訪問記錄表,該表僅僅有兩個字段:product、url,我們需要統計各個產品線下訪問次數前10的URL是哪些?
jopen
9年前
Spark
分布式/云計算/大數據
0
推薦
10K
瀏覽
Spark 集群概述
本篇博客簡述 Spark 集群相關的概念。 Spark 的"集群"不是提供運算服務的,而是一種資源分配的調度器。 執行任務的 Spark 進程作為客戶端向"集群"申請資源(運算節...
jopen
9年前
Spark
分布式/云計算/大數據
0
推薦
13K
瀏覽
基于Spark和Flask的一個可伸縮的電影推薦系統
這份Apache Spark教程可以指導你逐步了解如何使用 MovieLens 數據集,基于 協同過濾 建立一個電影推薦系統。協同過濾使用 Spark的交替最小方差(ALS) 算法。
jopen
9年前
推薦引擎
Spark
0
推薦
41K
瀏覽
Spark處理Json格式數據(Python)
Spark能夠自動推斷出Json數據集的“數據模式”(Schema),并將它加載為一個SchemaRDD實例。這種“自動”的行為是通過下述兩種方法實現的:
jopen
9年前
Spark
分布式/云計算/大數據
0
推薦
73K
瀏覽
如何使用Spark ALS實現協同過濾
本文主要記錄最近一段時間學習和實現Spark MLlib中的協同過濾的一些總結,希望對大家熟悉Spark ALS算法有所幫助。 更新:
jopen
9年前
Spark
分布式/云計算/大數據
0
推薦
45K
瀏覽
Spark性能調優
通常我們對一個系統進行性能優化無怪乎兩個步驟——性能監控和參數調整,本文主要分享的也是這兩方面內容。
jopen
9年前
Spark
分布式/云計算/大數據
0
推薦
208K
瀏覽
Spark運行環境的安裝
Spark功能還是蠻強的,安裝的東西可是不少,好在搞完一次就可以一直用(除非用不上)。這里介紹安裝需要的軟件和步驟。不同機器可能還有些設置不一樣的,需要自己去摸索,畢竟這個是開源軟件,好事是有問...
jopen
9年前
Spark
分布式/云計算/大數據
0
推薦
53K
瀏覽
關于Spark的基本概念和特性簡介
Spark是近年來發展較快的分布式并行數據處理框架,可以與Hadoop聯合使用,增強Hadoop的性能。同時,Spark還增加了內存緩存、流數據處理、圖數據處理等更為高級的數據處理能力。這里簡單...
jopen
9年前
Spark
分布式/云計算/大數據
0
推薦
22K
瀏覽
怎樣利用Spark Streaming和Hadoop實現近實時的會話連接
這個 Spark Streaming 樣例是一個可持久化到Hadoop近實時會話的很好的例子。 Spark Streaming 是Apache Spark 中最有趣的組件之一。你用Spa...
jopen
9年前
Hadoop
Spark
分布式/云計算/大數據
0
推薦
13K
瀏覽
Spark學習筆記之淺釋
Spark是一個基于內存計算的開源集群計算系統,目的是讓數據分析更加快速。 Spark非常小巧玲瓏,由加州伯克利大學AMP實驗室的小團隊開發。使用的語言 是Scala,項目...
jopen
9年前
Spark
分布式/云計算/大數據
0
推薦
31K
瀏覽
Spark的編譯
由于Spark的運行環境的多樣性,如可以運行在hadoop的yarn上,這樣就必須要對Spark的源碼進行編譯。
pdce
9年前
Spark
分布式/云計算/大數據
0
推薦
150K
瀏覽
Spark + ansj 對大數據量中文進行分詞
目前的分詞器大部分都是單機服務器進行分詞,或者使用hadoop mapreduce對存儲在hdfs中大量的數據文本進行分詞。由于mapreduce的速度較慢,相對spark來說代碼書寫較繁瑣。本...
x286
9年前
中文分詞
Spark
0
推薦
254K
瀏覽
Ubuntu下Spark開發環境搭建
配置Ubuntu下使用Python開發Spark應用
dgy7
10年前
Spark
分布式/云計算/大數據
0
推薦
211K
瀏覽
Spark 入門(Python、Scala 版)
本文中,我們將首先討論如何在本地機器上利用Spark進行簡單分析。然后,將在入門級水平探索Spark,了解Spark是什么以及它如何工作(希望可以激發更多探索)。最后兩節將開始通過命令行與Spa...
efbb
10年前
Spark
分布式/云計算/大數據
0
推薦
18K
瀏覽
顛覆大數據分析之Spark彈性數據集
Spark中迭代式機器學習算法的數據流可以通過圖2.3來進行理解。將它和圖2.1中Hadoop MR的迭代式機器學習的數據流比較一下。你會發現在Hadoop
likeo
10年前
Spark
分布式/云計算/大數據
1
2
3
4
5
6
7
經驗分享,提升職場影響力
投稿
熱門問答
熱門文檔
sesese色