Spark - 開源經驗 - 第4頁

0推薦

10K 瀏覽

Apache Spark的高性能一定程度上取決于它采用的異步并發模型（這里指server/driver端采用的模型），這與Hadoop 2.0（包括YARN和MapReduce）是一致的。Had...

jopen 10年前

Hadoop Spark 分布式/云計算/大數據

0推薦

19K 瀏覽

本環境使用的單個宿主主機，而不是跨主機集群，本spark集群環境存在的意義可能在于便于本地開發測試使用，非常輕量級和便捷。這個部署過程，最好在之前有過一定的hadoop，spark集群部署經驗的...

jopen 10年前

Hadoop Spark Docker 分布式/云計算/大數據

0推薦

21K 瀏覽

下面這些關于Spark的性能調優項，有的是來自官方的，有的是來自別的的工程師，有的則是我自己總結的。

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

49K 瀏覽

這篇內容基于我去年的一些感悟寫的，但是今年才在Stuq 的微信群做的分享。從技術角度而言，對Spark的掌握和使用還是顯得很手生的。但是今天一位做數據分析相關的朋友說，受這篇內容影響，他接受了 ...

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

17K 瀏覽

作為跑在商業硬件上的大數據處理框架，Apache Hadoop 在誕生后的幾年內（2005~今）火的一塌糊涂，幾乎成為了業界處理大數據的事實上的標準工具

dfd7 10年前

Spark 分布式/云計算/大數據

0推薦

7K 瀏覽

假設我們有一張各個產品線URL的訪問記錄表，該表僅僅有兩個字段：product、url，我們需要統計各個產品線下訪問次數前10的URL是哪些？

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

10K 瀏覽

本篇博客簡述 Spark 集群相關的概念。 Spark 的＂集群＂不是提供運算服務的，而是一種資源分配的調度器。執行任務的 Spark 進程作為客戶端向＂集群＂申請資源(運算節...

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

13K 瀏覽

這份Apache Spark教程可以指導你逐步了解如何使用 MovieLens 數據集,基于協同過濾建立一個電影推薦系統。協同過濾使用 Spark的交替最小方差（ALS）算法。

jopen 10年前

推薦引擎 Spark

0推薦

41K 瀏覽

Spark能夠自動推斷出Json數據集的“數據模式”（Schema），并將它加載為一個SchemaRDD實例。這種“自動”的行為是通過下述兩種方法實現的：

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

73K 瀏覽

本文主要記錄最近一段時間學習和實現Spark MLlib中的協同過濾的一些總結，希望對大家熟悉Spark ALS算法有所幫助。更新：

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

45K 瀏覽

通常我們對一個系統進行性能優化無怪乎兩個步驟——性能監控和參數調整，本文主要分享的也是這兩方面內容。

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

208K 瀏覽

Spark功能還是蠻強的，安裝的東西可是不少，好在搞完一次就可以一直用（除非用不上）。這里介紹安裝需要的軟件和步驟。不同機器可能還有些設置不一樣的，需要自己去摸索，畢竟這個是開源軟件，好事是有問...

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

53K 瀏覽

Spark是近年來發展較快的分布式并行數據處理框架，可以與Hadoop聯合使用，增強Hadoop的性能。同時，Spark還增加了內存緩存、流數據處理、圖數據處理等更為高級的數據處理能力。這里簡單...

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

22K 瀏覽

這個 Spark Streaming 樣例是一個可持久化到Hadoop近實時會話的很好的例子。 Spark Streaming 是Apache Spark 中最有趣的組件之一。你用Spa...

jopen 10年前

Hadoop Spark 分布式/云計算/大數據

0推薦

13K 瀏覽

Spark是一個基于內存計算的開源集群計算系統，目的是讓數據分析更加快速。 Spark非常小巧玲瓏，由加州伯克利大學AMP實驗室的小團隊開發。使用的語言是Scala，項目...

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

31K 瀏覽

由于Spark的運行環境的多樣性，如可以運行在hadoop的yarn上，這樣就必須要對Spark的源碼進行編譯。

pdce 10年前

Spark 分布式/云計算/大數據

0推薦

150K 瀏覽

目前的分詞器大部分都是單機服務器進行分詞，或者使用hadoop mapreduce對存儲在hdfs中大量的數據文本進行分詞。由于mapreduce的速度較慢，相對spark來說代碼書寫較繁瑣。本...

x286 10年前

中文分詞 Spark

0推薦

254K 瀏覽

配置Ubuntu下使用Python開發Spark應用

dgy7 10年前

Spark 分布式/云計算/大數據

0推薦

211K 瀏覽

本文中，我們將首先討論如何在本地機器上利用Spark進行簡單分析。然后，將在入門級水平探索Spark，了解Spark是什么以及它如何工作（希望可以激發更多探索）。最后兩節將開始通過命令行與Spa...

efbb 10年前

Spark 分布式/云計算/大數據

0推薦

18K 瀏覽

Spark中迭代式機器學習算法的數據流可以通過圖2.3來進行理解。將它和圖2.1中Hadoop MR的迭代式機器學習的數據流比較一下。你會發現在Hadoop

likeo 10年前

Spark 分布式/云計算/大數據

Hadoop和Spark的處理模型比較

使用Docker在本地搭建hadoop，spark集群

Spark的性能調優

基于Spark的機器學習經驗

Spark Streaming 源碼解析系列

Spark如何解決常見的Top N問題

Spark 集群概述

基于Spark和Flask的一個可伸縮的電影推薦系統

Spark處理Json格式數據（Python）

如何使用Spark ALS實現協同過濾

Spark性能調優

Spark運行環境的安裝

關于Spark的基本概念和特性簡介

怎樣利用Spark Streaming和Hadoop實現近實時的會話連接

Spark學習筆記之淺釋

Spark的編譯

Spark + ansj 對大數據量中文進行分詞

Ubuntu下Spark開發環境搭建

Spark 入門（Python、Scala 版）

顛覆大數據分析之Spark彈性數據集

熱門問答

熱門文檔