登錄
注冊
首頁
項目
經驗
代碼
文庫
問答
博客
資訊
Spark
(共
125
篇經驗)
0
推薦
14K
瀏覽
Hadoop和Spark框架的異同
談到大數據,相信大家對Hadoop和Apache Spark這兩個名字并不陌生。但我們往往對它們的理解只是停留在字面上,并沒有對它們進行深入的思考,下面不妨跟我一塊看下它們究竟有什么異同。
oxzr6054
8年前
Hadoop
Spark
分布式/云計算/大數據
0
推薦
57K
瀏覽
讓Spark如虎添翼的Zeppelin - 基礎篇
Spark 是一個非常好的計算平臺,支持多種語言,同時基于內存的計算速度也非常快。整個開源社區也很活躍。
zulo2012
8年前
Spark
Zeppelin
分布式/云計算/大數據
0
推薦
17K
瀏覽
深入淺出Spark(二) 什么是RDD
RDD的官方定義RDD是Spark中的數據抽象,意思是彈性分布式數據集。在邏輯上是一個數據集,在物理上則可以分塊分布在不同的機器上并發運行。
CharlotteOF
8年前
Spark
分布式/云計算/大數據
0
推薦
12K
瀏覽
四兩撥千斤:借助Spark GraphX將QQ千億關系鏈計算提速20倍
騰訊QQ有著國內最大的關系鏈,而共同好友數,屬于社交網絡分析的基本指標之一,是其它復雜指標的基礎。借助Spark GraphX,我們用寥寥100行核心代碼,在高配置的TDW-Spark集群上,只...
watsons
8年前
Spark
分布式/云計算/大數據
GraphX
0
推薦
27K
瀏覽
呼之欲出!比Spark快10倍的Hadoop3.0有哪些實用新特性?
Apache ?hadoop 項目組最新消息,hadoop3.x以后將會調整方案架構,將Mapreduce 基于內存+io+磁盤,共同處理數據。
zfb1226
8年前
Hadoop
Spark
分布式/云計算/大數據
0
推薦
23K
瀏覽
Apache Spark 2.0前瞻:為機器學習模型注入持久性
在所有的這些例子中,如果有了模型的持久性,那么保存和加載模型的問題將變得更容易解決。在即將到來的2.0版本中,通過基于DataFrame的API,Spark機器學習庫MLlib將實現幾乎完整的M...
e鴻619
8年前
數據挖掘
Spark
分布式/云計算/大數據
0
推薦
148K
瀏覽
用Spark進行大數據處理之機器學習篇
在本篇文章,作者將討論機器學習概念以及如何使用Spark MLlib來進行預測分析。后面將會使用一個例子展示Spark MLlib在機器學習領域的強悍。
co880591
8年前
數據挖掘
大數據
Spark
分布式/云計算/大數據
0
推薦
14K
瀏覽
星星之火漸呈燎原之勢:Spark 2.0預覽版重磅來襲
目前Databricks訂閱用戶已經能夠獲取Spark 2.0的技術預覽版。性能提升、SparkSessions以及數據流處理能力將成為新版本的主要發展方向。
zpzdmy
8年前
Spark
分布式/云計算/大數據
0
推薦
25K
瀏覽
Spark性能優化——和shuffle搏斗
Spark的性能分析和調優很有意思,今天再寫一篇。主要話題是shuffle,當然也牽涉一些其他代碼上的小把戲。
xc43fgt66
8年前
性能優化
Spark
分布式/云計算/大數據
0
推薦
68K
瀏覽
Spark的RDD原理以及2.0特性的介紹
王聯輝,曾在騰訊,Intel 等公司從事大數據相關的工作。2013 年 - 2016 年先后負責騰訊 Yarn 集群和 Spark 平臺的運營與研發。曾負責 Intel Hadoop 發行版的 ...
di742088
8年前
數據庫
Spark
分布式/云計算/大數據
0
推薦
35K
瀏覽
讓數據告訴你未來:Spark Streaming+Kudu+Impala構建預測引擎
這篇文章將介紹基于流式API數據來演示如何預測資源需求變化來調整資源分配。
ususking
8年前
Spark
Impala
分布式/云計算/大數據
0
推薦
39K
瀏覽
Spark性能優化指南——高級篇
繼基礎篇講解了每個Spark開發人員都必須熟知的開發調優與資源調優之后,本文作為《Spark性能優化指南》的高級篇,將深入分析數據傾斜調優與shuffle調優,以解決更加棘手的性能問題。
Poppy3869
8年前
性能優化
Spark
分布式/云計算/大數據
0
推薦
43K
瀏覽
SparkNET: 用Spark訓練深度神經網絡
練深度神經網絡是一個非常耗時的過程,比如用卷積神經網絡去訓練一個目標識別任務需要好幾天來訓練。因此,充分利用集群的資源,加快訓練速度成了一個非常重要的領域。不過,當前非常熱門的批處理計算架構 (...
nd4670
8年前
Spark
神經網絡
0
推薦
106K
瀏覽
Spark性能優化指南——基礎篇
在大數據計算領域,Spark已經成為了越來越流行、越來越受歡迎的計算平臺之一。Spark的功能涵蓋了大數據領域的離線批處理、SQL類處理、流式/實時計算、機器學習、圖計算等各種不同類型的計算操作...
TorWortman
8年前
Spark
分布式/云計算/大數據
0
推薦
28K
瀏覽
【原】Learning Spark (Python版) 學習筆記(一)
《Learning Spark》 這本書算是Spark入門的必讀書了,中文版是 《Spark快速大數據分析》 ,不過豆瓣書評很有意思的是,英文原版評分7.4,評論都說入門而已深入不足,中文譯版評...
idvv5744
8年前
Python
Spark
Python開發
0
推薦
35K
瀏覽
基于Apache Spark的機器學習及神經網絡算法和應用
使用高級分析算法(如大規模機器學習、圖形分析和統計建模等)來發現和探索數據是當前流行的思路,在IDF16技術課堂上,英特爾公司軟件開發工程師王以恒分享了《基于Apache Spark的機器學習及...
MarcelaSell
8年前
算法
機器學習
Spark
神經網絡
0
推薦
21K
瀏覽
自定義Spark Partitioner提升es-hadoop Bulk效率
之前寫過一篇文章, 如何提高ElasticSearch 索引速度 。除了對ES本身的優化以外,我現在大體思路是盡量將邏輯外移到Spark上,Spark的分布式計算能力強,cpu密集型的很適合。這...
ukon7587
8年前
Hadoop
Spark
ElasticSearch
分布式/云計算/大數據
0
推薦
56K
瀏覽
Spark在美團的實踐
美團是數據驅動的互聯網服務,用戶每天在美團上的點擊、瀏覽、下單支付行為都會產生海量的日志,這些日志數據將被匯總處理、分析、挖掘與學習,為美團的各種推薦、搜索系統甚至公司戰略目標制定提供數據支持。...
櫻桃大丸子
8年前
Spark
分布式/云計算/大數據
0
推薦
92K
瀏覽
一位算法師工程師的Spark機器學習筆記:構建一個簡單的推薦系統
因為在Spark的MLlib模塊中只有MF算法,文章之后會講述如何使用Matrix Factorization來做相關的推薦。
ilmangle
8年前
算法
Spark
推薦系統
分布式/云計算/大數據
0
推薦
75K
瀏覽
用Apache Spark進行大數據處理——第三部分:Spark流
在“用Apache Spark進行大數據處理”系列的前兩篇文章中,我們看到了Apache Spark框架是什么(第一部分)還有如何使用Spark SQL庫訪問數據的SQL接口(第二部分)。
hgdx4257
8年前
大數據
Spark
分布式/云計算/大數據
1
2
3
4
5
6
7
經驗分享,提升職場影響力
投稿
熱門問答
熱門文檔
sesese色