登錄
注冊
首頁
項目
經驗
代碼
文庫
問答
博客
資訊
Spark SQL
(共
11
篇經驗)
0
推薦
28K
瀏覽
SparkSQL-從DataFrame說起
本著更好地理解大數據生態圈的本意以及工作的需要,前段時間熟悉了SQL查詢引擎SparkSQL、Hadoop文件格式Parquet/CarbonData、大數據基準測試標準TPCDS/TPCH等相...
MarthaRagan
7年前
數據庫
Spark SQL
0
推薦
19K
瀏覽
如何讓你的 Spark SQL 查詢加速數十倍?
傳統的數據庫通常以行單位做數據存儲,而列式存儲(后文均以列存儲簡稱)以列為單位做數據存儲
gentlesie
8年前
SQL
Spark SQL
0
推薦
12K
瀏覽
為什么說Spark SQL遠遠超越了MPP SQL
這里說的并不是性能,因為我沒嘗試對比過(下文會有簡單的說明),而是嘗試從某種更高一層次的的角度去看,為什么Spark SQL 是遠遠超越MPP SQL的。
GustavoGaga
8年前
SQL
Spark SQL
分布式/云計算/大數據
0
推薦
17K
瀏覽
RDD、DataFrame和DataSet的區別是什么
RDD、DataFrame和DataSet是容易產生混淆的概念,必須對其相互之間對比,才可以知道其中異同:DataFrame多了數據的結構信息,即schema。RDD是分布式的 Java對象的集...
si19891002
8年前
數據挖掘
分布式系統
Spark SQL
0
推薦
64K
瀏覽
Spark SQL編程指南(Python)
Spark SQL允許我們在Spark環境中使用SQL或者Hive SQL執行關系型查詢。它的核心是一個特殊類型的Spark RDD:SchemaRDD。
jopen
9年前
Spark SQL
分布式/云計算/大數據
0
推薦
24K
瀏覽
Databircks連城:Spark SQL結構化數據分析
數據科學家們早已熟悉的R和Pandas等傳統數據分析框架 雖然提供了直觀易用的API,卻局限于單機,無法覆蓋分布式大數據場景。在Spark 1.3.0以Spark SQL原有的SchemaRDD...
jopen
9年前
Spark SQL
分布式/云計算/大數據
0
推薦
61K
瀏覽
Spark SQL性能優化
Spark SQL性能優化
jopen
9年前
Spark SQL
分布式/云計算/大數據
0
推薦
78K
瀏覽
用Apache Spark進行大數據處理——第二部分:Spark SQL
在Apache Spark文章系列的前一篇文章中,我們學習了什么是Apache Spark框架,以及如何用該框架幫助組織處理大數據處理分析的需求。
jopen
9年前
Spark SQL
分布式/云計算/大數據
0
推薦
71K
瀏覽
Spark SQL中對Json支持的詳細介紹
在這篇文章中,我將介紹一下Spark SQL對Json的支持,這個特性是Databricks的開發者們的努力結果,它的目的就是在Spark中使得查詢和創建JSON數據變得非常地簡單。隨著WEB和...
jopen
9年前
Spark SQL
分布式/云計算/大數據
0
推薦
177K
瀏覽
Spark SQL 初探: 使用大數據分析2000萬數據
Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計算框架,Spark基于map reduce算法實現的分布式計算,擁有Hadoop Map...
jopen
9年前
Spark SQL
分布式/云計算/大數據
0
推薦
19K
瀏覽
Spark SQL 代碼簡要閱讀(基于Spark 1.1.0)
Spark SQL允許相關的查詢如SQL,HiveQL或Scala運行在spark上。其核心組件是一個新的RDD:SchemaRDD,SchemaRDDs由 行對象組成,并包含一個描述此行對象的...
jopen
10年前
Spark SQL
分布式/云計算/大數據
經驗分享,提升職場影響力
投稿
熱門問答
熱門文檔
sesese色