登錄
注冊
首頁
項目
經驗
代碼
文庫
問答
博客
資訊
Spark
(共
63
篇資訊)
全部
開源軟件
前端技術
互聯網
IT業界
移動開發
數據庫
操作系統
軟件編程
IT職場
開源資訊投稿,獲得更多曝光機會!
投稿
解析Spark大數據分析框架的核心部件
Spark大數據分析框架的核心部件包含RDD內存數據結構、Streaming流計算框架、GraphX圖計算與網狀數據挖掘、MLlib機器學習支持框架、Spark SQL數據檢索語言、Tachyo...
勿忘初心321
9年前
18139
Hadoop
Spark
數據分析
HDFS
如何運用Spark進行實時數據分析
Apache Hadoop是一個成熟的開發框架,其連接著龐大的生態系統,并且得到了Cloudera、Hortonwork、Yahoo這些卓越機構的支持與貢獻,并且為各個組織提供了許多工具來管理不...
勿忘初心321
9年前
32298
Hadoop
Spark
數據分析
HDFS
使用Akka來優化Spark+ElasticSearch的準實時系統
假如有這樣一個場景:系統每秒鐘都會收到大量的事件,每個事件又包含很多參數,用戶不僅需要準實時地還需要定期地判斷每一種事件、事件的每一種參數值的組合是否超過了系統設定的閾值。面對這一場景,用戶應該...
jopen
9年前
20256
Spark
ElasticSearch
Spark和Hadoop,孰優孰劣?
Spark 已經取代 Hadoop 成為最活躍的開源大數據項目。但是,在選擇大數據框架時,企業不能因此就厚此薄彼。近日,著名大數據專家 Bernard Marr 在一篇 文章 中分析了Spa...
jopen
9年前
16341
Spark
IBM承諾將推動Spark的發展
上個月早些時候在拉斯維加斯舉行的 IBM Insight 2015 大數據分析峰會上, IBM 公司宣布將主要承擔 Apache Spark 項目。正如IBM公司 之前所說 的“這可能將會是下個...
jopen
9年前
13908
Spark
應用Spark解決Kaggle數據科學問題
如何利用高性能分布式計算平臺來解決現實問題一直是人們所關心的話題。近期, comSysto公司 的Danial Bartl就 分享 了該公司研發團隊利用 Spark 平臺解決 Kaggle 競賽...
jopen
9年前
17064
Spark
Spark 數據挖掘 - 利用決策樹預測森林覆蓋面積
預測問題記住一點:最垃圾的預測就是使用平均值,如果你的預測連比直接給出平均值效果都要差,那就省省吧! 統計學誕生一個多世紀之后,隨著現在機器學習和數據科學的產生,我們依舊使用回歸的思想來進行預...
jopen
9年前
32268
Spark
運用Spark加速實時數據分析
Apache Hadoop是一個成熟的開發框架,其連接著龐大的生態系統,并且得到了Cloudera、Hortonwork、Yahoo這些卓越機構的支持與貢獻,并且為各個組織提供了許多工具來管理不...
jopen
9年前
11656
Spark
Storm、Spark和MapReduce 開源分布式計算系統框架比較
比較項 Storm Spark Streaming 分布式計算在許多領域都有廣泛需求,目前流行的分布式計算框架主要有 Hadoop MapReduce, Spark Streaming, Sto...
jopen
9年前
16466
Spark
谷歌推出Dataproc,讓Spark、Hadoop更便宜更快更簡單
近日,谷歌 發布 了Google Cloud Dataproc服務Beta測試版。Cloud Dataproc是一個托管的Spark與Hadoop服務,可以幫助用戶快速創建集群、簡化集群管理及降...
jopen
9年前
8859
Hadoop
Spark
IBM攜手Spark,擁抱機器學習的下一個世代
Spark 是目前相當受歡迎的開源叢集運算架構,相較于 Hadoop,Spark 擁有敏捷快速的效能和便于應用的優勢,因其采用內存儲存數據資料,使它擁有高效運算;而通用的 API 協助使用者編寫...
jopen
9年前
6373
Spark
Spark之后,誰將接手大數據
隨著智能終端數量的極速增加,大數據已經成為當今社會的主題詞。其高容量、高速度和多類型的特征也反映著時代的發展特點。為了能夠挖掘大數據背后的潛在價值,Apache基金會提出了 Hadoop平臺 。...
jopen
9年前
12885
Spark
IBM如何擁抱Spark
Spark 是目前相當火熱的開源計算框架,相對于 Hadoop ,Spark優勢是高性能和易用性。Spark的高性能源于其采用內存儲存數據,應用可以以內存的速度進行運算;Spark的易用性在于通...
jopen
9年前
23892
Spark
Spark與Flink:對比與分析
Spark是一種快速、通用的計算集群系統,Spark提出的最主要抽象概念是彈性分布式數據集(RDD),它是一個元素集合,劃分到集群的各個 節點上,可以被并行操作。用戶也可以讓Spark保留一個R...
jopen
9年前
34743
Spark
Spark 和 Hadoop 是朋友不是敵人
IBM 宣布計劃大規模投資 Spark 相關技術,此項聲明會促使越來越多的工程師學習 Spark 技術,并且大量的企業也會采用 Spark 技術。
jopen
9年前
17287
Hadoop
Spark
通過可視化來了解你的Spark應用程序
【編者按】在" Spark 1.4:SparkR發布,鎢絲計劃鋒芒初露 "一文中,我們有簡單地介紹了1.4版本給Spark注入的新特性,在各個組件的介紹中也提到了新UI給用戶帶來的便捷。而從本文...
jopen
9年前
13638
Spark
Spark 1.4:SparkR發布,鎢絲計劃鋒芒初露
6月11日(美國時間),Spark 1.4版本正式發布,在Spark Core、Spark Streaming、Spark SQL(DataFrame)、Spark ML/MLlib等升級之外,...
jopen
9年前
20979
Spark
三個理由告訴你為什么需要在云端運行Spark
Spark的發展勢頭正猛,可是對主流用戶們來說還是太難了。云外加可視化也許有所幫助。
jopen
9年前
10217
Spark
助人就是助己:IBM宣布大規模資助開源大數據項目Spark
本周一,IBM 宣布 將對開源實時大數據分析項目Apache Spark進行大規模資助,藍色巨人宣稱,其資助的力度之大相當于每年數億美元的投入。 Hadoop技術出自Google、Yahoo這...
jopen
9年前
18185
Spark
Spark 1.4 新特性概述
經過4個RC版本,Spark 1.4最終還是趕在Spark Summit前發布了,本文簡單談下本版本中那些非常重要的新feature和improvement.
gf67
9年前
22439
Spark
1
2
3
4
熱門問答
熱門文檔
sesese色