• 解析Spark大數據分析框架的核心部件

    Spark大數據分析框架的核心部件包含RDD內存數據結構、Streaming流計算框架、GraphX圖計算與網狀數據挖掘、MLlib機器學習支持框架、Spark SQL數據檢索語言、Tachyo...
    勿忘初心321 9年前    18139   

    如何運用Spark進行實時數據分析

    Apache Hadoop是一個成熟的開發框架,其連接著龐大的生態系統,并且得到了Cloudera、Hortonwork、Yahoo這些卓越機構的支持與貢獻,并且為各個組織提供了許多工具來管理不...
    勿忘初心321 9年前    32298   

    使用Akka來優化Spark+ElasticSearch的準實時系統

    假如有這樣一個場景:系統每秒鐘都會收到大量的事件,每個事件又包含很多參數,用戶不僅需要準實時地還需要定期地判斷每一種事件、事件的每一種參數值的組合是否超過了系統設定的閾值。面對這一場景,用戶應該...
    jopen 9年前    20256   

    Spark和Hadoop,孰優孰劣?

    Spark 已經取代 Hadoop 成為最活躍的開源大數據項目。但是,在選擇大數據框架時,企業不能因此就厚此薄彼。近日,著名大數據專家 Bernard Marr 在一篇 文章 中分析了Spa...
    jopen 9年前    16341   

    IBM承諾將推動Spark的發展

    上個月早些時候在拉斯維加斯舉行的 IBM Insight 2015 大數據分析峰會上, IBM 公司宣布將主要承擔 Apache Spark 項目。正如IBM公司 之前所說 的“這可能將會是下個...
    jopen 9年前    13908   

    應用Spark解決Kaggle數據科學問題

    如何利用高性能分布式計算平臺來解決現實問題一直是人們所關心的話題。近期, comSysto公司 的Danial Bartl就 分享 了該公司研發團隊利用 Spark 平臺解決 Kaggle 競賽...
    jopen 9年前    17064   

    Spark 數據挖掘 - 利用決策樹預測森林覆蓋面積

    預測問題記住一點:最垃圾的預測就是使用平均值,如果你的預測連比直接給出平均值效果都要差,那就省省吧! 統計學誕生一個多世紀之后,隨著現在機器學習和數據科學的產生,我們依舊使用回歸的思想來進行預...
    jopen 9年前    32268   

    運用Spark加速實時數據分析

    Apache Hadoop是一個成熟的開發框架,其連接著龐大的生態系統,并且得到了Cloudera、Hortonwork、Yahoo這些卓越機構的支持與貢獻,并且為各個組織提供了許多工具來管理不...
    jopen 9年前    11656   

    Storm、Spark和MapReduce 開源分布式計算系統框架比較

    比較項 Storm Spark Streaming 分布式計算在許多領域都有廣泛需求,目前流行的分布式計算框架主要有 Hadoop MapReduce, Spark Streaming, Sto...
    jopen 9年前    16466   

    谷歌推出Dataproc,讓Spark、Hadoop更便宜更快更簡單

    近日,谷歌 發布 了Google Cloud Dataproc服務Beta測試版。Cloud Dataproc是一個托管的Spark與Hadoop服務,可以幫助用戶快速創建集群、簡化集群管理及降...
    jopen 9年前    8859   

    IBM攜手Spark,擁抱機器學習的下一個世代

    Spark 是目前相當受歡迎的開源叢集運算架構,相較于 Hadoop,Spark 擁有敏捷快速的效能和便于應用的優勢,因其采用內存儲存數據資料,使它擁有高效運算;而通用的 API 協助使用者編寫...
    jopen 9年前    6373   

    Spark之后,誰將接手大數據

    隨著智能終端數量的極速增加,大數據已經成為當今社會的主題詞。其高容量、高速度和多類型的特征也反映著時代的發展特點。為了能夠挖掘大數據背后的潛在價值,Apache基金會提出了 Hadoop平臺 。...
    jopen 9年前    12885   

    IBM如何擁抱Spark

    Spark 是目前相當火熱的開源計算框架,相對于 Hadoop ,Spark優勢是高性能和易用性。Spark的高性能源于其采用內存儲存數據,應用可以以內存的速度進行運算;Spark的易用性在于通...
    jopen 9年前    23892   

    Spark與Flink:對比與分析

    Spark是一種快速、通用的計算集群系統,Spark提出的最主要抽象概念是彈性分布式數據集(RDD),它是一個元素集合,劃分到集群的各個 節點上,可以被并行操作。用戶也可以讓Spark保留一個R...
    jopen 9年前    34743   

    Spark 和 Hadoop 是朋友不是敵人

    IBM 宣布計劃大規模投資 Spark 相關技術,此項聲明會促使越來越多的工程師學習 Spark 技術,并且大量的企業也會采用 Spark 技術。
    jopen 9年前    17287   

    通過可視化來了解你的Spark應用程序

    【編者按】在" Spark 1.4:SparkR發布,鎢絲計劃鋒芒初露 "一文中,我們有簡單地介紹了1.4版本給Spark注入的新特性,在各個組件的介紹中也提到了新UI給用戶帶來的便捷。而從本文...
    jopen 9年前    13638   

    Spark 1.4:SparkR發布,鎢絲計劃鋒芒初露

    6月11日(美國時間),Spark 1.4版本正式發布,在Spark Core、Spark Streaming、Spark SQL(DataFrame)、Spark ML/MLlib等升級之外,...
    jopen 9年前    20979   

    三個理由告訴你為什么需要在云端運行Spark

    Spark的發展勢頭正猛,可是對主流用戶們來說還是太難了。云外加可視化也許有所幫助。
    jopen 9年前    10217   

    助人就是助己:IBM宣布大規模資助開源大數據項目Spark

    本周一,IBM 宣布 將對開源實時大數據分析項目Apache Spark進行大規模資助,藍色巨人宣稱,其資助的力度之大相當于每年數億美元的投入。 Hadoop技術出自Google、Yahoo這...
    jopen 9年前    18185   

    Spark 1.4 新特性概述

    經過4個RC版本,Spark 1.4最終還是趕在Spark Summit前發布了,本文簡單談下本版本中那些非常重要的新feature和improvement.
    gf67 9年前    22439   
    1 2 3 4

    熱門問答

    熱門文檔

  • sesese色