• 0推薦
    8K 瀏覽

    大數據(十一) - Mahout

    Apache Mahout是什么 基于MapReduce開發的數據挖掘/機器學習庫 良好的擴展性和容錯性 充分利用了MapRe...
    0推薦
    8K 瀏覽

    大數據(十) - Pig

    Pig是什么 Hadoop上的 數據流執行引擎(由Yahoo!開源) 利用HDFS存儲數據 利用Map...
    0推薦
    14K 瀏覽

    大數據(九) - Hive

    構建在Hadoop之上的 數據倉庫,數據計算使用MR,數據存儲使用HDFS 因為數據計算使用mapreduce,因此通常用于進行離線數據處理 Hive 定義了一種類 SQ...
    0推薦
    14K 瀏覽

    大數據(八) - Sqoop

    Sqoop是什么 Sqoop:SQL-to-Hadoop 連接 傳統關系型數據庫 和 Hadoop 的橋梁 把關系型...
    0推薦
    14K 瀏覽

    大數據(七) - Flume

    flume[flu:m]:日志采集、聚合和傳輸的系統, java語言實現
    0推薦
    13K 瀏覽

    大數據(六) - ZooKeeper

    Zookeeper是什么 是一個針對大型分布式系統的可靠協調系統; 提供的功能包括:配置維護、名字服務、分布式同步、組服務等; 目標就...
    0推薦
    24K 瀏覽

    大數據(五) - HBase

    HBase是一個構建在HDFS上的分布式列存儲系統, 主要用于海量結構化數據存儲, 從邏輯上講,HBase將數據按照表、行和列進行存儲。 HDFS適合批處理場景 不支持數...
    0推薦
    14K 瀏覽

    大數據(四) - MapReduce

    MapReduce適合PB級以上海量數據的離線處理 MapReduce不擅長什么 實時計算 像MySQL一樣,在毫秒級或者秒級內返回結...
    0推薦
    12K 瀏覽

    大數據(三) - YARN

    YARN是資源管理系統,理論上支持多種資源,目前支持CPU和內存兩種資源 YARN產生背景 直接源于MRv1在幾個方面的缺陷 擴展性受限 ...
    0推薦
    25K 瀏覽

    大數據(二) - HDFS

    HDFS優點 高容錯性 數據自動保存多個副本 副本丟失后,自動恢復 適合批處理 移動計...
    0推薦
    23K 瀏覽

    大數據(一) - hadoop生態系統及版本演化

    HDFS:分布式存儲系統(Hadoop Distributed File System):提供了高可靠性、高擴展性和高吞吐率的數據存儲服務 HDFS源自于Google...
    0推薦
    15K 瀏覽

    Gearpump:基于 Akka 的大數據實時處理引擎

    Gearpump:基于 Akka 的大數據實時處理引擎
    0推薦
    27K 瀏覽

    kafka+spark streaming+redis學習

    針對這段時間所學的做了一個簡單的綜合應用,應用的場景為統計一段時間內各個小區的網絡信號覆蓋率,計算公式如下所示:
    0推薦
    78K 瀏覽

    Spark的性能調優

    首先,要搞清楚Spark的幾個基本概念和原則,否則系統的性能調優無從談起:
    0推薦
    26K 瀏覽

    大數據平臺CDH集群離線搭建

    標簽: Cloudera-Manager CDH Hadoop 部署 集群 摘要:管理、部署Hadoop集群需要工具,Cloudera Manager便是其一。本文先是簡要對比了當前的類似工具...
    0推薦
    13K 瀏覽

    Zookeeper注冊中心的搭建

    之所以把本文歸類為Dubbo是因為,博主關于Dubbo的學習筆記都是以Zookeeper作為注冊中心的。
    0推薦
    9K 瀏覽

    yarn的初步理解

    下一代的MapReduce系統框架,也稱為MRv2(MapReduce version 2), 它是一個通用資源管理系統,可為上層應用提供統一的資源管理和調度。 YARN的基本思想是將Jo...
    0推薦
    22K 瀏覽

    淺談Spark應用程序的性能調優

    Spark是基于內存的分布式計算引擎,以處理的高效和穩定著稱。然而在實際的應用開發過程中,開發者還是會遇到種種問題,其中一大類就是和性能相關。在本文中,筆者將結合自身實踐,談談如何盡可能地提高應用程序性能。
    0推薦
    29K 瀏覽

    從零開始搭建Hadoop2.7.1的分布式集群

    網上教程有很多關于Hadoop配置的,但是每一個教程都對應了一個版本信息,有一些教程也存在很大的問題,配置環境,系統環境都沒說清楚。在此我將記錄下來從零搭建Hadoop2.7.1的過程,以及搭建...
    0推薦
    9K 瀏覽

    spark 編程珠璣-RDD 篇

    spark編程珠璣-RDD篇:RDD 有關RDD的基礎概念請閱讀spark官方文檔,或網上搜索其他內容。本文完全是實戰經驗的總結。 惰性求值...
    1 2 3 4 5 6 7 8 9 10

    經驗分享,提升職場影響力

    投稿

    熱門問答

      熱門文檔

      • sesese色