• P10

      Hadoop 的兩種開發模式介紹 文檔

    Hadoop的兩種開發模式 一、一種是脫離集群環境的開發: 那么什么是脫離集群環境開發,因為集群也是有一個Java環境的。如果我們編寫程序,脫離了集群,那么就是脫離集群開發。

    小牛牛 2015-05-26   2658   0
    P22

      ZooKeeper 英文說明及相關翻譯 文檔

    ZooKeeper像分布式文件系統一樣擁有層次化的命名空間。唯一的不同之處是每個node可以像其子節點一樣關聯數據,它更像一個允許將文件視為目錄的文件系統。節點的路徑必須是符合規定的、絕對的、以斜線分割的,沒有對相對路徑的解析。

    sdu_edu 2015-05-25   2026   0
    P36

      以Hadoop為核心的大數據開放平臺建設 文檔

    以Hadoop為核心的大數據開放平臺建設孫利兵駕馭大數據大數據技術發展大數據技術發展大數據技術有哪些不足大數據技術本身百花齊放,如何用好每項技術是個難題大數據技術內部融合性不夠大數據技術與其他傳統技術的融合性不夠我們缺少什么?缺乏一個能融合現有大數據技術的技術技術領域如何解決大數據技術應用難的問題?

    w327 2015-05-25   779   0
    P34

      從“被虐”到“落地” - 明略大數據產品演進實踐 文檔

    挖掘隱藏在大數據背后的知識目錄信心爆棚的進擊Hadoop HBase Spark StormImpalaML很快感受到森森的惡意豐富的數據源權力的游戲性能更要命的問題——大數據??問題定義整合多源,異構,實時保護權限,集群,統一分析模型,效率,定制交互可視化,實時響應目錄明略總體思路核心產品組件大數據集群INCR讓傳統應用系統的數據實時整合進數據平臺LogM日志實時采集、處理和整合AcreCell級別的數據訪問權限管理NoahArk集中管理,監控和運維您的系統Data One&SQL One全鏈路數據整合、存儲管理、查詢計算、處理分析的大數據作業平臺

    w327 2015-05-25   473   0
    P15

      基于Hadoop的研究及性能分析 文檔

    摘要在大數據到來的今天,本文首先介紹了Hadoop及其核心技術MapReduce的工作原理。詳細討論了Hadoop推測執行算法和SALS推測執行算法并對它們的性能進行分析。最后,分析了MapReduce框架的通用二路連接算法RSJ。為了提高性能,提出了一種基于DistributedCache的改進算法,通過減少mapper輸出的數據來達到優化的目的。

    mn6e 2015-05-25   2824   0
    P20

      Hadoop 主要子項目介紹 文檔

    Hadoop主要子項目介紹(Pig Zookeeper Hbase Sqoop Avro Chukwa Cassandra )Hive 現 在Hadoop已經發展成為包含多個子項目的集合。雖然其核心內容是MapReduce和Hadoop分布式文件系統(HDFS),但Hadoop下的 Common、Avro、Chukwa、Hive、HBase等子項目也是不可或缺的。它們提供了互補性服務或在核心層上提供了更高層的服務。 1、Hadoop Common 從Hadoop 0.20版本開始,Hadoop Core項目便更名為Common。Common是為Hadoop其他子項目提供支持的常用工具,它主要包括FileSystem、RPC和串行化庫,它 們為在廉價的硬件上搭建云計算環境提供基本的服務,并且為運行在該運平臺上的軟件開發提供了所需的API。

    706394187 2015-05-23   807   0
    P14

      Pig 介紹 文檔

    Pig是一種探索大規模數據集的腳本語言。2)、pig是在HDFS和MapReduce之上的數據流處理語言,它將數據流處理翻譯成多個map和reduce函數,提供更高層次的抽象將程序員從具體的編程中解放出來。Pig?是一種探索大規模數據集的腳本語言。MapReducer的一個主要的缺點就是開發的周期太長了。我們要編寫mapper和reducer,然后對代碼進行編譯打出jar包,提交到本地的JVM或者是hadoop的集群上,最后獲取結果,這個周期是非常耗時的。

    706394187 2015-05-23   2379   0
    P39

      Openstack DASHBOARD 文檔說明 文檔

    Openstack DASHBOARD 文檔說明

    emiliay 2015-05-15   488   0
    P30

      對象存儲系統Swift技術詳解:綜述與概念 文檔

    OpenStack Object Storage(Swift)?是用來創建冗余的、可擴展的對象存儲(引擎)的開源軟件。通過閱讀Swift的技術文檔,我們可以理解其中的設計的原理和實現的方法?。????Swift項目已經進展有兩年了,對外開放也一年有余,在國外的社區你可以獲得許多幫助,但在國內只能找到一些零零散散不齊全的資料,許多人更喜歡坐享其成,而不是參與其中。本人于9月底開始接觸swift,剛開始看文檔的時候一知半解,有幸閱讀了zzcase等人的博客,才得以入門。

    mrj4733865 2015-05-10   806   0
    P7

      大數據存儲和處理技術 文檔

    ?Hadoop:分布式存儲和計算平臺?HDFS:分布式文件系統?MapReduce:分布式計算框架?NOSQL:分布式數據庫?MPP、內存計算與流計算平臺?大數據查詢和分析技術(SQLonHadoop)?Hive:基本的Hadoop查詢和分析?Hive2.0(stinger、presto):Hive的優化和升級?實時互動SQL(impala、drill)?大數據高級分析和可視化技術?數據倉庫與OLAP/OLTP?大數據挖掘與高級分析算法?Mahout?文本、語音、圖像、空間數據分析?實時預測分析?R語言

    loveqiqi 2015-05-09   693   0
    P52

      Openstack Swift 安裝測試報告 文檔

    官方給出的標準架構進行分析,如圖,分別為存儲節點(Storage node)、代理節點(Proxy node)和認證節點(Auth node)三部分。代理節點可以說是Swift的核心,運行著swift-proxy-server進程。它提供Swift API的服務,負責Swift其余組件間的相互通信。對于每個客戶端的請求,它在Ring中查詢相應Account、Container以及Object的位置,并且轉發這些請求。從安全的角度來說,很少有直接暴露底層服務接口的實現方式,這個代理可以做集群。 它提供了Rest-full API,開發者可以通過這個接口快捷構建定制的客戶端與Swift交互。 大量的存儲錯誤也由Proxy Server處理:當一個服務器無法對一個對象的PUT操作進行響應,它將從Ring中查詢一個可以接手的服務器并將請求傳遞給它。

    mrj4733865 2015-05-09   2781   0
    P23

      OpenStack Swift 云存儲多節點部署手冊 文檔

    OpenStack Swift 云存儲安裝手冊

    mrj4733865 2015-05-08   700   0
    P83

      hadoop源碼分析總結 文檔

    目前,基于類似思想的Open Source項目還很多,如Facebook用于用戶分析的Hive。 HDFS作為一個分布式文件系統,是所有這些項目的基礎。分析好HDFS,有利于了解其他系統。由于Hadoop的HDFS和MapReduce是同一個項目,我們就把他們放在一塊,進行分析。 下圖是MapReduce整個項目的頂層包圖和他們的依賴關系。Hadoop包之間的依賴關系比較復雜,原因是HDFS提供了一個分布式文件系統,該系統提供API,可以屏蔽本地文件系統和分布式文件系統,甚至象Amazon S3這樣的在線存儲系統。這就造成了分布式文件系統的實現,或者是分布式文件系統的底層的實現,依賴于某些貌似高層的功能。功能的相互引用,造成了蜘蛛網型的依賴關系。一個典型的例子就是包conf,conf用于讀取系統配置,它依賴于fs,主要是讀取配置文件的時候,需要使用文件系統,而部分的文件系統的功能,在包fs中被抽象了。

    bluesky666 2015-05-05   2182   0
    P11

      Hadoop 源碼閱讀總結 文檔

    基于NIO,Listener關注OP_ACCEPT事件,當有客戶端連接過來,Accept后,從readers中選取一個Reader將客戶端Channel注冊到Reader中的NIO selector,并新建一個Connection對象關聯客戶端Channel,Reader關注OP_READ事件. 客戶端建立連接后,首先發送的是ConnnectionHeader包含協議名,用戶組信息,驗證方法,Connection會根據以上信息進行校驗.之后將是先讀取4位的長度代表這次請求的數據的長度,然后一直等待事件觸發讀取夠長度,將讀取的數據 解碼為調用id和param,新建一個Call對象(關聯Connection)放入call隊列中,handlers中的Handler會將Call中callQuene中取走.

    bluesky666 2015-05-05   1964   0
    P11

      Apache Hadoop 入門第一步 文檔

    Apache Hadoop項目開發可靠的、可擴展的(Scalable)、分布式計算的開源軟件。Apache Hadoop軟件庫是一個框架,使用簡單的編程模型,用于對跨計算機集群的大數據集進行分布式處理。使用ApacheHadoop軟件庫,可以從單個服務器擴展到上千臺服務器,每臺服務器都提供本地的計算后存儲。Apache Hadoop軟件庫不再依賴于硬件實現高可用性,Apache Hadoop軟件庫可以檢測并處理應用層的失效,從而在計算機集群之上提供高可用性服務。ApacheHadoop項目組成Apache Hadoop包括的子項目Hadoop Common:支撐其他子項目的通用工具;

    xw56 2015-04-29   366   0
    P16

      異步處理在分布式系統中的優化作用 文檔

    異步處理在分布式系統中的優化作用

    g4mm 2015-04-24   523   0
    P9

      Spark 筆記 文檔

    RDD - resillient distributed dataset 彈性分布式數據集 Operation - 作用于RDD的各種操作分為transformation和action Job - 作業,一個JOB包含多個RDD及作用于相應RDD上的各種operation Stage - 一個作業分為多個階段 Partition - 數據分區,一個RDD中的數據可以分成多個不同的區 DAG - Directed Acycle graph, 有向無環圖,反應RDD之間的依賴關系

    ylx1214 2015-04-18   1526   0
    P16

      Storm 集群安裝及配置說明 文檔

    zookeeper是一個集群,負責協調。storm是一個分布式實時計算集群。 1.他們是不同的東西,搭建的時候可以搭載一樣的機器上,也可以搭建在不同的機器上,各自成體系,storm.yaml文件中顯示的寫出了需要用的zookeeper集群。 2.zookeeper中的機器從屬關系是平等的,storm中機器的關系是不平等的,運行nimbus進程的機器控制運行supervisor的機器。 3.運行supervisor的機器必須在其storm.yaml文件的storm.local.hostname: node**處,hostname要唯一,否則就運行不起來。

    mrwxh 2015-04-16   2523   0
    P15

      OGG HDFS Integration 文檔

    This how-to paper is written to illustrate the architecture, configuration and the implementation for developing a custom adapter for streaming relational database transactions to HDFS. Please note the code and the configuration of the HDFS adapter illustrated in this how-to is only meant to highlight the capability of the Oracle GoldenGate product. As such, no support is provided by Oracle for the code and configuration illustrated in paper.

    ThinkJ 2015-04-08   2797   0
    P4

      Hadoop 集群搭建 文檔

    機器規格CPU:2個四核2~2.5GHzCPU內存:8~16GBECCRAM(非ECC會產生校驗和錯誤)存儲器:4*1TSATA硬盤(硬盤大小一般是數據量的3—5倍)網絡:千兆以太網PS:namenode一般采用64位硬件,避免32位機java堆3g限制具體規格情況跟數據量有關。

    serisboy12 2015-04-02   1475   0
    1 2 3 4 5 6 7 8 9 10

    關鍵詞

    最新上傳

    熱門文檔

  • sesese色