• P44

      中國移動Big Cloud平臺(經分培訓)v1.0 文檔

    云計算技術發展及應用概述 Google/Hadoop云計算架構 “大云”計劃及進展狀況

    ljp123456 2014-03-22   2311   0
    P16

      MapReduce 超大機群上的簡單數據處理 文檔

    摘要MapReduce是一個編程模型,和處理,產生大數據集的相關實現.用戶指定一個map函數處理一個key/value對,從而產生中間的key/value對集.然后再指定一個reduce函數合并所有的具有相同中間key的中間value.下面將列舉許多可以用這個模型來表示的現實世界的工作.以這種方式寫的程序能自動的在大規模的普通機器上實現并行化.

    ljp123456 2014-03-22   304   0
    P5

      Google's BigTable 原理(翻譯) 文檔

    首先,BigTable 從 2004 年初就開始研發了,到現在為止已經用了將近8個月。(2005年2月)目前大概有100個左右的服務使用BigTable,比如: Print,Search History,Maps和 Orkut。根據Google的一貫做法,內部開發的BigTable是為跑在廉價的PC機上設計的。BigTable 讓Google在提供新服務時的運行成本降低,最大限度地利用了計算能力。BigTable 是建立在 GFS ,Scheduler ,Lock Service 和 MapReduce 之上的。

    ljp123456 2014-03-22   613   0
    P6

      Google File System(中文翻譯) 文檔

    GFS是一個可擴展的分布式文件系統,用于大型的、分布式的、對大量數據進行訪問的應用。它運行于廉價的普通硬件上,但可以提供容錯功能。它可以給大量的用戶提供總體性能較高的服務。

    ljp123456 2014-03-22   1969   0
    P15

      OpenStack的架構詳解 文檔

    OpenStack既是一個社區,也是一個項目和一個開源軟件,它提供了一個部署云的操作平臺或工具集。其宗旨在于,幫助組織運行為虛擬計算或存儲服務的云,為公有云、私有云,也為大云、小云提供可擴展的、靈活的云計算。1.OpenStack是什么OpenStack既是一個社區,也是一個項目和一個開源軟件,它提供了一個部署云的操作平臺或工具集。

    haofan 2014-03-18   5142   0
    P5

      在windows上建立hadoop+eclipse開發環境 文檔

    在windows上建立hadoop-eclipse開發環境

    lxj2008 2014-01-19   358   0
    P32

      Hadoop學習總結 文檔

    分布式開發框架紐約證券交易所每天產生1TB的交易數據社交網站facebook的主機存儲著約10億張照片,占據PB級存儲空間互聯網檔案館存儲著約2PB數據,并以每月至少20TB的速度增長。瑞士日內瓦附近的大型強子對撞機每年產生約15PB的數據。這樣的數據該怎么存儲和讀取?Facebook的服務器大概1萬臺,按照oracle的標準10g版本計算大約需要21億元Hadoop一個分布式系統基礎架構,由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力高速運算和存儲。Hadoop是項目的總稱,主要是由分布式存儲(HDFS)、分布式計算(MapReduce)組成。Hadoop程序目前只能運行在Linux系統上,window上運行需要安裝其他插件,安裝過程見《hadoop安裝說明.docx》。可擴展:不論是存儲的可擴展還是計算的可擴展都是Hadoop的設計根本。

    lxj2008 2014-01-19   553   0
    P5

      HADOOP-0.20.2 分布式集群配置 文檔

    本文以安裝和使用hadoop-0.20.2為例。 PasswordAuthenticationnoAuthorizedKeysFile.ssh/authorized_keys三臺機器都要如上配置!下面可以通過SSH命令試試是否可以無密碼登陸。最好先重新啟動下命令:[root@hadoop1root]$servicesshdrestart[root@hadoop1root]$sshhadoop2如果可以無密碼登陸,即成功!JDK安裝本集群安裝jdk1.6.0_24版本,直接放置在root下。以下的配置三臺電腦均相同。通過windows中的SSHsecureshell軟件將jdk-6u24-linux-rpm.bin安裝包傳送到三臺機器。通過授權、安裝命令安裝jdk[root@hadoop1root]$chmod+xjdk-6u24-linux-rpm.bin[root@hadoop1root]$./jdk-6u24-linux-rpm.bin等待一段時間,提示回車的時候,按下回車,一會自動打開jdk的網頁介紹。3.配置jdk文件,在/etc/profile中配置環境變量如下:exportJAVA_HOME=”/usr/java/jdk1.6.0_24”exportPATH=”$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin:”exportCLASSPATH=”$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib”exportHADOOP_HOME=”/root/hadoop-0.20.2”//提前配置好省的麻煩。。。4.測試。建立個test.ja

    lxj2008 2014-01-19   3462   0
    P50

      大數據及相關技術介紹 文檔

    分享主題認識大數據大數據相關技術介紹非結構化數據數據平臺介紹認識數據網銀ATMPOS手機銀行理財存款貸款轉賬信用卡訂票酒店購物投資通話1、現有IT系統大量交易型結構化數據

    lxj2008 2014-01-19   13806   0
    P8

      11、Hive 元數據管理和語法詳解 文檔

    需在服務器端啟動MetaStoreServer,客戶端利用 Thrift 協議通過MetaStoreServer 訪問元數據庫

    lxj2008 2014-01-17   373   0
    P9

      10、Hive工作原理和基本使用 文檔

    用戶接口,包括 CLI(hive shell),JDBC/ODBC,WebUI ?元數據存儲,通常是存儲在關系數據庫如 mysql, derby 中 ?解釋器、編譯器、優化器、執行器 ?Hadoop:用 HDFS 進行存儲,利用 MapReduce 進行計算

    lxj2008 2014-01-17   6687   0
    P16

      4、cdh4.1 環境搭建二 文檔

    Java最好有些基礎,一般水平關系數據庫sqlHadoop介紹核心組件:HDFS:分布式存儲系統Mapreduce:分布式計算模塊分布式:廉價小型機通常一臺幾千元8G內存5T磁盤Namenodemaster集群主機器負責集群的統一管理和調度,作業分發和收集JobTracker作業分發和收集Datanodeslave機,主要接收namenode任務進行運算處理,輸出結果給namenodeTaskTracker作業接收和輸出本地服務器幾百萬一臺10T

    lxj2008 2014-01-17   584   0
    P16

      3、CDH4.1 介紹與環境搭建 文檔

    Cloudera 公司主是一家提供 Hadoop 以及基于 Hadoop 軟件的服務商. Cloudera 針對Hadoop的官方版本做了很多集成以及補丁修復工作. 并且一個發布下的所有基于 Hadoop 的軟件之間的版本依賴已經經過了大量測試, 可以說是一個比較省心的版本. 同時簡化了對其他組件的整合安裝。是目前企業里用的最多的發行版本。

    lxj2008 2014-01-17   1737   0
    P13

      2、Cloudera Manager 安裝和環境熟悉 文檔

    Cloudera Manager 安裝和環境熟悉

    lxj2008 2014-01-17   427   0
    P12

      1、Cloudera Manager 介紹與安裝 文檔

    Cloudera Manager (簡稱CM)用于管理CDH4集群,可進行節點安裝、配置、服務配置等,提供Web窗口界面提高了Hadoop配置可見度,而且降低了集群參數設置的復雜度。

    lxj2008 2014-01-17   34763   0
    P3

      Twitter Storm 環境搭建 文檔

    TwitterStorm簡介為什么選擇Twitter Storm在過去的十年里,數據處理發生了革命性的變化:MapReduce,Hadoop,以及相關的技術使我們可以存儲和處理以前不可想象的大規模的數據。很遺憾,這些數據處理系統都不是實時系統,而且也根本沒辦法把Hadoop變成一個實時系統;實時數據處理和批處理的許多要求在根本上有很大不同。

    cdmamata 2014-01-13   488   0
    P6

      Hadoop-1.1.2-eclipse-plugin插件編譯步驟及方法 文檔

    Windows下編譯hadoop_eclipse插件步驟.

    yongning99 2014-01-13   4353   0
    P20

      Paxos - 分布式一致性協議 文檔

    Paxos的理解困境Paxos究竟在解決什么問題?Paxos如何在分布式存儲系統中應用?Paxos算法的核心思想是什么?第一階段在做什么?第二階段在做什么?Paxos和分布式存儲系統Paxos用來確定一個不可變變量的取值取值可以是任意二進制數據一旦確定將不再更改,并且可以被獲取到(不可變性、可讀取性)在分布式存儲系統中應用Paxos數據本身可變,采用多副本進行存儲。

    zzh1626 2014-01-12   9652   0
    P4

      MapReduce 實例 文檔

    什么是?MapReduce?? Hadoop Map/Reduce是一個使用簡易的軟件框架,基于它寫出來的應用程序能夠運行在由上千個商用機器組成的大型集群上,并以一種可靠容錯的方式并行處理上T級別的數據集。

    singing 2014-01-09   2559   0
    P4

      Hive QL 詳解 文檔

    第一部分:Hadoop 計算框架的特性 什么是數據傾斜 ?由于數據的不均衡原因,導致數據分布不均勻,造成數據大量的集中到一點,造成數據熱點 Hadoop框架的特性 ?不怕數據大,怕數據傾斜 ?jobs數比較多的作業運行效率相對比較低,比如即使有幾百行的表,如果多次關聯多次匯總,產生十幾個jobs,耗時很長。原因是map reduce作業初始化的時間是比較長的 ?sum,count,max,min等UDAF,不怕數據傾斜問題,hadoop在map端的匯總合并優化,使數據傾斜不成問題

    suunny 2014-01-09   1564   0
    1 2 3 4 5 6 7 8 9 10

    關鍵詞

    最新上傳

    熱門文檔

  • sesese色