• P5

      在windows上建立hadoop+eclipse開發環境 文檔

    在windows上建立hadoop-eclipse開發環境

    lxj2008 2014-01-19   358   0
    P32

      Hadoop學習總結 文檔

    分布式開發框架紐約證券交易所每天產生1TB的交易數據社交網站facebook的主機存儲著約10億張照片,占據PB級存儲空間互聯網檔案館存儲著約2PB數據,并以每月至少20TB的速度增長。瑞士日內瓦附近的大型強子對撞機每年產生約15PB的數據。這樣的數據該怎么存儲和讀取?Facebook的服務器大概1萬臺,按照oracle的標準10g版本計算大約需要21億元Hadoop一個分布式系統基礎架構,由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力高速運算和存儲。Hadoop是項目的總稱,主要是由分布式存儲(HDFS)、分布式計算(MapReduce)組成。Hadoop程序目前只能運行在Linux系統上,window上運行需要安裝其他插件,安裝過程見《hadoop安裝說明.docx》。可擴展:不論是存儲的可擴展還是計算的可擴展都是Hadoop的設計根本。

    lxj2008 2014-01-19   553   0
    P5

      HADOOP-0.20.2 分布式集群配置 文檔

    本文以安裝和使用hadoop-0.20.2為例。 PasswordAuthenticationnoAuthorizedKeysFile.ssh/authorized_keys三臺機器都要如上配置!下面可以通過SSH命令試試是否可以無密碼登陸。最好先重新啟動下命令:[root@hadoop1root]$servicesshdrestart[root@hadoop1root]$sshhadoop2如果可以無密碼登陸,即成功!JDK安裝本集群安裝jdk1.6.0_24版本,直接放置在root下。以下的配置三臺電腦均相同。通過windows中的SSHsecureshell軟件將jdk-6u24-linux-rpm.bin安裝包傳送到三臺機器。通過授權、安裝命令安裝jdk[root@hadoop1root]$chmod+xjdk-6u24-linux-rpm.bin[root@hadoop1root]$./jdk-6u24-linux-rpm.bin等待一段時間,提示回車的時候,按下回車,一會自動打開jdk的網頁介紹。3.配置jdk文件,在/etc/profile中配置環境變量如下:exportJAVA_HOME=”/usr/java/jdk1.6.0_24”exportPATH=”$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin:”exportCLASSPATH=”$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib”exportHADOOP_HOME=”/root/hadoop-0.20.2”//提前配置好省的麻煩。。。4.測試。建立個test.ja

    lxj2008 2014-01-19   3462   0
    P6

      Hadoop-1.1.2-eclipse-plugin插件編譯步驟及方法 文檔

    Windows下編譯hadoop_eclipse插件步驟.

    yongning99 2014-01-13   4353   0
    P7

      Hadoop實戰-初級部分 之 Hadoop IO 文檔

    ??HDFS以透明方式校驗所有寫入它的數據,并在默認設置下,會在讀取數據時驗證校驗和。針對數據的每個io.bytes.per.checksum(默認512字節)字節,都會創建一個單獨的校驗和。 數據節點負責在存儲數據及其校驗和之前驗證它們收到的數據。 從客戶端和其它數據節點復制過來的數據。客戶端寫入數據并且將它發送到一個數據節點管線中,在管線的最后一個數據節點驗證校驗和。

    singing 2014-01-07   2012   0
    P35

      Hadoop及Mapreduce入門 文檔

    Hive:數據倉庫,facebook貢獻PIG:并行計算的一種高級語言,yahoo貢獻Nutch:網頁搜索軟件,不只是爬蟲Avro:數據序列化系統Chukwa:用于管理大規模分布式集群的數據收集系統ZooKeeper:用于分布式應用的高性能協同服務Hbase:類似于BigTable的,key-value數據庫系統Mahout:分布式機器學習和數據挖掘的LibHama:基于BSP的超大規模科學計算框架

    lxz 2014-01-03   2919   0
    P23

      Hadoop 運維雜記 文檔

    Hadoop運維雜記張月@藍汛自我介紹張月性別男,愛好女就職于藍汛Chinacache數據平臺日志Team工作內容:開發,運維基于hadoop數據平臺及其生態系統;公司內部Hadoop技術推廣;不要相信我說的實踐是檢驗真理的唯一標準今日菜單Hadoop在藍汛說說Cloudera和它的產品們運維雜記——幾次重大事故Hadoop在藍汛系統結構

    lxz 2014-01-03   2998   0
    P30

      淘寶Hadoop與數據分析 文檔

    基本概念Hadoop的應用范圍Hadoop底層實現原理Hive與數據分析Hadoop集群管理典型的Hadoop離線分析系統架構常見問題及解決方案關于打撲克的哲學打撲克與MapReduce

    lxz 2014-01-03   3863   0
    P16

      億贊普Hadoop應用淺析 文檔

    億贊普Hadoop應用淺析IZP肖燕京密級:目錄一IZPHadoop集群現狀Hadoop應用Hadoop集群維護及出現的問題密級:一:IZPHadoop集群現狀集群規模共大、小2個集群:數據中心和實驗室集群數據中心:1臺NameNode,1臺SecondNameNode,1臺JobTracker,100來臺DataNode共100多臺高配服務器;數據中心又分為10多個機架,每個機架上10多臺服務器;

    lxz 2014-01-03   625   0
    P51

      EasyHadoop 實戰手冊 文檔

      本文檔是Hadoop部署文檔,提供了Hadoop單機安裝和Hadoop集群安裝的方法和步驟,本文檔希望讓Hadoop安裝部署更簡單(Easy)。      本安裝文檔適用于 centos 5 /red hat 5.2 32位,64位版本,ubuntu 等操作系統 需要做部分修改。Hadoop為分布式文件系統和計算的基礎框架系統,其中包含hadoop程序,hdfs系統等。

    lxz 2014-01-03   1977   0
    P6

      Hadoop 集群配置 文檔

    Hadoop集群在linux下配置第一部分Hadoop1.2.1下載Hadoop我們從Apache官方網站直接下載最新版本Hadoop1.2.1。

    yangzhp1_1 2013-12-17   2695   0
    P39

      Hadoop MapReduce 模塊源代碼詳細解析 文檔

    該文檔從源代碼的級別剖析了Hadoop 0.20.2版本的MapReduce模塊的運行原理和流程,對JobTracker、TaskTracker的內部結構和交互流程做了詳細介紹。系統地分析了Map程序和Reduce程序運行的原理。讀者在閱讀之后會對Hadoop MapReduce 0.20.2版本源代碼有一個大致的認識。

    songyl525 2013-12-11   465   0
    P4

      hadoop SequenceFile 文件寫入及各式分析 文檔

    hadoop SequenceFile 是一個由二進制形式key/value的字節流組成的存儲文件,SequenceFile可壓縮可切分,非常適合hadoop文件存儲特性,SequenceFile的寫入由SequenceFile.Writer來實現, 根據壓縮類型SequenceFile.Writer又派生出兩個子類SequenceFile.BlockCompressWriter和SequenceFile.RecordCompressWriter, 壓縮方式由SequenceFile類的內部枚舉類CompressionType來表示。

    songyl525 2013-12-11   2837   0
    P

    Hadoop 1.0 權威入門指南_v1.0 文檔

    這篇文檔的目的是幫助你快速完成單機上的Hadoop安裝與使用以便你對Hadoop分布式文件系統(HDFS)和Map-Reduce框架有所體會,比如在HDFS上運行示例程序或簡單作業等。 GNU/Linux是產品開發和運行的平臺。 Hadoop已在有2000個節點的GNU/Linux主機組成的集群系統上得到驗證。 Win32平臺是作為開發平臺支持的。由于分布式操作尚未在Win32平臺上充分測試,所以還不作為一個生產平臺被支持。

    haohaoaiiqian 2013-12-02   2024   0
    P14

      Hadoop 集群搭建筆記 文檔

    分布式集群系統安裝偽分布模式安裝比較簡單,集群模式是在偽分布模式基礎上進行修改的,所以偽分布模式安裝必須搞定。以下是操作步驟1.確定集群的結構由于SecondaryNameNode是執行合并任務的,內存占用特別大,所以單獨一臺大內存的節點。以上4個ip可以是單獨的物理機,也可以是虛擬機。生產環境中,一般是物理機。假設各節點安裝的linux版本完全一致。

    beat_it 2013-11-16   2072   0
    P129

      Hadoop 從入門到精通 文檔

    VirtualBox號稱是免費虛擬機軟件中最強的,擁有豐富的特色和出色的性能,在虛擬機市場占用重要地位。我們選擇它的理由是:*安裝程序體積小。相對于同類產品VMWare的四五百兆的體積,VirtualBox只有幾十兆的安裝程序,安裝完成后也只有120多兆,太小巧了。*功能簡單實用。配置簡單、克隆系統、共享文件、虛擬化等一樣不缺*免費。這是最大的誘惑。

    beat_it 2013-11-16   525   0
    P

    Hadoop 1.2.1 API 文檔 文檔

    Hadoop 是一個能夠對大量數據進行分布式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop 是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴于社區服務器,因此它的成本比較低,任何人都可以使用。

    allen789 2013-10-31   7446   0
    P22

      Hadoop: A Software Framework for Data Intensive Computing Applications 文檔

    Hadoop: A Software Framework for Data Intensive Computing Applications

    Eric_V72 2013-10-21   1733   0
    P49

      Hadoop Technical Introduction 文檔

    Job – A “full program” - an execution of a Mapper and Reducer across a data set Task – An execution of a Mapper or a Reducer on a slice of data a.k.a. Task-In-Progress (TIP) Task Attempt – A particular instance of an attempt to execute a task on a machine

    Eric_V72 2013-10-20   347   0
    P27

      Hadoop與數據分析 文檔

    Hadoop基本概念,Hadoop的應用范圍,Hadoop底層實現原理,Hive與數據分析,Hadoop集群管理典型的Hadoop離線分析系統架構。

    zhpboy 2013-10-12   4361   0
    1 2 3 4 5 6 7 8 9 10

    關鍵詞

    最新上傳

    熱門文檔

  • sesese色