• P23

      Yahoo! Hadoop教程 文檔

    歡迎來到Yahoo!Hadoop教程!這個系列教程將向你介紹ApacheHadoop系統的許多方向,還將向你展示:如何進行簡單和高級的集群配置;如何使用分布式文件系統;如何使用分布式文件系統,如何開發復雜的HadoopMapReduce應用,并且其它相關的分布式系統也提及。

    huafenged 2011-08-17   4717   0
    P21

      Hadoop HDFS安裝和管理 文檔

    由于相對hdfs的客戶端存在相對路徑問題,參見《HadoopHDFS開發參考》,我們修改了hadoop-0.18.1的源碼并進行了重新編譯,代碼為forlink-hadoop.tar.gz。HDFS中,節點分為Namenode和Datanode,其中Namenode只有一個(可以通過《HadoopHDFS系統雙機熱備方案》配置兩臺,但同時只能有一臺提供服務),Datanode可以有多臺。

    huafenged 2011-08-17   5478   0
    P18

      hadoop搭建與eclipse開發環境設置 文檔

    目標目的很簡單,為進行研究與學習,部署一個hadoop運行環境,并搭建一個hadoop開發與測試環境。

    huafenged 2011-08-17   4456   0
    P31

      畢玄-HBase簡介與實踐分享 文檔

    和Hadoop無縫集成 Hadoop分析后的結果可直接寫入HBase; 存放在HBase的數據可直接通過Hadoop來進行分析。

    hadoopfans 2011-08-16   4086   0
    P83

      Hadoop源代碼分析 文檔

    目前,基于類似思想的Open Source項目還很多,如Facebook用于用戶分析的Hive。 HDFS作為一個分布式文件系統,是所有這些項目的基礎。分析好HDFS,有利于了解其他系統。由于Hadoop的HDFS和MapReduce是同一個項目,我們就把他們放在一塊,進行分析。

    leroy 2011-08-16   3752   0
    P5

      CentOS scribe+hdfs安裝 文檔

    Scribe是facebook開源的日志收集系統,可用于搜索引擎中進行大規模日志分析處理。其通常與Hadoop結合使用,scribe用于向HDFS中push日志,而Hadoop通過MapReduce作業進行定期處理。

    xfbxag 2011-08-12   6955   0
    P

    Hadoop 0.20.1 API 文檔

    Hadoop是一個分布式系統基礎架構,由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力高速運算和存儲。簡單地說來,Hadoop是一個可以更容易開發和運行處理大規模數據的軟件平臺。Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有著高容錯性(fault-tolerent)的特點,并且設計用來部署在低廉的(low-cost)硬件上。而且它提供高傳輸率(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以流的形式訪問(streaming access)文件系統中的數據。

    wanjia19 2011-08-10   6182   0
    P37

      淘寶Hive分享 文檔

    Hive到底是什么呢?其實HIVE就是一個SQL解析引擎,它將SQL語句轉譯成M/RJOB然后在Hadoop執行,來達到快速開發的目的。撥開HIVE的神秘面紗之后來看它的表其實就是一個Hadoop的目錄/文件(HIVE默認表存放路徑一般都是在你工作目錄的hive目錄里面),按表名做文件夾分開,如果你有分區表的話,分區值是子文件夾,可以直接在其它的M/Rjob里直接應用這部分數據。

    copen 2011-08-09   519   0
    P41

      Hadoop Map/Reduce教程 文檔

    Hadoop是一個分布式的文件系統,他就像一個管家,管理你數據的存放,在物理上較遠的地方會分別存放(這樣一是不同的地方讀取數據都很快,也起到了異地容災的作用),他會動態管理和調動你的數據節點,高強的容錯處理,最大程度的降低數據丟失的風險。Hadoop Map/Reduce是一個使用簡易的軟件框架,基于它寫出來的應用程序能夠運行在由上千個商用機器組成的大型集群上,并以一種可靠容錯的方式并行處理上T級別的數據集。 一個Map/Reduce 作業(job) 通常會把輸入的數據集切分為若干獨立的數據塊,由 map任務(task)以完全并行的方式處理它們。框架會對map的輸出先進行排序, 然后把結果輸入給reduce任務。通常作業的輸入和輸出都會被存儲在文件系統中。 整個框架負責任務的調度和監控,以及重新執行已經失敗的任務。

    Tonywang 2011-08-08   5052   0
    P14

      HDFS資料整理 文檔

    HDFS文件創建流程:文件夾的創建是一個相對簡單的過程,主要是通過FileSystem中的mkdirs()方法,這個方法在DFSClient實例中調用同名方法mkdirs(),通過Hadoop本身的RPC機制調用Namenode的mkdirs()方法,最終這個調用PUSH到FSNameSystem的mkdirsInternal方法,這個方法主要就是檢驗訪問權限,最后通過FSDirectory的unprotectedMkdir()方法,構建一個INodeDirectory實例添加到文件系統的目錄樹中。

    kspengjun 2011-07-26   3814   0
    P133

      Hadoop快速入門 文檔

    這篇文檔的目的是幫助你快速完成單機上的Hadoop安裝與使用以便你對Hadoop分布式文件系統(HDFS)和Map-Reduce框架有所體會,比如在HDFS上運行示例程序或簡單作業等。

    beanshell 2011-07-16   599   0
    P12

      用Linux和Apache Hadoop進行云計算 文檔

    Google、VMWare和Amazon等公司已經開始提供云計算產品和戰略。本文講解如何使用ApacheHadoop構建一個MapReduce框架以建立Hadoop集群,以及如何創建在Hadoop上運行的示例MapReduce應用程序。還將討論如何在云上設置耗費時間/磁盤的任務。云計算簡介近來云計算越來越熱門了,云計算已經被看作IT業的新趨勢。云計算可以粗略地定義為使用自己環境之外的某一服務提供的可伸縮計算資源,并按使用量付費。可以通過Internet訪問“云”中的任何資源,而不需要擔心計算能力、帶寬、存儲、安全性和可靠性等問題。

    caoyu152152 2011-07-11   583   0
    P14

      hadoop數據倉庫工具--hive介紹 文檔

    HIVE介紹簡介,是什么hive是一個基于hadoop的數據倉庫。使用hadoop-hdfs作為數據存儲層;提供類似SQL的語言(HQL),通過hadoop-mapreduce完成數據計算;通過HQL語言提供使用者部分傳統RDBMS一樣的表格查詢特性和分布式存儲計算特性。

    cooltaoism 2011-06-28   650   0
    P13

      Hadoop官方文檔0.18 文檔

    這篇文檔的目的是幫助你快速完成單機上的Hadoop安裝與使用以便你對Hadoop分布式文件系統(HDFS)和Map-Reduce框架有所體會,比如在HDFS上運行示例程序或簡單作業等。

    pkuxiaoq 2011-05-31   519   0
    P24

      Apache Hadoop介紹 文檔

    Apache Hadoop是一個用java語言實現的軟件框架,在由大量計算機組成的集群中運行海量數據的分布式計算,它可以讓應用程序支持上千個節點和PB級別的數據。Hadoop的核心子項目,提供了一個分布式文件系統(HDFS)和支持MapReduce的分布式計算。

    觀光閣 2011-05-15   17718   0
    P25

      Hadoop進階 文檔

    HDFS被調節以支持大文件存儲。它應該能提供整體上高的數據傳輸帶寬,能在一個集群里擴展到數百個節點。一個單一的HDFS實例應該能支撐數以千萬計的文件;HDFS應用需要一個“一次寫入多次讀取”的文件訪問模型。一個文件經過創建、寫入和關閉之后就不需要改變。這一假設簡化了數據一致性問題,并且使高吞吐量的數據訪問成為可能。

    7at7 2011-04-27   3440   0
    P33

      分布計算中的hadoop編程技術 文檔

    MapReduce是一個在海量數據上進行數據處理的并行編程模型,它特別適合于海量非結構化和結構化數據的搜索、分析和挖掘任務,已經開始被人們廣泛使用。對于興起的眾多類似MapReduce系統來說,如何有效地評估和分析對比這些系統,成為當前一個需要解決的問題。本文詳細討論了針對MapReduce運行系統的性能評估指標和方法,設計和選擇一系列具有代表性的程序和數據作為基準,用來評估和分析MapReduce系統。在這一評估方法指導下,本文在我們自己實現的MapReduce運行系統——Tplatform平臺上擴展了Profiling功能,然后進行了一系列評估實驗,來分析和尋找系統性能瓶頸,為未來系統優化提供依據。通過實驗我們發現了我們系統的一些可改進的問題如任務調度、落后者問題等等。我們選擇了針對導致提交任務延遲增加的落后者問題,通過實現后備任務策略來嘗試改進。經模擬實驗結果顯示,我們提出的改進策略能夠有效地改進落后者問題的性能問題。關鍵詞:MapReduce,性能評估,落后者問題,后備任務策略。

    sts2008 2010-12-02   4916   0
    P83

      Hadoop源代碼分析(完整版) 文檔

    目前,基于類似思想的Open Source項目還很多,如Facebook用于用戶分析的Hive。 HDFS作為一個分布式文件系統,是所有這些項目的基礎。分析好HDFS,有利于了解其他系統。由于Hadoop的HDFS和MapReduce是同一個項目,我們就把他們放在一塊,進行分析。

    cixiang 2010-11-15   335   0
    P6

      Hadoop入門 文檔

    Hadoop是Google MapReduce 的一個Java實現。MapReduce是一種簡化的分布式編程模式,讓程序自動分布到一個由普通機器組成的超大集群上并發執行。就如同java程序員可以不考慮內存泄露一樣, MapReduce的run-time系統會解決輸入數據的分布細節,跨越機器集群的程序執行調度,處理機器的失效,并且管理機器之間的通訊請求。這樣的模式允許程序員可以不需要有什么并發處理或者分布式系統的經驗,就可以處理超大的分布式系統得資源。

    ck614 2010-11-10   4010   0
    1 2 3 4 5 6 7 8 9 10

    關鍵詞

    最新上傳

    熱門文檔

  • sesese色