• Hadoop Hive與Hbase整合 經驗

    用hbase做數據庫,但由于hbase沒有類sql查詢方式,所以操作和計算數據非常不方便,于是整合hive,讓hive支撐在hbase數據庫層面 的 hql查詢.hive也即 做數據倉庫

    jopen 2012-02-04   180500   0

    Hadoop集群設置 經驗

    設置dfs.name.dir 時,通過逗號分隔多個值,可以使namenode將元數據存儲到多個副本,以便namenode出錯時恢復。 dfs.data.dir也可設置多個目錄,但是其目的不是為了冗余容錯,而是可以循環寫入,提高性能。 fs.checkpoint.dir也可設置多個目錄,以保存檢查點。和namenode一樣,其支持冗余備份。

    jopen 2014-01-28   18751   0

    Hadoop的使用命令 經驗

    Hadoop的使用命令

    jopen 2014-10-29   16967   0

    Hadoop安裝部署 經驗

    使用VirtualBox安裝CentOS6.4,存儲為30G,內存為1G,并使用復制克隆出兩個新的虛擬機,這樣就存在3臺虛擬機,設置三臺虛擬機的主機名稱,如:master、slaver1、slaver2

    ymc4 2015-02-11   28859   0

    Hadoop】HDFS的運行原理 經驗

    HDFS(Hadoop Distributed File System )Hadoop分布式文件系統。是根據google發表的論文翻版的。論文為GFS(Google File System)Google 文件系統(中文,英文)。

    wdey 2015-05-24   13886   0
    P10

      Hadoop 運行流程 文檔

    Hadoop包括hdfs與mapreduce兩部分,在使用期期間我主要看了mapreduce部分,即hadoop執行作業的部分。mapreduce中幾個主要的概念mapreduce整體上可以分為這么幾條執行的線索,jobclient,JobTracker與TaskTracker。

    szx85307 2012-05-28   2711   0
    P3

      hadoop常見錯誤總結 文檔

    錯誤1:bin/hadoop dfs 不能正常啟動,持續提示: INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:9000. Already tried 0 time(s). 原因:由于 dfs 的部分文件默認保存在tmp文件夾,在系統重啟時被刪除。 解決:修改core-site.xml 的 hadoop.tmp.dir配置文件路徑:/home/hadoop/tmp。

    419133824 2012-02-18   5004   0
    P5
    P

    Hadoop 1.2.1 API 文檔 文檔

    Hadoop 是一個能夠對大量數據進行分布式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop 是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴于社區服務器,因此它的成本比較低,任何人都可以使用。

    allen789 2013-10-31   7446   0
    P

    Hadoop 入門手冊 文檔

    MapReduce編程模型的思想來源于函數式編程語言Lisp,由Google公司于2004年提出并首先應用于大型集群。同時,Google也發表了GFS、BigTable等底層系統以應用MapReduce模型。在2007年,Google’s MapReduce Programming Model-Revisted論文發表,進一步詳細介紹了Google MapReduce模型以及Sazwall并行處理海量數據分析語言。Google公司以MapReduce作為基石,逐步發展成為全球互聯網企業的領頭羊。 <br> Hadoop作為Apache基金會資助的開源項目,由Doug Cutting帶領的團隊進行開發,基于Lucene和Nutch等開源項目,實現了Google的GFS和Hadoop能夠穩定運行在20個節點的集群;2006年1月,Doug Cutting加入雅虎公司,同年2月Apache Hadoop項目正式支持HDFS和MapReduce的獨立開發。同時,新興公司Cloudera為Hadoop提供了商業支持,幫助企業實現標準化安裝,并志愿貢獻社區。Hadoop的最新版本是0.21.0,說明其還在不斷完善發展之中。

    030472875ken 2012-01-19   5752   0
    P11

      Hadoop 安裝手冊 文檔

    幫助讀者快速掌握hadoop的安裝和部署HDFS,Hbase,Hive等組件。Hadoopt是一個分布式系統基礎架構,由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力高速運算和存儲。Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有著高容錯性的特點,并且設計用來部署在低廉的硬件上。而且它提供高傳輸率來訪問應用程序的數據,適合那些有著超大數據集的應用程序。

    ccvcd 2014-04-10   394   0
    P133

      Hadoop快速入門 文檔

    這篇文檔的目的是幫助你快速完成單機上的Hadoop安裝與使用以便你對Hadoop分布式文件系統(HDFS)和Map-Reduce框架有所體會,比如在HDFS上運行示例程序或簡單作業等。

    beanshell 2011-07-16   599   0

    Spark與Hadoop之間的PK 資訊

    一說大數據,人們往往想到 Hadoop。這固然不錯,但隨著大數據技術的深入應用,多種類型的數據應用不斷被要求提出,一些 Hadoop 被關注的范疇開始被人們注意,相關技術也迅速獲得專業技術范疇的應用。最近半年來的 Spark 之熱就是典型例子。

    jopen 2014-12-05   15510   0
    Spark  
    P6

      Hadoop 集群配置 文檔

    Hadoop集群在linux下配置第一部分Hadoop1.2.1下載Hadoop我們從Apache官方網站直接下載最新版本Hadoop1.2.1。

    yangzhp1_1 2013-12-17   2695   0
    P14

      hadoop,hbase安裝步驟 文檔

    Hadoop,ZooKeeper,HBase,hive(HQL)安裝步驟Hadoop安裝:首先我們統一一下定義,在這里所提到的Hadoop是指HadoopCommon,主要提供DFS(分布式文件存儲)與Map/Reduce的核心功能。Hadoop在windows下還未經過很好的測試,所以推薦大家在linux(centos6.X)下安裝使用。準備安裝Hadoop集群之前我們得先檢驗系統是否安裝了如下的必備軟件:ssh和Jdk1.6(因為Hadoop需要使用到Jdk中的編譯工具,所以一般不直接使用Jre)。可以使用yuminstallrsync來安裝rsync。

    xnbw 2016-01-11   2200   0
    P30

      Hadoop 入門指南 文檔

    Why Hadoop 數據規模爆炸式增長,大數據計算需要“高效”解決方案 多機環境中網絡成為瓶頸 多機環境下的穩定性問題 如何平衡計算效率和開發效率 What Hadoop Google的GFS + MapReduce的山寨產品 Hadoop = HDFS + MapReduce HDFS:分布式“大文件”存儲系統 MapReduce:分布式計算框架 計算邏輯必須符合Map-Reduce編程規范

    yudian 2014-10-29   565   0
    P46

      云計算之Hadoop 文檔

    Hadoop核心、Hadoop dfs(Hdfs)、MapReduce 分布式并行計算模型 Hadoop擴展、Hadoop base(Hbase)基于hadoop核心的高擴展性分布式數據庫、Pig-一種高級數據流語言和并行計算的執行框架,也基于hadoop核心 、Hive-建立在hadoop之上的數據倉庫基礎設施,提供數據摘要,adhoc、querying,數據集分析。

    qiu.n@sand 2011-10-26   5538   0
    P61

      Hadoop分享 文檔

    Hadoop分享: 1、云計算概念 2、Google的云計算 3、Hadoop 4、HDFS 5、Map/Reduce 6、日志框架的Hadoop嘗試 7、路在何方

    jphnny 2016-06-28   640   0
    P32

      Hadoop學習總結 文檔

    分布式開發框架紐約證券交易所每天產生1TB的交易數據社交網站facebook的主機存儲著約10億張照片,占據PB級存儲空間互聯網檔案館存儲著約2PB數據,并以每月至少20TB的速度增長。瑞士日內瓦附近的大型強子對撞機每年產生約15PB的數據。這樣的數據該怎么存儲和讀取?Facebook的服務器大概1萬臺,按照oracle的標準10g版本計算大約需要21億元Hadoop一個分布式系統基礎架構,由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力高速運算和存儲。Hadoop是項目的總稱,主要是由分布式存儲(HDFS)、分布式計算(MapReduce)組成。Hadoop程序目前只能運行在Linux系統上,window上運行需要安裝其他插件,安裝過程見《hadoop安裝說明.docx》。可擴展:不論是存儲的可擴展還是計算的可擴展都是Hadoop的設計根本。

    lxj2008 2014-01-19   553   0
    1 2 3 4 5 6 7 8 9 10
  • sesese色