• Hadoop2.5.0完全分布式配置(1主3從) 經驗

    Hadoop2.5.0完全分布式配置(1主3從)

    jopen 2014-11-22   27139   0

    面向Hadoop的、新的數據處理和管理平臺:Apache Falcon 經驗

    Apache Falcon 是一個面向Hadoop的、新的數據處理和管理平臺,設計用于數據移動、數據管道協調、生命周期管理和數據發現。它使終端用戶可以快速地將他們的數據及其相關的處理和管理任務“上載(onboard)”到Hadoop集群。

    jopen 2015-01-29   67916   0

    Spark:比Hadoop更強大的分布式數據計算項目 經驗

    Spark是一個由加州大學伯克利分校(UC Berkeley AMP)開發的一個分布式數據快速分析項目。它的核心技術是彈性分布式數據集(Resilient distributed datasets),提供了比Hadoop更加豐富的MapReduce模型,可以快速在內存中對數據集進行多次迭代,來支持復雜的數據挖掘算法和圖計算 算法。

    jopen 2014-12-03   46280   0

    大數據技術hadoop入門理論系列之二—HDFS架構簡介 經驗

    HDFS全稱是Hadoop Distribute File System,是一個能運行在普通商用硬件上的分布式文件系統。與其他分布式文件系統顯著不同的特點是:

    jopen 2016-01-12   16076   0

    提高hadoop的mapreduce job效率筆記—–修改mapper和reducer數量 經驗

    hadoop 的mapreduce 的作業在運行過程中常常碰到一些這樣的情況: ?

    jopen 2016-01-16   7166   0

    Hadoop簡單應用案例,包括MapReduce、單詞統計、HDFS基本操作等 經驗

    Hadoop簡單應用案例,包括MapReduce、單詞統計、HDFS基本操作、web日志分析、Zookeeper基本使用等

    jopen 2015-12-04   19595   0

    Hadoop2.6.0上的spark1.5.2集群搭建 經驗

    Hadoop2.6.0上的spark1.5.2集群搭建:一、Spark安裝前提 安裝Spark之前需要先安裝Hadoop集群,因為之前已經安裝了hadoop,所以我直接在之前的...

    yvdyyn805 2016-01-27   45467   0

    hadoop再次集群搭建(2)-配置免秘鑰ssh登錄 經驗

    第一種級別(基于口令的安全驗證)只要你知道自己帳號和口令,就可以登錄到遠程主機。所有傳輸的數據都會被加密,但是不能保證你正在連接的服務器就是你想連接的服務器。可能會有別的服務器在冒充真正的服務器,也就是受到“中間人”這種方式的攻擊。

    jopen 2016-01-18   16615   0

    Kafka實戰:從RDBMS到Hadoop,七步實現實時傳輸 經驗

    本文是關于Flume成功應用Kafka的研究案例,深入剖析它是如何將RDBMS實時數據流導入到HDFS的Hive表中。

    Hadoop大數據系統的七大危險信號 經驗

    大多數企業大數據應用案例尚處于實驗和試點階段,對于少數首次在生產環境部署Hadoop系統的用戶來說,最常遇到的就是擴展問題,此類問題往往導致企業因噎廢食,終止大數據應用項目。

    P23

      分布式運算平臺-Hadoop-基礎篇 文檔

    1:大規模數據處理的問題1990年,一個普通的硬盤驅動器可存儲1370MB的數據并擁有4.4MB/s的傳輸速度,所以,只需五分鐘的時間就可以讀取整個磁盤的數據。20年過去了,1TB級別的磁盤驅動器是很正常的,但是數據傳輸的速度卻在100MB/s左右。所以它需要花兩個半小時以上的時間讀取整個驅動器的數據。從一個驅動器上讀取所有的數據需要很長的時間,寫甚至更慢。如何解決?一個很簡單的減少讀取時間的辦法是同時從多個磁盤上讀取數據。試想一下,我們擁有100個磁盤,每個存儲百分之一的數據。如果它們并行運行,那么不到兩分鐘我們就可以讀完所有的數據。2:Hadoop的由來談到Hadoop就不得不提到Lucene和Nutch。

    zhpboy 2013-10-12   3298   0
    P22

      MapReduce詳解及Eclipse遠程連接Hadoop開發MapReduce程序 文檔

    MapReduce詳解及Eclipse遠程連接Hadoop開發MapReduce程序

    li270606338 2013-08-28   7576   0

    Hadoop十歲!Doug Cutting成長史+他眼中大數據技術的未來 資訊

    上次見到(膜拜)Hadoop之父Doug Cutting是在 2年前 ,2014中國大數據技術大會上。今年Hadoop10歲,剛看到他的 Hadoop十周年賀詞 ,感覺時間飛逝。最近CSDN和InfoQ都在制作Hadoop選題。云棲社區也找到不少阿里Hadoop生態高手,2-3月會做多場實時在線培訓。大家想聽什么,告訴我們。

    jopen 2016-02-15   25367   0
    P15

      CentOS6.2 下 Hadoop 全分布式集群配置文檔 文檔

    CentOS6.2下Hadoop全分布式集群配置文檔集群網絡環境介紹集群包含三個hadoop節點:1個namenode、2個datanode。節點之間局域網連接,可以互相ping通,并且配置了節點之間互相無密碼ssh訪問。節點IP地址如下:NameNode:192.168.15.102主機名:masterDataNode1:192.168.15.103主機名:slaver1DataNode2:192.168.15.105主機名:slaver2說明:105機器能ping通,但是ssh連接上去短暫的一段時間后自動斷開,必須105用ssh訪問其他網絡之后,才能再次連接上。檢查防火墻等各種原因之后未能解決。(望大家提供指導)三臺機器系統均為CentOs6.2簡體中文版。并且都新建了一個MDSS用戶作為hadoop用戶,其hadoop都安裝在/home/MDSS/hadoop目錄下。

    wuguai 2012-09-19   5452   0
    P13

      Hadoop:分布式大數據處理架構 文檔

    由于具備低成本和前所未有的高擴展性,Hadoop已被公認為是新一代的大數據處理平臺。就像30年前SQL(Structured Query Language)出現一樣,Hadoop正帶來了新一輪的數據革命。如今Hadoop已從初出茅廬的小象變成了行業的巨人,但Hadoop仍需繼續完善。基于Java語言構建的Hadoop框架實際上一種分布式處理大數據平臺,其包括軟件和眾多子項目。在近十年中Hadoop已成為大數據革命的中心。MapReduce作為Hadoop的核心是一種處理大型及超大型數據集(TB級別的數據。包括網絡點擊產生的流數據、日志文件、社交網絡等所帶來的數據)并生成相關的執行的編程模型。

    xcxc 2015-08-24   614   0
    P12

      Hadoop開發環境搭建(Win8+Linux) 文檔

    常見的Hadoop開發環境架構有以下三種:Eclipse與Hadoop集群在同一臺Windows機器上。Eclipse與Hadoop集群在同一臺Linux機器上。Eclipse在Windows上,Hadoop集群在遠程Linux機器上。點評:第一種架構:必須安裝cygwin,Hadoop對Windows的支持有限,在Windows上部署hadoop會出現相當多詭異的問題。第二種架構:Hadoop機器運行在Linux上完全沒有問題,但是有大部分的開發者不習慣在Linux上做開發。

    pdddy 2013-09-23   8604   0

    Hadoop HDFS分布式文件系統設計要點與架構 經驗

    Hadoop簡介:一個分布式系統基礎架構,由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力高速運算和存儲。Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有著高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上。

    openkk 2012-02-15   57210   0

    Hadoop集群部署及常見問題超細詳解答 經驗

    Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺。以Hadoop分布式文件系統(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的開源實現)為核心的Hadoop為用戶提供了系統底層細節透明的分布式基礎架構。

    jopen 2013-10-24   69931   0

    Spring hadoop之發散之Storm云計算學習摘錄總結 經驗

    Storm是一個分布式的、容錯的實時計算系統,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType開發的實時處理系統,BackType現在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure寫的。

    jopen 2013-11-13   35568   0

    Hadoop和數據庫數據遷移工具 Sqoop 經驗

    Sqoop是一個用來將Hadoop和關系型數據庫中的數據相互轉移的工具,可以將一個關系型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導入到Hadoop的HDFS中,也可以將HDFS的數據導入到關系型數據庫中。

    openkk 2012-06-09   25475   0
    1 2 3 4 5 6 7 8 9 10
  • sesese色