• P10

      分布式計算(Map/Reduce) 文檔

    分布式式計算,同樣是一個寬泛的概念,在這里,它狹義的指代,按Google Map/Reduce框架所設計的分布式框架。在Hadoop中,分布式文件系統,很大程度上,是為各種分布式計算需求所服務的。我們說分布式文件系統就是加了分

    蕭蕭若水 2011-10-30   3954   0
    P8

      HBase0.96安裝步驟 文檔

    property.dataDir的配置;其中hbase.rootdir對應Hadoop的$HADOOP_HOME/etc/hadoop/core-site.xml文件中fs.defaultFS的值;hbase

    李新廣 2015-07-10   1620   0
    P31

      Storm對于交通數據的處理 文檔

    processing 5. 背景:多種數據處理技術的出現過去的十年是數據處理變革的十年, MapReduce、 Hadoop以及一些相關的技術使得我們能處理的數據量比以前要大得多得多。但是這些數據處理技術都不是實時的系統

    nd7b 2015-12-09   6303   0
    P51

      自己動手寫網絡爬蟲(二) 文檔

    URL; import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.apache.hadoop.io.IOUtils; public class

    Wyh_D_Void 2011-05-23   890   0
    P20

      Apache?Mahout?簡介:通過可伸縮、商業友好的機器學習來構建智能應用 文檔

      mahout?的意思是大象的飼養者及驅趕者。Mahout?這個名稱來源于該項目(有時)使用 Apache Hadoop — 其徽標上有一頭黃色的大象 — 來實現可伸縮性和容錯性。   Mahout?項目是由 Apache

    bbcpeng 2013-09-13   3757   0
    P16

      Hive 學習 文檔

    是什么 Hive 是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hive

    xsh1019 2013-01-05   692   0
    P21

      分布式基礎學習 文檔

    些實現的代碼和示例,色彩有些斑駁,缺少了點感性。幸好我們還有OpenSource,還有HadoopHadoop是一個基于Java實現的,開源的,分布式存儲和計算的項目。作為這個領域最富盛名的開源項目

    hadoopfans 2010-11-20   5861   0
    P3

      Twitter Storm 環境搭建 文檔

    在過去的十年里,數據處理發生了革命性的變化:MapReduce,Hadoop,以及相關的技術使我們可以存儲和處理以前不可想象的大規模的數據。很遺憾,這些數據處理系統都不是實時系統,而且也根本沒辦法把Hadoop變成一個實時系統;實時數據處

    cdmamata 2014-01-13   488   0
    P7

      開源日志系統比較 文檔

    構建應用系統和分析系統的橋梁,并將它們之間的關聯解耦; (2) 支持近實時的在線分析系統和類似于Hadoop之類的離線分析系統; (3) 具有高可擴展性。即:當數據量增加時,可以通過增加節點進行水平擴展。

    vv2011_p 2012-12-21   606   0
    P82

      京東金融大數據分析平臺總體架構-v1.0 文檔

    層外部大數據商城系統Hadoop元數據云數據推送平臺數據平臺導入臨時區數據平臺導出臨時區NAS 存儲ETL程序區 10. 大數據分析平臺總體架構——數據交換層NAS存儲Hadoop集群元數據區數據平臺

    guet_lee 2017-01-12   6513   0
    P10

      HBase Architecture(中) 文檔

    現順序化存儲優化,以得到最好的IO性能。 1.3.? HLogKey類 當前的WAL實現采用了Hadoop SequenceFile,它會將記錄存儲為一系列的key/values。對于WAL來說,va

    lanbocui 2012-08-21   2232   0
    P39

      Mahout in Action 中文版 文檔

    法處理情況下的機器學習工具。在目前階段,這種可伸縮性由java實現,有些部分基于Apache Hadoop這個分布式計算框架實現。 Mahout是java庫。它不支持用戶接口,預裝好的服務器。以及安裝

    Mon 2013-12-01   5643   0
    P8

      RocketMQ-原理簡析(適合初級使用者) 文檔

    息存儲可以分布式集群化,具有了水平擴展的能力。 作者 何鵬 關注分布式存儲與計算相關框架,包括Hadoop、YARN、HBase、Storm、Spark、MQ等 peng.he.ia@gmail.com

    657226016 2018-05-20   885   0
    P9

      Nutch 主要類分析 文檔

    apache.nutch.crawl.Indexer: ?? ?這個類的任務是另一方面的工作了,它是基于hadoop和lucene的分布式索引。它就是為前面爬蟲抓取回來的數據進行索引好讓用戶可以搜索到這些數據。

    228823266 2012-01-17   5175   0
    P8

      RocketMQ -原理簡析(適合初級使用者) 文檔

    息存儲可以分布式集群化,具有了水平擴展的能力。 作者 何鵬 關注分布式存儲與計算相關框架,包括Hadoop、YARN、HBase、Storm、Spark、MQ等 peng.he.ia@gmail.com

    hjlsoft 2014-11-23   1818   0
    P8

      NOSQL數據庫介紹 文檔

    發讀寫性能來說,是非常糟糕的,這讓我立刻拋棄了對CouchDB的興趣。 5、 HBase – Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PC

    synart 2012-04-18   8205   0
    P44

      mahout in action中文版(最全的) 文檔

    法處理情況下的機器學習工具。在目前階段,這種可伸縮性由java實現,有些部分基于Apache Hadoop這個分布式計算框架實現。 Mahout是java庫。它不支持用戶接口,預裝好的服務器。以及安裝

    pcint 2013-07-18   1264   0
    P4

      MyDBJob的實現 文檔

    1. MyDBJob的實現滿足Hadoop的基本五個步驟 1.繼承HadoopJob類 2.創建構造器 3.覆寫InternalExecute()方法 4.編寫Mapper,Reducer類 5.部署在main函數中執行

    lvzhichun 2013-09-14   2182   0
    SQL  
    P19

      深入學習Hbase原理資料整理 文檔

    getEdit()); } SequenceFile.Writer 4.append 最終是調用hadoop的SequenceFile.Writer.append將數據持久化的。 當Region的memstore

    de521 2014-08-09   2131   0
    P3

      Google的Sawzall,Yahoo的Pig和微軟的Dryad 文檔

    是一個運行在Hadoop(Doug Cutting 在06年3月份加入了Yahoo )上的并行處理架構,有了Pig 使得普通的程序員具有了分析處理gigantic數據集的能力。附帶一下 Hadoop 基本進入了實用階段

    風云lucky 2011-07-22   513   0
    Go  
    1 2 3 4 5 6 7 8 9 10
  • sesese色