• P51

      Nutch 1.0 源代碼分析 文檔

    currentTimeMillis()); JobClient.runJob(sortJob); 這里用的是hadoop的東西,輸入文件目錄為:用戶指定的url目錄。輸出目錄為:產生的那個臨時文件夾。這里的Sequ

    228823266 2012-01-17   431   0
    P36

      構建高并發高可用的電商平臺架構實踐 文檔

    可以恢復的。 g、?數據的定時定量歸檔 數據經過日志收集系統歸集后,一般存儲在分布式文件系統如Hadoop,為了便于對數據進行后續的處理分析,需要定時(TimeTrigger)或者定量(SizeTri

    gwpking 2016-04-15   835   0
    P51

      Nutch 源代碼 文檔

    currentTimeMillis()); JobClient.runJob(sortJob); 這里用的是hadoop的東西,輸入文件目錄為:用戶指定的url目錄。輸出目錄為:產生的那個臨時文件夾。這里的Sequ

    n8cx 2014-08-24   3011   0
    P15

      分布式服務框架 Zookeeper - 管理分布式環境中的數據 文檔

    Zookeeper 是以 3.2.2 這個穩定版本為基礎,最新的版本可以通過官網?http://hadoop.apache.org/zookeeper/來獲取,Zookeeper 的安裝非常簡單,下面將從單機模式和集群模式兩個方面介紹

    louiscool 2012-04-25   5139   0
    P15

      分布式服務框架 Zookeeper 管理分布式環境中的數據 文檔

    Zookeeper 是以 3.2.2 這個穩定版本為基礎,最新的版本可以通過官網?http://hadoop.apache.org/zookeeper/來獲取,Zookeeper 的安裝非常簡單,下面將從單機模式和集群模式兩個方面介紹

    caoxin1106 2012-04-16   4829   0
    P21

      搜索引擎技術 文檔

    通過hive支持來實現多表join等復雜操作)。主要用來存儲非結構化和半結構化的松散數據。 與hadoop一樣,Hbase目標主要依靠橫向擴展,通過不斷增加廉價的商用服務器,來增加計算和存儲能力。 HBase中的表一般有這樣的特點:

    lingmeiwen 2011-12-26   4208   0
    P21

      分布式搜索引擎技術 - Lily 文檔

    通過hive支持來實現多表join等復雜操作)。主要用來存儲非結構化和半結構化的松散數據。 與hadoop一樣,Hbase目標主要依靠橫向擴展,通過不斷增加廉價的商用服務器,來增加計算和存儲能力。 HBase中的表一般有這樣的特點:

    ykyx00 2012-04-01   5121   0
    P31

      海量數據的高效存儲 --- 淘寶云梯極限存儲的原理和實踐 文檔

    where pt_start < ='20100420' and pt_end>'20100410' Hadoop: 在調用setInputDir之前通過提供的方法獲得生命周期目錄列表,如下: List dateLists

    cdredfox 2012-01-10   4904   0
    P40

      Zookeeper 介紹-v1.0 文檔

    3. 概述 Zookeeper作為Hadoop項目中的一個子項目,是 Hadoop集群管理的一個必不可少的模塊,它主要用來控制 集群中的數據,如它管理Hadoop集群中的NameNode,還有 Hbase中Master

    meigx_2013 2013-09-26   5677   0
    P12

      MapReduce框架結構 文檔

    些中間的有著相同key的values合并起來。很多現實世界中的任務都可用這個模型來表達。 ? Hadoop的Map/Reduce框架也是基于這個原理實現的,下面簡要介紹一下Map/Reduce框架主要組成及相互的關系。

    JDynamiTe 2011-03-30   7606   0
    P30

      極限存儲設計原理及實踐 文檔

    where pt_start < ='20100420' and pt_end>'20100410' Hadoop: 在調用setInputDir之前通過提供的方法獲得生命周期目錄列表,如下: List dateLists

    gonow86 2013-01-30   2351   0
    P5

      Yahoo! S4:分布式流計算平臺 文檔

    通常對于大規模分布式數據的處理會首先想到MapReduce,Yahoo!也維護了Hadoop項目,但是他們最終放棄了擴展Hadoop的想法,因為相比之下,流計算面對的場景和需求是完全不同的。 流計算強調的是

    caeseryu 2012-09-16   450   0
    P30

      極限存儲設計原理及實踐 - 淘寶 文檔

    where pt_start < ='20100420' and pt_end>'20100410' Hadoop: 在調用setInputDir之前通過提供的方法獲得生命周期目錄列表,如下: List dateLists

    hans511002 2012-06-24   3343   0
    P25

      Katta運行機理 文檔

    TF-IDF 4. Over ViewKatta的解決方案 Serving indexes the hadoop distributed file system way Index as index shards

    faintyou 2011-12-14   374   0
    方案   報告   Apache   Scala   XML  
    P25

      Hive 使用手冊 文檔

    32份,則表的HDFS存儲路徑如下: HDFS:/ warehouse /xiaojun/part-00020 在Hadoop和Hive中,所有的數據都會以文件的形式存儲在節點上,如果你在Hive下面使用dfs –ls命令查看HDFS目錄,你會看到,

    dacoolbaby 2013-03-13   4915   0
    P12

      (12)使用數據分區優化join 文檔

    大數據學習網介紹我們的網址是:bigdatastudy.cn 我們提供專業的大數據學習視頻,包括Hadoop,Spark,Storm,Mahout,機器學習等。 我們定價合理,讓每個人都學得起大數據。 3

    ngn6 2015-08-12   548   0
    P9

      10、Hive工作原理和基本使用 文檔

    ?元數據存儲,通常是存儲在關系數據庫如 mysql, derby 中 ?解釋器、編譯器、優化器、執行器 ?Hadoop:用 HDFS 進行存儲,利用 MapReduce 進行計算 組件的基本功能 ?用戶接口主要有三個:CLI,JDBC/ODBC和

    lxj2008 2014-01-17   6687   0
    P11

      (4)Spark程序的開發和運行 文檔

    大數據學習網介紹我們的網址是:bigdatastudy.cn 我們提供專業的大數據學習視頻,包括Hadoop,Spark,Storm,Mahout,機器學習等。 我們定價合理,讓每個人都學得起大數據。 3

    ngn6 2015-08-12   2542   0
    P4

      使用 Zookeeper 構建 LogServer 文檔

    集,分布式應用程序可以基于它實現同步服務,配置維護和命名服務等。目前zookeeper被應用于hadoop/hbase中進行節點的管理,通過zookeeper你可以很方便的開發出一些分布式控制的工具,比如分布式lock

    mercykevin 2012-11-05   6120   0
    P5

      十分鐘掌握MapReduce的精髓 文檔

    何的難。 注2:Lucene之父Doug Cutting的又一力作,Project?Hadoop?- 由Hadoop分布式文件系統和一個Map/Reduce的實現組成,Lucene/Nutch的成產線也夠齊全的了。

    wujianhai 2011-11-18   3799   0
    1 2 3 4 5 6 7 8 9 10
  • sesese色