開源項目,開源代碼,開源文檔,開源新聞,開源社區

P51

currentTimeMillis()); JobClient.runJob(sortJob); 這里用的是hadoop的東西，輸入文件目錄為：用戶指定的url目錄。輸出目錄為：產生的那個臨時文件夾。這里的Sequ

228823266 2012-01-17 431 0

搜索引擎 nutch

P36

可以恢復的。 g、?數據的定時定量歸檔數據經過日志收集系統歸集后，一般存儲在分布式文件系統如Hadoop，為了便于對數據進行后續的處理分析，需要定時(TimeTrigger)或者定量(SizeTri

gwpking 2016-04-15 835 0

電子商務/商城

P51

currentTimeMillis()); JobClient.runJob(sortJob); 這里用的是hadoop的東西，輸入文件目錄為：用戶指定的url目錄。輸出目錄為：產生的那個臨時文件夾。這里的Sequ

n8cx 2014-08-24 3011 0

搜索引擎 nutch

P15

Zookeeper 是以 3.2.2 這個穩定版本為基礎，最新的版本可以通過官網?http://hadoop.apache.org/zookeeper/來獲取，Zookeeper 的安裝非常簡單，下面將從單機模式和集群模式兩個方面介紹

louiscool 2012-04-25 5139 0

分布式/云計算/大數據

P15

Zookeeper 是以 3.2.2 這個穩定版本為基礎，最新的版本可以通過官網?http://hadoop.apache.org/zookeeper/來獲取，Zookeeper 的安裝非常簡單，下面將從單機模式和集群模式兩個方面介紹

caoxin1106 2012-04-16 4829 0

分布式/云計算/大數據

P21

通過hive支持來實現多表join等復雜操作)。主要用來存儲非結構化和半結構化的松散數據。與hadoop一樣，Hbase目標主要依靠橫向擴展，通過不斷增加廉價的商用服務器，來增加計算和存儲能力。 HBase中的表一般有這樣的特點：

lingmeiwen 2011-12-26 4208 0

搜索引擎

P21

通過hive支持來實現多表join等復雜操作)。主要用來存儲非結構化和半結構化的松散數據。與hadoop一樣，Hbase目標主要依靠橫向擴展，通過不斷增加廉價的商用服務器，來增加計算和存儲能力。 HBase中的表一般有這樣的特點：

ykyx00 2012-04-01 5121 0

搜索引擎

P31

where pt_start < ='20100420' and pt_end>'20100410' Hadoop: 在調用setInputDir之前通過提供的方法獲得生命周期目錄列表，如下: List dateLists

cdredfox 2012-01-10 4904 0

分布式/云計算/大數據方案 SQL ini

P40

3. 概述 Zookeeper作為Hadoop項目中的一個子項目，是 Hadoop集群管理的一個必不可少的模塊，它主要用來控制集群中的數據，如它管理Hadoop集群中的NameNode，還有 Hbase中Master

meigx_2013 2013-09-26 5677 0

分布式/云計算/大數據

P12

些中間的有著相同key的values合并起來。很多現實世界中的任務都可用這個模型來表達。 ? Hadoop的Map/Reduce框架也是基于這個原理實現的，下面簡要介紹一下Map/Reduce框架主要組成及相互的關系。

JDynamiTe 2011-03-30 7606 0

MapReduce 分布式/云計算/大數據

P30

where pt_start < ='20100420' and pt_end>'20100410' Hadoop: 在調用setInputDir之前通過提供的方法獲得生命周期目錄列表，如下: List dateLists

gonow86 2013-01-30 2351 0

軟件架構

P5

通常對于大規模分布式數據的處理會首先想到MapReduce，Yahoo!也維護了Hadoop項目，但是他們最終放棄了擴展Hadoop的想法，因為相比之下，流計算面對的場景和需求是完全不同的。流計算強調的是

caeseryu 2012-09-16 450 0

分布式/云計算/大數據

P30

where pt_start < ='20100420' and pt_end>'20100410' Hadoop: 在調用setInputDir之前通過提供的方法獲得生命周期目錄列表，如下: List dateLists

hans511002 2012-06-24 3343 0

分布式/云計算/大數據方案 SQL ini

P25

TF-IDF 4. Over ViewKatta的解決方案 Serving indexes the hadoop distributed file system way Index as index shards

faintyou 2011-12-14 374 0

方案報告 Apache Scala XML

P25

32份，則表的HDFS存儲路徑如下： HDFS:/ warehouse /xiaojun/part-00020 在Hadoop和Hive中，所有的數據都會以文件的形式存儲在節點上，如果你在Hive下面使用dfs –ls命令查看HDFS目錄，你會看到，

dacoolbaby 2013-03-13 4915 0

分布式/云計算/大數據手冊 Perl Python Ruby

P12

大數據學習網介紹我們的網址是：bigdatastudy.cn 我們提供專業的大數據學習視頻，包括Hadoop，Spark，Storm，Mahout，機器學習等。我們定價合理，讓每個人都學得起大數據。 3

ngn6 2015-08-12 548 0

Spark 分布式/云計算/大數據

P9

?元數據存儲，通常是存儲在關系數據庫如 mysql, derby 中 ?解釋器、編譯器、優化器、執行器 ?Hadoop：用 HDFS 進行存儲，利用 MapReduce 進行計算組件的基本功能 ?用戶接口主要有三個：CLI，JDBC/ODBC和

lxj2008 2014-01-17 6687 0

分布式/云計算/大數據

P11

大數據學習網介紹我們的網址是：bigdatastudy.cn 我們提供專業的大數據學習視頻，包括Hadoop，Spark，Storm，Mahout，機器學習等。我們定價合理，讓每個人都學得起大數據。 3

ngn6 2015-08-12 2542 0

分布式/云計算/大數據 Scala

P4

集，分布式應用程序可以基于它實現同步服務，配置維護和命名服務等。目前zookeeper被應用于hadoop/hbase中進行節點的管理，通過zookeeper你可以很方便的開發出一些分布式控制的工具，比如分布式lock

mercykevin 2012-11-05 6120 0

分布式/云計算/大數據

P5

何的難。注2：Lucene之父Doug Cutting的又一力作，Project?Hadoop?- 由Hadoop分布式文件系統和一個Map/Reduce的實現組成，Lucene/Nutch的成產線也夠齊全的了。

wujianhai 2011-11-18 3799 0

MapReduce 分布式/云計算/大數據

Nutch 1.0 源代碼分析文檔

構建高并發高可用的電商平臺架構實踐文檔

Nutch 源代碼文檔

分布式服務框架 Zookeeper - 管理分布式環境中的數據文檔

分布式服務框架 Zookeeper 管理分布式環境中的數據文檔

搜索引擎技術文檔

分布式搜索引擎技術 - Lily 文檔

海量數據的高效存儲 --- 淘寶云梯極限存儲的原理和實踐文檔

Zookeeper 介紹-v1.0 文檔

MapReduce框架結構文檔

極限存儲設計原理及實踐文檔

Yahoo! S4：分布式流計算平臺文檔

極限存儲設計原理及實踐 - 淘寶文檔

Katta運行機理文檔

Hive 使用手冊文檔

(12)使用數據分區優化join 文檔

10、Hive工作原理和基本使用文檔

(4)Spark程序的開發和運行文檔

使用 Zookeeper 構建 LogServer 文檔

十分鐘掌握MapReduce的精髓文檔

Hadoop 的相關搜索

關鍵詞

Nutch 1.0 源代碼分析 文檔

構建高并發高可用的電商平臺架構實踐 文檔

Nutch 源代碼 文檔

分布式服務框架 Zookeeper - 管理分布式環境中的數據 文檔

分布式服務框架 Zookeeper 管理分布式環境中的數據 文檔

搜索引擎技術 文檔

分布式搜索引擎技術 - Lily 文檔

海量數據的高效存儲 --- 淘寶云梯極限存儲的原理和實踐 文檔

Zookeeper 介紹-v1.0 文檔

MapReduce框架結構 文檔

極限存儲設計原理及實踐 文檔

Yahoo! S4：分布式流計算平臺 文檔

極限存儲設計原理及實踐 - 淘寶 文檔

Katta運行機理 文檔

Hive 使用手冊 文檔

(12)使用數據分區優化join 文檔

10、Hive工作原理和基本使用 文檔

(4)Spark程序的開發和運行 文檔

使用 Zookeeper 構建 LogServer 文檔

十分鐘掌握MapReduce的精髓 文檔

Hadoop 的相關搜索

關鍵詞

Nutch 1.0 源代碼分析文檔

構建高并發高可用的電商平臺架構實踐文檔

Nutch 源代碼文檔

分布式服務框架 Zookeeper - 管理分布式環境中的數據文檔

分布式服務框架 Zookeeper 管理分布式環境中的數據文檔

搜索引擎技術文檔

海量數據的高效存儲 --- 淘寶云梯極限存儲的原理和實踐文檔

MapReduce框架結構文檔

極限存儲設計原理及實踐文檔

Yahoo! S4：分布式流計算平臺文檔

極限存儲設計原理及實踐 - 淘寶文檔

Katta運行機理文檔

Hive 使用手冊文檔

10、Hive工作原理和基本使用文檔

(4)Spark程序的開發和運行文檔

十分鐘掌握MapReduce的精髓文檔