開源項目,開源代碼,開源文檔,開源新聞,開源社區

Apache Sqoop（SQL-to-Hadoop）項目旨在協助 RDBMS 與 Hadoop 之間進行高效的大數據交流。用戶可以在 Sqoop 的幫助下，輕松地把關系型數據庫的數據導入到 Hadoop 與其相關的系統 (如HBase和Hive)中；同時也可以把數據從 Hadoop 系統里抽取并導出到關系型數據庫里。

jopen 2014-12-02 18913 0

Sqoop 分布式/云計算/大數據

Hadoop 2.x HDFS新特性 HDFS聯邦 HDFS HA（要用到zookeeper等，留在后面再講） HDFS快照

jopen 2015-01-13 19497 0

Hadoop 分布式/云計算/大數據

簡述：Hadoop是最著名使用最廣泛的分布式大數據處理框架，它是用Java開發的。物理主機、虛擬機、虛擬主機這三個就不多說了。我們先在ubuntu里添加一個叫hadoop的用戶

jopen 2015-02-13 14404 0

Hadoop 分布式/云計算/大數據

Storm 是一個類似Hadoop MapReduce的系統，用戶按照指定的接口實現一個任務，然后將這個任務遞交給JStorm系統，Jstorm將這個任務跑起來，并且按7 * 24小時運行起來，一旦中間一個worker 發生意外故障，調度器立即分配一個新的worker替換這個失效的worker。因此，從應用的角度，JStorm 應用是一種遵守某種編程規范的分布式應用。

jopen 2014-02-27 43539 0

消息系統 JStorm

Cloudbreak 是首個基于hadoop的docker service API。Cloudbreak 建立于Apache Ambari, Docker containers, Serf 和 dnsmasq 這類云提供者的API之上。

jopen 2014-08-24 15444 0

分布式/云計算/大數據 Cloudbreak

在上篇文章中你已經看到了在你的devbox創建一個單點Hadoop 集群是多么簡單。現在我們提高門檻，在Docker上創建一個多點hadoop集群。在開始前，確保你有最新的Ambari鏡像：

jopen 2014-07-01 29523 0

Docker 虛擬化

Hadoop家族系列文章，主要介紹Hadoop家族產品，常用的項目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的項目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。

jopen 2014-07-30 77065 0

Hadoop 推薦引擎

P23

大家都熟悉文件系統，在對HDFS進行分析前，我們并沒有花很多的時間去介紹HDFS的背景，畢竟大家對文件系統的還是有一定的理解的，而且也有很好的文檔。在分析Hadoop的MapReduce部分前，我們還是先了解系統是如何工作的，然后再進入我們的分析部分。

dishad631 2010-10-01 5060 0

Hadoop 分布式/云計算/大數據

P12

第一個是boolean型變量quietmode，用于設置加載配置的模式。通過閱讀源代碼就可以清楚，這個quietmode如果為true，實際上默認就為true，加載配置的模式為快速模式，其實也就是在解析配置文件的過程中，不輸出日志信息，就這么簡單。

xfj3526 2012-06-13 2384 0

Hadoop 分布式/云計算/大數據

IT界在過去幾年中出現了一個有趣的現象。很多新的技術出現并立即擁抱了“大數據”。稍微老一點的技術也會將大數據添進自己的特性，避免落大部隊太遠，我們看到了不同技術之間的邊際的模糊化。假如你有諸如Elasticsearch或者Solr這樣的搜索引擎，它們存儲著JSON文檔，MongoDB存著JSON文檔，或者一堆JSON文檔存放在一個Hadoop集群的HDFS中。你可以使用這三種配置完成很多同樣的事情。

jopen 2015-05-12 22864 0

分布式/云計算/大數據 ElasticSearch

hadoop作業調優參數整理及原理：問題導讀： 1.map會將已經產生的部分結果先寫入到該buffer中.buffer大小可以通過那個參數來設置？ 2.如何...

mq2126 2016-01-21 9102 0

分布式/云計算/大數據

談到大數據，相信大家對Hadoop和Apache Spark這兩個名字并不陌生。但我們往往對它們的理解只是停留在字面上，并沒有對它們進行深入的思考，下面不妨跟我一塊看下它們究竟有什么異同。

oxzr6054 2016-09-02 14060 0

Spark Hadoop 分布式/云計算/大數據

Hadoop并不僅僅是一個用于存儲的分布式文件系統，而是設計用來在由通用計算設備組成的大型集群上執行分布式應用的框架。

jopen 2012-05-27 18210 1

Apache Hadoop

分布式計算開源框架Hadoop近日發布了今年的第一個版本Hadoop-2.3.0，新版本不僅增強了核心平臺的大量功能，同時還修復了大量bug。

jopen 2014-02-27 10093 0

Apache Hadoop

Apache 在其 Hadoop 維基百科發布了一個頁面，主要整理了 Docker 中運行 Hadoop 的好處，以及要完全在 Docker 中運行 Hadoop 所需要完成的工作。在 Docker，或者說其它容器中運行 Hadoop YARN 有很多優勢

jopen 2014-09-04 8223 0

Hadoop Docker

無論有沒有使用Hunk，當運行Hadoop時，有很多種方式導致偶爾的性能底下。多數時候人們是增加更多的硬件來解決問題，但是有時候只需要簡單更改下文件的名稱就可以解決問題。

jopen 2015-09-28 5966 0

Hadoop

Spark 已經取代 Hadoop 成為最活躍的開源大數據項目。但是，在選擇大數據框架時，企業不能因此就厚此薄彼。近日，著名大數據專家 Bernard Marr 在一篇文章中分析了Spark和Hadoop的異同。

jopen 2015-11-30 16341 0

Spark

P9

在所有節點編輯好host文件三個節點，先定義好主機名！！！！！這步很重要分別是hadoop1,hadoop2,hadoop32在所有節點上創建密鑰

lwg32719 2014-06-07 2110 0

Hadoop 分布式/云計算/大數據

P33

安裝jdk安裝eclipse時已經提過，這里略，使用jdk1.6.0_12版本。安裝Cygwin以及相關服務安裝Cygwincygwin是一個在windows平臺上運行的unix模擬環境。在安裝Cygwin之前，得先下載Cygwin安裝程序setup.exe

ka520 2015-11-14 1170 0

分布式/云計算/大數據

P5

概述HadoopMap-Reduce是一個使用簡易的軟件框架，基于它寫出來的應用程序能夠運行在由上千個商用機器組成的大型集群上，并以一種可靠容錯的方式并行處理上T級別的數據集。一個Map-Reduce?作業（job）?通常會把輸入的數據集切分為若干獨立的數據塊，由?map任務（task）以完全并行的方式處理它們。

thinkingx 2011-12-15 4828 0

Hadoop 分布式/云計算/大數據

Hadoop數據傳輸工具：Sqoop 經驗

Hadoop 2.x HDFS新特性經驗

Hadoop初步體驗（安裝與測試）經驗

阿里類似Hadoop MapReduce的系統：jstorm 經驗

Cloudbreak - 基于Hadoop的Docker service API 經驗

在 Docker 上建立多節點的 Hadoop 集群經驗

用Hadoop構建電影推薦系統經驗

Hadoop源碼分析-MapReduce部分文檔

Hadoop 源碼以及流程解析文檔

Elasticsearch、MongoDB和Hadoop比較經驗

hadoop作業調優參數整理及原理經驗

Hadoop和Spark框架的異同經驗

Apache Hadoop 2.0 Alpha 發布資訊

Apache Hadoop 2.3.0發布資訊

Apache擬在Docker中運行Hadoop 資訊

Hunk/Hadoop: 性能最佳實踐資訊

Spark和Hadoop，孰優孰劣？資訊

8步安裝好你的hadoop 文檔

Hadoop與HBase自學筆記文檔

How To Write Map-Reduce On Hadoop 文檔

Ubuntu安裝hadoop 的相關搜索

關鍵詞

Hadoop數據傳輸工具：Sqoop 經驗

Hadoop 2.x HDFS新特性 經驗

Hadoop初步體驗（安裝與測試） 經驗

阿里類似Hadoop MapReduce的系統：jstorm 經驗

Cloudbreak - 基于Hadoop的Docker service API 經驗

在 Docker 上建立多節點的 Hadoop 集群 經驗

用Hadoop構建電影推薦系統 經驗

Hadoop源碼分析-MapReduce部分 文檔

Hadoop 源碼以及流程解析 文檔

Elasticsearch、MongoDB和Hadoop比較 經驗

hadoop作業調優參數整理及原理 經驗

Hadoop和Spark框架的異同 經驗

Apache Hadoop 2.0 Alpha 發布 資訊

Apache Hadoop 2.3.0發布 資訊

Apache擬在Docker中運行Hadoop 資訊

Hunk/Hadoop: 性能最佳實踐 資訊

Spark和Hadoop，孰優孰劣？ 資訊

8步安裝好你的hadoop 文檔

Hadoop與HBase自學筆記 文檔

How To Write Map-Reduce On Hadoop 文檔

Ubuntu安裝hadoop 的相關搜索

關鍵詞

Hadoop 2.x HDFS新特性經驗

Hadoop初步體驗（安裝與測試）經驗

在 Docker 上建立多節點的 Hadoop 集群經驗

用Hadoop構建電影推薦系統經驗

Hadoop源碼分析-MapReduce部分文檔

Hadoop 源碼以及流程解析文檔

Elasticsearch、MongoDB和Hadoop比較經驗

hadoop作業調優參數整理及原理經驗

Hadoop和Spark框架的異同經驗

Apache Hadoop 2.0 Alpha 發布資訊

Apache Hadoop 2.3.0發布資訊

Hunk/Hadoop: 性能最佳實踐資訊

Spark和Hadoop，孰優孰劣？資訊

Hadoop與HBase自學筆記文檔