開源項目,開源代碼,開源文檔,開源新聞,開源社區

Hadoop2.5.0完全分布式配置(1主3從)

jopen 2014-11-22 27139 0

Apache Falcon 是一個面向Hadoop的、新的數據處理和管理平臺，設計用于數據移動、數據管道協調、生命周期管理和數據發現。它使終端用戶可以快速地將他們的數據及其相關的處理和管理任務“上載（onboard）”到Hadoop集群。

jopen 2015-01-29 67916 0

Spark是一個由加州大學伯克利分校（UC Berkeley AMP）開發的一個分布式數據快速分析項目。它的核心技術是彈性分布式數據集(Resilient distributed datasets)，提供了比Hadoop更加豐富的MapReduce模型，可以快速在內存中對數據集進行多次迭代，來支持復雜的數據挖掘算法和圖計算算法。

jopen 2014-12-03 46280 0

Spark 分布式/云計算/大數據

HDFS全稱是Hadoop Distribute File System,是一個能運行在普通商用硬件上的分布式文件系統。與其他分布式文件系統顯著不同的特點是：

jopen 2016-01-12 16076 0

HDFS Hadoop 大數據分布式/云計算/大數據

hadoop 的mapreduce 的作業在運行過程中常常碰到一些這樣的情況： ?

jopen 2016-01-16 7166 0

Hadoop 分布式/云計算/大數據

Hadoop簡單應用案例，包括MapReduce、單詞統計、HDFS基本操作、web日志分析、Zookeeper基本使用等

jopen 2015-12-04 19595 0

Hadoop 分布式/云計算/大數據

Hadoop2.6.0上的spark1.5.2集群搭建：一、Spark安裝前提安裝Spark之前需要先安裝Hadoop集群，因為之前已經安裝了hadoop，所以我直接在之前的...

yvdyyn805 2016-01-27 45467 0

分布式/云計算/大數據

第一種級別（基于口令的安全驗證）只要你知道自己帳號和口令，就可以登錄到遠程主機。所有傳輸的數據都會被加密，但是不能保證你正在連接的服務器就是你想連接的服務器。可能會有別的服務器在冒充真正的服務器，也就是受到“中間人”這種方式的攻擊。

jopen 2016-01-18 16615 0

分布式/云計算/大數據

本文是關于Flume成功應用Kafka的研究案例，深入剖析它是如何將RDBMS實時數據流導入到HDFS的Hive表中。

LynHolcomb 2016-08-30 31986 0

數據庫 Hadoop 分布式/云計算/大數據 Apache Kafka

大多數企業大數據應用案例尚處于實驗和試點階段，對于少數首次在生產環境部署Hadoop系統的用戶來說，最常遇到的就是擴展問題，此類問題往往導致企業因噎廢食，終止大數據應用項目。

174384143 2016-08-30 15119 0

Hadoop大數據分布式/云計算/大數據

P23

1：大規模數據處理的問題1990年，一個普通的硬盤驅動器可存儲1370MB的數據并擁有4.4MB/s的傳輸速度，所以，只需五分鐘的時間就可以讀取整個磁盤的數據。20年過去了，1TB級別的磁盤驅動器是很正常的，但是數據傳輸的速度卻在100MB/s左右。所以它需要花兩個半小時以上的時間讀取整個驅動器的數據。從一個驅動器上讀取所有的數據需要很長的時間，寫甚至更慢。如何解決？一個很簡單的減少讀取時間的辦法是同時從多個磁盤上讀取數據。試想一下，我們擁有100個磁盤，每個存儲百分之一的數據。如果它們并行運行，那么不到兩分鐘我們就可以讀完所有的數據。2：Hadoop的由來談到Hadoop就不得不提到Lucene和Nutch。

zhpboy 2013-10-12 3298 0

Hadoop 分布式/云計算/大數據 Apache C/C++ Go

P22

MapReduce詳解及Eclipse遠程連接Hadoop開發MapReduce程序

li270606338 2013-08-28 7576 0

Hadoop 分布式/云計算/大數據 Go

上次見到（膜拜）Hadoop之父Doug Cutting是在 2年前，2014中國大數據技術大會上。今年Hadoop10歲，剛看到他的 Hadoop十周年賀詞，感覺時間飛逝。最近CSDN和InfoQ都在制作Hadoop選題。云棲社區也找到不少阿里Hadoop生態高手，2-3月會做多場實時在線培訓。大家想聽什么，告訴我們。

jopen 2016-02-15 25367 0

Hadoop 大數據

P15

CentOS6.2下Hadoop全分布式集群配置文檔集群網絡環境介紹集群包含三個hadoop節點：1個namenode、2個datanode。節點之間局域網連接，可以互相ping通，并且配置了節點之間互相無密碼ssh訪問。節點IP地址如下：NameNode：192.168.15.102主機名：masterDataNode1：192.168.15.103主機名：slaver1DataNode2：192.168.15.105主機名：slaver2說明：105機器能ping通，但是ssh連接上去短暫的一段時間后自動斷開，必須105用ssh訪問其他網絡之后，才能再次連接上。檢查防火墻等各種原因之后未能解決。（望大家提供指導）三臺機器系統均為CentOs6.2簡體中文版。并且都新建了一個MDSS用戶作為hadoop用戶，其hadoop都安裝在/home/MDSS/hadoop目錄下。

wuguai 2012-09-19 5452 0

Hadoop 分布式/云計算/大數據

P13

由于具備低成本和前所未有的高擴展性，Hadoop已被公認為是新一代的大數據處理平臺。就像30年前SQL（Structured Query Language）出現一樣，Hadoop正帶來了新一輪的數據革命。如今Hadoop已從初出茅廬的小象變成了行業的巨人，但Hadoop仍需繼續完善。基于Java語言構建的Hadoop框架實際上一種分布式處理大數據平臺，其包括軟件和眾多子項目。在近十年中Hadoop已成為大數據革命的中心。MapReduce作為Hadoop的核心是一種處理大型及超大型數據集（TB級別的數據。包括網絡點擊產生的流數據、日志文件、社交網絡等所帶來的數據）并生成相關的執行的編程模型。

xcxc 2015-08-24 614 0

Hadoop 分布式/云計算/大數據

P12

常見的Hadoop開發環境架構有以下三種：Eclipse與Hadoop集群在同一臺Windows機器上。Eclipse與Hadoop集群在同一臺Linux機器上。Eclipse在Windows上，Hadoop集群在遠程Linux機器上。點評：第一種架構：必須安裝cygwin，Hadoop對Windows的支持有限，在Windows上部署hadoop會出現相當多詭異的問題。第二種架構：Hadoop機器運行在Linux上完全沒有問題，但是有大部分的開發者不習慣在Linux上做開發。

pdddy 2013-09-23 8604 0

Hadoop 分布式/云計算/大數據

Hadoop簡介：一個分布式系統基礎架構，由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下，開發分布式程序。充分利用集群的威力高速運算和存儲。Hadoop實現了一個分布式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有著高容錯性的特點，并且設計用來部署在低廉的（low-cost）硬件上。

openkk 2012-02-15 57210 0

Hadoop 分布式/云計算/大數據

Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺。以Hadoop分布式文件系統（HDFS，Hadoop Distributed Filesystem）和MapReduce（Google MapReduce的開源實現）為核心的Hadoop為用戶提供了系統底層細節透明的分布式基礎架構。

jopen 2013-10-24 69931 0

Hadoop 分布式/云計算/大數據

Storm是一個分布式的、容錯的實時計算系統，它被托管在GitHub上，遵循 Eclipse Public License 1.0。Storm是由BackType開發的實時處理系統，BackType現在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2，基本是用Clojure寫的。

jopen 2013-11-13 35568 0

Storm 分布式/云計算/大數據

Sqoop是一個用來將Hadoop和關系型數據庫中的數據相互轉移的工具，可以將一個關系型數據庫（例如： MySQL ,Oracle ,Postgres等）中的數據導入到Hadoop的HDFS中，也可以將HDFS的數據導入到關系型數據庫中。

openkk 2012-06-09 25475 0

Hadoop 分布式/云計算/大數據

Hadoop2.5.0完全分布式配置(1主3從) 經驗

面向Hadoop的、新的數據處理和管理平臺：Apache Falcon 經驗

Spark：比Hadoop更強大的分布式數據計算項目經驗

大數據技術hadoop入門理論系列之二—HDFS架構簡介經驗

提高hadoop的mapreduce job效率筆記—–修改mapper和reducer數量經驗

Hadoop簡單應用案例，包括MapReduce、單詞統計、HDFS基本操作等經驗

Hadoop2.6.0上的spark1.5.2集群搭建經驗

hadoop再次集群搭建（2）-配置免秘鑰ssh登錄經驗

Kafka實戰：從RDBMS到Hadoop，七步實現實時傳輸經驗

Hadoop大數據系統的七大危險信號經驗

分布式運算平臺-Hadoop-基礎篇文檔

MapReduce詳解及Eclipse遠程連接Hadoop開發MapReduce程序文檔

Hadoop十歲！Doug Cutting成長史+他眼中大數據技術的未來資訊

CentOS6.2 下 Hadoop 全分布式集群配置文檔文檔

Hadoop：分布式大數據處理架構文檔

Hadoop開發環境搭建(Win8+Linux) 文檔

Hadoop HDFS分布式文件系統設計要點與架構經驗

Hadoop集群部署及常見問題超細詳解答經驗

Spring hadoop之發散之Storm云計算學習摘錄總結經驗

Hadoop和數據庫數據遷移工具 Sqoop 經驗

Ubuntu安裝hadoop 的相關搜索

關鍵詞

Hadoop2.5.0完全分布式配置(1主3從) 經驗

面向Hadoop的、新的數據處理和管理平臺：Apache Falcon 經驗

Spark：比Hadoop更強大的分布式數據計算項目 經驗

大數據技術hadoop入門理論系列之二—HDFS架構簡介 經驗

提高hadoop的mapreduce job效率筆記—–修改mapper和reducer數量 經驗

Hadoop簡單應用案例，包括MapReduce、單詞統計、HDFS基本操作等 經驗

Hadoop2.6.0上的spark1.5.2集群搭建 經驗

hadoop再次集群搭建（2）-配置免秘鑰ssh登錄 經驗

Kafka實戰：從RDBMS到Hadoop，七步實現實時傳輸 經驗

Hadoop大數據系統的七大危險信號 經驗

分布式運算平臺-Hadoop-基礎篇 文檔

MapReduce詳解及Eclipse遠程連接Hadoop開發MapReduce程序 文檔

Hadoop十歲！Doug Cutting成長史+他眼中大數據技術的未來 資訊

CentOS6.2 下 Hadoop 全分布式集群配置文檔 文檔

Hadoop：分布式大數據處理架構 文檔

Hadoop開發環境搭建(Win8+Linux) 文檔

Hadoop HDFS分布式文件系統設計要點與架構 經驗

Hadoop集群部署及常見問題超細詳解答 經驗

Spring hadoop之發散之Storm云計算學習摘錄總結 經驗

Hadoop和數據庫數據遷移工具 Sqoop 經驗

Ubuntu安裝hadoop 的相關搜索

關鍵詞

Spark：比Hadoop更強大的分布式數據計算項目經驗

大數據技術hadoop入門理論系列之二—HDFS架構簡介經驗

提高hadoop的mapreduce job效率筆記—–修改mapper和reducer數量經驗

Hadoop簡單應用案例，包括MapReduce、單詞統計、HDFS基本操作等經驗

Hadoop2.6.0上的spark1.5.2集群搭建經驗

hadoop再次集群搭建（2）-配置免秘鑰ssh登錄經驗

Kafka實戰：從RDBMS到Hadoop，七步實現實時傳輸經驗

Hadoop大數據系統的七大危險信號經驗

分布式運算平臺-Hadoop-基礎篇文檔

MapReduce詳解及Eclipse遠程連接Hadoop開發MapReduce程序文檔

Hadoop十歲！Doug Cutting成長史+他眼中大數據技術的未來資訊

CentOS6.2 下 Hadoop 全分布式集群配置文檔文檔

Hadoop：分布式大數據處理架構文檔

Hadoop HDFS分布式文件系統設計要點與架構經驗

Hadoop集群部署及常見問題超細詳解答經驗

Spring hadoop之發散之Storm云計算學習摘錄總結經驗