大數據(一) - hadoop生態系統及版本演化

jopen 10年前發布 | 23K 次閱讀 分布式/云計算/大數據








HDFS:分布式存儲系統(Hadoop Distributed File System):提供了高可靠性、高擴展性和高吞吐率的數據存儲服務

            HDFS源自于Google的GFS論文 (發表于2003年10月 ),是GFS克隆版

YARN:資源管理系統(Yet Another Resource Negotiator):負責集群資源的統一管理和調度,Hadoop 2.0新增系統,使得 多種計算框架可以運行在一個集群
MapReduce:分布式計算框架:具有易于編程、高容錯性和高擴展性等優點 </div>

            MapReduce源自于Google的MapReduce論文 (發表于2004年12月),是Google MapReduce克隆版


Hive:由非死book開源,基于MR的數據倉庫,數據計算使用MR,數據存儲使用HDFS,Hive 定義了一種類 SQL 查詢語言——HQL: 類似SQL,但不完全相同
</div> </div>

        日志分析:統計網站一個時間段內的pv、uv

Pig:由yahoo!開源,構建在Hadoop之上的 數據倉庫




Mahout:數據挖掘庫,基于Hadoop的機器學習和數據挖掘的分布式計算框架,實現了三大類算法 : 推薦(Recommendation) 、 聚類(Clustering) 、 分類(Classification)

HBase:分布式 數據庫,源自Google的Bigtable論文 , 發表于2006年11月 , 是Google Bigtable克隆版

Zookeeper:分布式協作服務,源自Google的Chubby論文 , 發表于2006年11月 , 是Chubby克隆版

                解決分布式環境下數據管理問題 : 統一命名 、 狀態同步 、 集群管理 、 配置同步

Sqoop:數據同步工具,連接Hadoop與傳統數據庫之間的橋梁 , 支持多種數據庫,包括MySQL、DB2等 , 插拔式,用戶可根據需要支持新的數據庫 ;本質上是一個MapReduce程序

Flume:日志收集工具, Cloudera開源的日志收集系統

Oozie:作業流調度系統

        目前計算框架和作業類型繁多:  MapReduce Java、Streaming、HQL、Pig等 

        如何對這些框架和作業進行統一管理和調度:

                不同作業之間存在依賴關系(DAG);

                周期性作業

                定時執行的作業

                作業執行狀態監控與報警(發郵件、短信等)



Hadoop發行版本

        apache hadoop版本

        CDH:Cloudera Distributed Hadoop

                     http://archive.cloudera.com/cdh5/cdh/

        HDP:Hortonworks Data Platform

                     http://zh.hortonworks.com/hdp/downloads/

建議選擇公司發行版(不必面臨版本某一個框架的選擇問題),比如CDH或HDP , 推薦使用CDH(國內主流版本)

        更易維護和升級

        經過集成測試,不會面臨版本兼容問題

來自: http://blog.csdn.net//matthewei6/article/details/50499343

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!