基于Hadoop的數據收集系統 - Chukwa

openkk 12年前發布 | 45K 次閱讀 Hadoop 分布式/云計算/大數據

什么是 Chukwa,簡單的說它是一個數據收集系統,它可以將各種各樣類型的數據收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進行各種 MapReduce 操作。Chukwa 本身也提供了很多內置的功能,幫助我們進行數據的收集和整理。

Chukwa是由Yahoo貢獻,基于Hadoop的大集群監控系統,可以用他來分析和收集系統中的數據(日志)。Chukwa運行HDFS中存儲數據的收集器和MapReduce框架之上,并繼承了Hadoop的可擴展性和魯棒性, Chukwa使用MapReduce來生成報告,他還包括一個用于監測和分析結果顯示的web-portal工具,通過web-portal工具使這個收集數據的更佳具有靈活性,這點有點像是類似 linux工具,例如:awk 。這幾乎是一個日志處理/分析的full stack solution,國內用hadoop做日志分析的,或者將要做日志分析的可以關注下。

   搭建、運行Chukwa要在Linux環境下,要安裝MySQL數據庫,在Chukwa/conf目錄 中有2個SQL腳本 aggregator.sql、database_create_tables.sq l 導入MySQL數據庫,此外還要有Hadoo的HDSF運行環境,Chukwa的整個系統架構如圖所示:
 
http://niaklq.bay.livefilestore.com/y1p58UGaCioDWZCD5T_To2jnjZccitA-9LbtNNmA5rSLRS8kxHu8D4ikTZomNGryONjCvI9YzM2Zw-Z1f9bd_o2D7hQeuh3nKqd/components.gif?psid=1
 

Chukwa 由哪幾個組件組成的? 
    Chukwa是Yahoo開發的Hadoop之上的數據采集/分析框架,主要用于日志采集/分析。該框架提供了采集數據的Agent,由Agent采集數據通過HTTP發送數據給Cluster的Collector,collector把數據sink進Hadoop,然后通過定期運行Map reducer來分析數據,將結果呈現給用戶。
Chukwa 有以下4個主要的組成部分:
    Agent 收集各服務器的數據
    Collectors 接收agent的數據;并寫進存儲
    MapReduce jobs  歸檔數據
    HICC 就是 Hadoop Infrastructure Care Center的四個英文單詞的縮寫,簡單來說是個Web工程用于ChukWa的內容展示。 

幾個部件大致的處理流程如下:

http://niaklq.bay.livefilestore.com/y1p58UGaCioDWZ9dX9OL6lD2qMfPo9GuJcEHC14HRWP6DdXs4tRU_bUS58ZdMaMgGVwP9QCP0US17Av4hTQmMOpxnZt9vjhMTBC/datapipeline.png?psid=1

項目主頁:http://www.baiduhome.net/lib/view/home/1330353916280

 本文由用戶 openkk 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!