flume-ng+Kafka+Storm+HDFS 實時系統搭建

liu0627 10年前發布 | 56K 次閱讀分布式/云計算/大數據

來自： http://blog.csdn.net/weijonathan/article/details/18301321 和 http://www.51studyit.com/html/notes/2...

一直以來都想接觸Storm實時計算這塊的東西，最近在群里看到上海一哥們羅寶寫的Flume+Kafka+Storm的實時日志流系統的搭建文檔，自己也跟著整了一遍，之前羅寶的文章中有一些要注意點沒提到的，以后一些寫錯的點，在這邊我會做修正；內容應該說絕大部分引用羅寶的文章的，這里要謝謝羅寶兄弟，還有寫這篇文章@晨色星空J2EE也給了我很大幫助，這里也謝謝@晨色星空J2EE

之前在弄這個的時候，跟群里的一些人討論過，有的人說，直接用storm不就可以做實時處理了，用不著那么麻煩；其實不然，做軟件開發的都知道模塊化思想，這樣設計的原因有兩方面：

一方面是可以模塊化，功能劃分更加清晰，從“數據采集--數據接入--流失計算--數據輸出/存儲”

1）.數據采集

負責從各節點上實時采集數據，選用cloudera的flume來實現

2）.數據接入

由于采集數據的速度和數據處理的速度不一定同步，因此添加一個消息中間件來作為緩沖，選用apache的kafka

3）.流式計算

對采集到的數據進行實時分析，選用apache的storm

4）.數據輸出

對分析后的結果持久化，暫定用mysql

另一方面是模塊化之后，加入當Storm掛掉了之后，數據采集和數據接入還是繼續在跑著，數據不會丟失，storm起來之后可以繼續進行流式計算；

那么接下來我們來看下整體的架構圖

詳細介紹各個組件及安裝配置：

操作系統：ubuntu

Flume

Flume是Cloudera提供的一個分布式、可靠、和高可用的海量日志采集、聚合和傳輸的日志收集系統，支持在日志系統中定制各類數據發送方，用于收集數據;同時，Flume提供對數據進行簡單處理，并寫到各種數據接受方(可定制)的能力。

下圖為flume典型的體系結構：

Flume數據源以及輸出方式:

Flume提供了從console(控制臺)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系統，支持TCP和UDP等2種模式)，exec(命令執行)等數據源上收集數據的能力,在我們的系統中目前使用exec方式進行日志采集。

Flume的數據接受方，可以是console(控制臺)、text(文件)、dfs(HDFS文件)、RPC(Thrift-RPC)和syslogTCP(TCP syslog日志系統)等。在我們系統中由kafka來接收。

Flume下載及文檔：

http://flume.apache.org/

Flume安裝：

[plain] view plain copy

$tar zxvf apache-flume-1.4.0-bin.tar.gz/usr/local

Flume啟動命令：

[plain] view plain copy

$bin/flume-ng agent --conf conf --conf-file conf/flume-conf.properties --name producer -Dflume.root.logger=INFO,console

Kafka

kafka是一種高吞吐量的分布式發布訂閱消息系統，她有如下特性：

通過O(1)的磁盤數據結構提供消息的持久化，這種結構對于即使數以TB的消息存儲也能夠保持長時間的穩定性能。
高吞吐量：即使是非常普通的硬件kafka也可以支持每秒數十萬的消息。
支持通過kafka服務器和消費機集群來分區消息。
支持Hadoop并行數據加載。

kafka的目的是提供一個發布訂閱解決方案，它可以處理消費者規模的網站中的所有動作流數據。這種動作（網頁瀏覽，搜索和其他用戶的行動）是在現代網絡上的許多社會功能的一個關鍵因素。這些數據通常是由于吞吐量的要求而通過處理日志和日志聚合來解決。對于像Hadoop的一樣的日志數據和離線分析系統，但又要求實時處理的限制，這是一個可行的解決方案。kafka的目的是通過Hadoop的并行加載機制來統一線上和離線的消息處理，也是為了通過集群機來提供實時的消費。

kafka分布式訂閱架構如下圖：--取自Kafka官網

羅寶兄弟文章上的架構圖是這樣的

其實兩者沒有太大區別，官網的架構圖只是把Kafka簡潔的表示成一個Kafka Cluster，而羅寶兄弟的架構圖就相對詳細一些；

Kafka版本：0.8.0

Kafka下載及文檔：http://kafka.apache.org/

Kafka安裝：

[plain] view plain copy

> tar xzf kafka-<VERSION>.tgz
> cd kafka-<VERSION>
> ./sbt update
> ./sbt package
> ./sbt assembly-package-dependency

啟動及測試命令：

（1） start server

[plain] view plain copy

> bin/zookeeper-server-start.shconfig/zookeeper.properties
> bin/kafka-server-start.shconfig/server.properties

這里是官網上的教程，kafka本身有內置zookeeper，但是我自己在實際部署中是使用單獨的zookeeper集群，所以第一行命令我就沒執行，這里只是些出來給大家看下。

配置獨立的zookeeper集群需要配置server.properties文件，講zookeeper.connect修改為獨立集群的IP和端口

[plain] view plain copy

zookeeper.connect=nutch1:2181

（2）Create a topic

[plain] view plain copy

> bin/kafka-create-topic.sh --zookeeper localhost:2181 --replica 1 --partition 1 --topic test
> bin/kafka-list-topic.sh --zookeeperlocalhost:2181

（3）Send some messages

[plain] view plain copy

> bin/kafka-console-producer.sh--broker-list localhost:9092 --topic test

（4）Start a consumer

[plain] view plain copy

> bin/kafka-console-consumer.sh--zookeeper localhost:2181 --topic test --from-beginning

kafka-console-producer.sh和kafka-console-cousumer.sh只是系統提供的命令行工具。這里啟動是為了測試是否能正常生產消費；驗證流程正確性

在實際開發中還是要自行開發自己的生產者與消費者；

kafka的安裝也可以參考我之前寫的文章：http://blog.csdn.net/weijonathan/article/details/18075967

Storm

推ter將Storm正式開源了，這是一個分布式的、容錯的實時計算系統，它被托管在GitHub上，遵循 Eclipse Public License 1.0。Storm是由BackType開發的實時處理系統，BackType現在已在推ter麾下。GitHub上的最新版本是Storm 0.5.2，基本是用Clojure寫的。

Storm的主要特點如下：

簡單的編程模型。類似于MapReduce降低了并行批處理復雜性，Storm降低了進行實時處理的復雜性。
可以使用各種編程語言。你可以在Storm之上使用各種編程語言。默認支持Clojure、Java、Ruby和Python。要增加對其他語言的支持，只需實現一個簡單的Storm通信協議即可。
容錯性。Storm會管理工作進程和節點的故障。
水平擴展。計算是在多個線程、進程和服務器之間并行進行的。
可靠的消息處理。Storm保證每個消息至少能得到一次完整處理。任務失敗時，它會負責從消息源重試消息。
快速。系統的設計保證了消息能得到快速的處理，使用?MQ作為其底層消息隊列。（0.9.0.1版本支持?MQ和netty兩種模式）
本地模式。Storm有一個“本地模式”，可以在處理過程中完全模擬Storm集群。這讓你可以快速進行開發和單元測試。