分布式實時統計系統 Rainbird

openkk 12年前發布 | 26K 次閱讀 分布式 分布式/云計算/大數據

Rainbird 是 推ter開發的一款分布式實時統計系統。

用處

Rainbird可以用于實時數據的統計:

1 統計網站中每一個頁面,域名的點擊次數

2 內部系統的運行監控(統計被監控服務器的運行狀態)

3 記錄最大值和最小值

 

性能要求

作為大型網站的分布式應用,需要具備以下性能: 

1 極高的寫入性能,可以達到100,000的WPS

2 非常高的讀取性能,可以達到10,000s的RPS

3 高度的可擴展性,包括讀取和存儲等等,能夠擴展到100+ TB的量級

4 讀取速度響應間隔短,絕大多數的讀取速度應該不超過100ms

 

系統組件

Rainbird一款基于Zookeeper, Cassandra, Scribe, Thrift的分布式實時統計系統,這些基礎組件的基本功能如下:

1 Zookeeper,Hadoop子項目中的一款分布式協調系統,用于控制分布式系統中各個組件中的一致性。

2 Cassandra,NoSQL中一款非常出色的產品,集合了Dynamo和Bigtable特性的分布式存儲系統,用于存儲需要進行統計的數據,統計數據,并且提供客戶端進行統計數據的查詢。(需要使用分布式Counter補丁CASSANDRA-1072)

3 Scribe,非死book開源的一款分布式日志收集系統,用于在系統中將各個需要統計的數據源收集到Cassandra中。

4 Thrift,非死book開源的一款跨語言C/S網絡通信框架,開發人員基于這個框架可以輕易地開發C/S應用。

 

整體設計

Rainbird的設計架構圖如下:

分布式實時統計系統 Rainbird

整個Rainbird系統中各個組件之間的協調和容災處理由ZooKeeper負責,Cassandra負責整個數據的存儲和統計。

Front End中部署了Scribe,收集需要統計的數據,然后將收集到數據實時地發生到Rainbird Aggregator中。

Rainbird Aggregator將緩存收集的數據(1M),并將緩存的數據進行一次預處理,然后再將數據一次性批量寫入到Cassandra中。這里預處理的作用類似于MapReduce框架中的combiner的作用,在Maper端做Reduce。

Rainbird Query接受用戶的查詢請求,直接到Cassandra中查詢已經統計好的數據返回給客戶端。

項目主頁:http://www.baiduhome.net/lib/view/home/1334108949171

 本文由用戶 openkk 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!