消息系統Kafka介紹

jopen 12年前發布 | 25K 次閱讀 Kafka 消息系統

1、概述

Kafka是Linkedin于2010年12月份開源的消息系統，它主要用于處理活躍的流式數據。活躍的流式數據在web網站應用中非常常見，這些數據包括網站的pv、用戶訪問了什么內容，搜索了什么內容等。這些數據通常以日志的形式記錄下來，然后每隔一段時間進行一次統計處理。

傳統的日志分析系統提供了一種離線處理日志信息的可擴展方案，但若要進行實時處理，通常會有較大延遲。而現有的消（隊列）系統能夠很好的處理實時或者近似實時的應用，但未處理的數據通常不會寫到磁盤上，這對于Hadoop之類（一小時或者一天只處理一部分數據）的離線應用而言，可能存在問題。 Kafka正是為了解決以上問題而設計的，它能夠很好地離線和在線應用。

2、設計目標

（1）數據在磁盤上存取代價為O(1)。一般數據在磁盤上是使用BTree存儲的，存取代價為O（lgn）。

（2）高吞吐率。即使在普通的節點上每秒鐘也能處理成百上千的message。

（3）顯式分布式，即所有的producer、broker和consumer都會有多個，均為分布式的。

（4）支持數據并行加載到Hadoop中。

3、 KafKa部署結構

kafka是顯式分布式架構，producer、broker（Kafka）和consumer都可以有多個。Kafka的作用類似于緩存，即活躍的數據和離線處理系統之間的緩存。幾個基本概念：

（1）message（消息）是通信的基本單位，每個producer可以向一個topic（主題）發布一些消息。如果consumer訂閱了這個主題，那么新發布的消息就會廣播給這些consumer。

（2）Kafka是顯式分布式的，多個producer、consumer和broker可以運行在一個大的集群上，作為一個邏輯整體對外提供服務。對于consumer，多個consumer可以組成一個group，這個message只能傳輸給某個group中的某一個consumer.

4、 KafKa關鍵技術點

（1） zero-copy

在Kafka上，有兩個原因可能導致低效：1）太多的網絡請求 2）過多的字節拷貝。為了提高效率，Kafka把message分成一組一組的，每次請求會把一組message發給相應的consumer。此外，為了減少字節拷貝，采用了sendfile系統調用。為了理解sendfile原理，先說一下傳統的利用socket發送文件要進行拷貝：

Sendfile系統調用：

（2） Exactly once message transfer

怎樣記錄每個consumer處理的信息的狀態？在Kafka中僅保存了每個consumer已經處理數據的offset。這樣有兩個好處：1）保存的數據量少 2）當consumer出錯時，重新啟動consumer處理數據時，只需從最近的offset開始處理數據即可。

（3）Push/pull

Producer 向Kafka（push）推數據，consumer 從kafka 拉（pull）數據。

（4）負載均衡和容錯

Producer和broker之間沒有負載均衡機制。
broker和consumer之間利用zookeeper進行負載均衡。所有broker和consumer都會在zookeeper中進行注冊，且 zookeeper會保存他們的一些元數據信息。如果某個broker和consumer發生了變化，所有其他的broker和consumer都會得到通知。

【參考資料】

【1】Kafka主頁：http://sna-projects.com/kafka/design.php

【2】Zero-copy原理：https://www.ibm.com/developerworks/linux/library/j-zerocopy/

【3】Kafka與Hadoop：http://sna-projects.com/sna/media/kafka_hadoop.pdf

來自： http://dongxicheng.org/search-engine/kafka/

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1390376098445.html

Kafka 消息系統

消息系統Kafka介紹

相關經驗

相關資訊

相關文檔

目錄