淘寶分布式配置管理服務Diamond

jopen 11年前發布 | 14K 次閱讀 Diamond

在一個分布式環境中,同類型的服務往往會部署很多實例。這些實例使用了一些配置,為了更好地維護這些配置就產生了配置管理服務。通過這個服務可以輕松地管理這些應用服務的配置問題。應用場景可概括為:

淘寶分布式配置管理服務Diamond

zookeeper的一種應用就是分布式配置管理(基于ZooKeeper的配置信息存儲方案的設計與實現)。百度也有類似的實現:disconf

Diamond則是淘寶開源的一種分布式配置管理服務的實現。Diamond本質上是一個Java寫的Web應用,其對外提供接口都是基于HTTP協議的,在閱讀代碼時可以從實現各個接口的controller入手。

分布式配置管理

分布式配置管理的本質基本上就是一種推送-訂閱模式的運用。配置的應用方是訂閱者,配置管理服務則是推送方。概括為下圖:

淘寶分布式配置管理服務Diamond

其中,客戶端包括管理人員publish數據到配置管理服務,可以理解為添加/更新數據;配置管理服務notify數據到訂閱者,可以理解為推送。

配置管理服務往往會封裝一個客戶端庫,應用方則是基于該庫與配置管理服務進行交互。在實際實現時,客戶端庫可能是主動拉取(pull)數據,但對于應用方而言,一般是一種事件通知方式。

Diamond中的數據是簡單的key-value結構。應用方訂閱數據則是基于key來訂閱,未訂閱的數據當然不會被推送。數據從類型上又劃分為 聚合和非聚合。因為數據推送者可能很多,在整個分布式環境中,可能有多個推送者在推送相同key的數據,這些數據如果是聚合的,那么所有這些推送者推送的 數據會被合并在一起;反之如果是非聚合的,則會出現覆蓋。

數據的來源可能是人工通過管理端錄入,也可能是其他服務通過配置管理服務的推送接口自動錄入。

架構及實現

Diamond服務是一個集群,是一個去除了單點的協作集群。如圖:

淘寶分布式配置管理服務Diamond

圖中可分為以下部分講解:

服務之間同步

Diamond服務集群每一個實例都可以對外完整地提供服務,那么意味著每個實例上都有整個集群維護的數據。Diamond有兩種方式保證這一點:

  • 任何一個實例都有其他實例的地址;任何一個實例上的數據變更時,都會將改變的數據同步到mysql上,然后通知其他所有實例從mysql上進行一次數據拉取(DumpService::dump),這個過程只拉取改變了的數據
  • 任何一個實例啟動后都會以較長的時間間隔(幾小時),從mysql進行一次全量的數據拉取(DumpAllProcessor)

實現上為了一致性,通知其他實例實際上也包含自己。以服務器收到添加聚合數據為例,處理過程大致為:

[plain] view plain copy
  1. DatumController::addDatum // /datum.do?method=addDatum  
  2.     PersistService::addAggrConfigInfo   
  3.     MergeDatumService::addMergeTask // 添加一個MergeDataTask,異步處理  
  4.   
  5. MergeTaskProcessor::process  
  6.     PersistService::insertOrUpdate  
  7.         EventDispatcher.fireEvent(new ConfigDataChangeEvent // 派發一個ConfigDataChangeEvent事件  
  8.   
  9. NotifyService::onEvent // 接收事件并處理  
  10.     TaskManager::addTask(..., new NotifyTask // 由此,當數據發生變動,則最終創建了一個NoticyTask  
  11.   
  12. // NotifyTask同樣異步處理  
  13. NotifyTaskProcessor::process  
  14.     foreach server in serverList // 包含自己  
  15.         notifyToDump // 調用 /notify.do?method=notifyConfigInfo 從mysql更新變動的數據  

雖然Diamond去除了單點問題,不過問題都下降到了mysql上。但由于其作為配置管理的定位,其數據量就mysql的應用而言算小的了,所以可以一定程度上保證整個服務的可用性。

數據一致性

由于Diamond服務器沒有master,任何一個實例都可以讀寫數據,那么針對同一個key的數據則可能面臨沖突。這里應該是通過mysql來 保證數據的一致性。每一次客戶端請求寫數據時,Diamond都將寫請求投遞給mysql,然后通知集群內所有Diamond實例(包括自己)從 mysql拉取數據。當然,拉取數據則可能不是每一次寫入都能拉出來,也就是最終一致性。

Diamond中沒有把數據放入內存,但會放到本地文件。對于客戶端的讀操作而言,則是直接返回本地文件里的數據。

服務實例列表

Diamond服務實例列表是一份靜態數據,直接將每個實例的地址存放在一個web server上。無論是Diamond服務還是客戶端都從該web server上取出實例列表。

對于客戶端而言,當其取出了該列表后,則是隨機選擇一個節點(ServerListManager.java),以后的請求都會發往該節點。

數據同步

客戶端庫中以固定時間間隔從服務器拉取數據(ClientWorker::ClientWorkerClientWorker::checkServerConfigInfo)。只有應用方關心的數據才可能被拉取。另外,為了數據推送的及時,Diamond還使用了一種long polling的技術,其實也是為了突破HTTP協議的局限性。如果整個服務是基于TCP的自定義協議,客戶端與服務器保持長連接則沒有這些問題

數據的變更

Diamond中很多操作都會檢查數據是否發生了變化。標識數據變化則是基于數據對應的MD5值來實現的。

容災

在整個Diamond系統中,幾個角色為了提高容災性,都有自己的緩存,概括為下圖:

淘寶分布式配置管理服務Diamond

每一個角色出問題時,都可以盡量保證客戶端對應用層提供服務。

參考文檔

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!