如何用Consul打造彈性可擴展的PaaS平臺
作者介紹
杜威,程序員,混跡互聯網研發和運維近十年。《Linux系統案例精解》合著者之一。目前就職亮風臺,專注DevOps、云計算、大數據等相關領域。
應用背景
HiAR 是亮風臺打造的新一代增強現實(AR)開發平臺,提供簡單易用、功能強大、跨平臺的 AR 服務。讓廣大開發者可以輕松使用最前沿的計算機視覺技術、計算機圖形學技術,快速搭建個性化的 AR 應用。
云服務是HiAR平臺中重要的基礎設施。無論從高可用,還是到可擴展,服務發現都發揮著不可或缺的作用。在沒有使用服務發現之前,我們遇到的幾個痛點:
◆ 系統添加一個服務節點,我們需要手工修改Nginx/LVS的配置文件、修改DNS記錄。
◆ 應用服務發布新版本,我們還是需要手工修改Nginx的配置文件把節點下線、等待發布成功后,再次修改Nginx的配置文件把服務上線。
◆ 盡管后來我們對上面兩種場景的運維做了改進,編寫腳本把過程改良為半自動半手動的方式,但還不是很方便,而結合服務注冊就可以做到全自動。
◆ 內網DNS出了故障,我們需要對DNS服務進行維護。
◆ 沒有服務注冊,限制了Docker的發揮,只能當輕量級虛擬機來用。
現在,有了服務發現,一切都變得簡單有趣。增減服務節點可以自動更新Nginx/LVS的配置文件;DNS丟一邊吧!用IP就好;接入Mesos+Docker玩彈性擴展。
為什么選擇 Consul
已經有很多文章對Zookeeper、etcd、Consul進行比較,這里就不重復類比了。沒有什么比合適更重要!Consul 的運維成本低,部署簡單、使用方便、五臟俱全,這對于中小型團隊應該是性價比很高的。
在進入實戰前,先看看 Consul 都有哪些特性。
◆ 服務注冊。通過HTTP API或DNS,告訴服務注冊中心有新的服務加入。
◆ 服務發現。通過HTTP API或DNS,可以知道目標服務的地址和端口。
◆ 健康檢查。支持多種方式,HTTP、TCP、Docker、Shell腳本定制化監控。
◆ 配置模板。Consul Template 負責定期從服務注冊中心獲取信息,如果有變化自動更新配置文件并重新加載。
以上四點已經能滿足很多企業的需求。當然這不是Consul的所有,Consul還有很多錦上添花的特性,比如:可視化Web界面、支持多數據中心。
實戰經驗
我們對Consul的使用可以歸納到四個方面:部署、應用、管理、升級。
部署
Consul Cluster有Server和Client兩種角色。Server一般是3~5臺,這也是官方推薦的。Consul Client就是需要進行服務注冊或服務發現的節點。
Consul的部署簡單、開箱即用,一個consul可執行文件,還沒有亂七八糟的依賴。在官網下載編譯好的Consul agent可執行文件,并上傳到所有Server和Client角色的節點,便隨時可啟動consul agent了。
下面一起來看看,如何啟動一個Consul集群(3臺Server、1臺Client)。
實驗環境:
server01 192.168.1.11 server02 192.168.1.12 server03 192.168.1.13 client01 192.168.1.21
分別登錄Server01、Server02、Server03,并啟動agent。
[worker@server01 ~]$ consul agent -server -bootstrap-expect 2 -data-dir /tmp/consul -bind=192.168.1.11 -node=server01 [worker@server02 ~]$ consul agent -server -bootstrap-expect 2 -data-dir /tmp/consul -bind=192.168.1.12 -node=server02 [worker@server03 ~]$ consul agent -server -bootstrap-expect 2 -data-dir /tmp/consul -bind=192.168.1.13 -node=server03
新開窗口登錄Server03,加入Server01、Server02的集群。
[worker@server03 ~]$ consul join 192.168.1.11 192.168.1.12
上面幾步就完成了初始化Server節點,以后通過-rejoin參數啟動,可以重新加入集群。
[worker@server01 ~]$ consul agent -server -bootstrap-expect 2 -data-dir /tmp/consul -bind=192.168.1.11 -node=server01 -rejoin [worker@server02 ~]$ consul agent -server -bootstrap-expect 2 -data-dir /tmp/consul -bind=192.168.1.12 -node=server02 -rejoin [worker@server03 ~]$ consul agent -server -bootstrap-expect 2 -data-dir /tmp/consul -bind=192.168.1.13 -node=server03 -rejoin
就這樣三個Server節點部署完畢。接下來,部署Client節點,和Server節點一樣,有初次啟動、手工加入和重新加入集群三步。
[worker@client01 ~]$ consul agent -data-dir /tmp/consul -bind=192.168.1.21 -node=client01
還是在Client01上,新開一個登錄窗口,加入Server01的集群。
[worker@client01 ~]$ consul join 192.168.1.11
Client01節點日后的維護,通過-rejoin參數啟動,便可重新加入集群。
[worker@client01 ~]$ consul agent -data-dir /tmp/consul -bind=192.168.1.21 -node=client01 -rejoin
到這里為止,我們已經搭建好了一個Consul集群。然而,怎么進行服務注冊和服務發現呢?這得跟實際需求緊密結合,在接下來的小節中進一步說明。
應用
Consul不是單獨存在的。為了充分發揮Consul的優勢,可以結合Nginx、LVS、Docker等工具來應用。
Nginx、LVS是系統的基礎組件,RecoService、FeatureService、SearchService是基于SOA的內部服務。前者向Consul集群發現服務,后者向Consul集群注冊服務。Consul是粘合劑也是開關,讓整個系統的運作起來,低成本的實現了彈性伸縮。
接入層,用的是Nginx,負責反向代理和負載均衡。Nginx節點上跑兩個Consul相關服務。一個是Consul Agent,做Consul Client;另外一個是Consul Template,做服務發現和配置更新。Consul Template負責定期查詢本地Consul Agent,如果相關服務的注冊信息有變化,則更新Nginx的配置文件并重新加載Nginx服務。
運行Consul Template是實現彈性擴展的關鍵步驟:
$ consul-template -consul 127.0.0.1:8500 -template "/etc/nginx/conf/vhosts/test.ctmpl:/etc/nginx/conf/vhosts/test.conf:nginx -s reload"
上面這句命令中,test.conf是Nginx的虛擬主機配置文件,test.ctmpl是該配置文件對應的模板。下面是模板在負載均衡上的代碼片段:
upstream test-cluster { ip_hash;{{range service "test"}} server {{.Address}}:{{.Port}};{{end}} }
邏輯層,基于SOA的內部服務集群。不同的內部服務集群之間通信需要做服務發現,這里引入LVS做服務發現。好處是不用在內部服務的代碼里實現服務發現,而且規模大了還要做負載均衡。與接入層的Nginx類似,LVS也用Consul Template定期查詢本地Consul Agent,更新相關配置文件,然后重載服務。
內部服務如何向服務中心注冊?有兩種方式,一是通過Consul的服務注冊HTTP API,由服務自身在啟動后調用API注冊自己,二是通過在配置文件中定義服務的方式進行注冊。建議使用后面一種方式來做服務注冊。怎么辦到的?請繼續往下看 :)
為項目添加一個配置文件consul.json,指定服務名稱和服務端口,并加上健康檢查,內容如下:
{ "service": { "name" : "test", "port" : 9999, "check": { "tcp": "127.0.0.1:9999", "interval": "10s" } } }
最后一步,對服務進行注冊,需要在Consul agent啟動時指定配置文件,如下:
$ consul agent -data-dir /tmp/consul -node=test -bind=192.168.1.21 -config-dir=/tmp/consul.json
管理
一是節點管理,也就是Consul進程的管理。由于Consul Agent本身不具備高可用能力,所以我們有必要對Consul進程進行接管,我們用的是Systemd,你也可以選擇Supervisord或者Upstart這些進程管理工具。
二是集群管理,Consul提供了可視化管理界面。可以查看所有的服務和節點,以及它們的健康檢測和當前狀態。
升級
由于Consul關系到整個系統的正常運作,所以升級的時候還是要很小心。最好在測試環境試驗多幾次,再到生產環境升級。升級的狀況可以歸納為下面三種,需要對號入座之后再進行升級。
◆ 特殊版本的升級。在upgrade-specific頁面查看當前升級的版本是否有特殊說明。比如:0.5.1之前的版本直接升級到0.6版本,要借助工具consul-migrate進行數據遷移。
◆ 不兼容的升級。使用consul -v查看新版的向后兼容協議版本號,當出現與當前版本不兼容時,需要分兩步升級。先通過參數-protocal=舊的協議版本號,把整個集群升級一次,再把啟動命令中的參數-protocal去掉來重啟所有節點。
◆ 標準的升級。如果上面兩種情況都不是,那么恭喜你,你需要做的只是簡單的標準升級。即:停止舊版本的agent,然后啟動新版本的agent。PS:其實大多數情況都是標準升級。
升級節點的推薦順序是,先升級Server的Follower節點,再升級Server的Leader節點,最后升級所有Client的節點。
結語
在系統中引入服務注冊和發現,雖然是一發牽動全身的改造,但整個系統架構會因此受益,尤其是現代的微服務架構。相信很多系統都具備負載均衡、健康檢查、心跳檢測等能力,利用好服務發現,那么彈性伸縮、服務高可用、灰度發布,自然是水到渠成的事情。
來自: http://os.51cto.com/art/201601/504856.htm