Docker 容器健康檢查機制

KeeSpears 8年前發布 | 38K 次閱讀 Docker

摘要： 在分布式系統中，經常需要利用健康檢查機制來檢查服務的可用性，防止其他服務調用時出現異常。自 1.12 版本之后，Docker 引入了原生的健康檢查實現。本文將介紹Docker容器健康檢查機制，以及在Docker Swarm mode下面的新特性

在分布式系統中，經常需要利用健康檢查機制來檢查服務的可用性，防止其他服務調用時出現異常。

對于容器而言，最簡單的健康檢查是進程級的健康檢查，即檢驗進程是否存活。Docker Daemon會自動監控容器中的PID1進程，如果docker run命令中指明了restart policy，可以根據策略自動重啟已結束的容器。在很多實際場景下，僅使用進程級健康檢查機制還遠遠不夠。比如，容器進程雖然依舊運行卻由于應用死鎖無法繼續響應用戶請求，這樣的問題是無法通過進程監控發現的。

在Kubernetes提供了Liveness與Readness探針分別對Container及其服務健康狀態進行檢查。阿里云容器服務也提供了類似的服務健康檢查機制。

Docker 原生健康檢查能力

而自 1.12 版本之后，Docker 引入了原生的健康檢查實現，可以在Dockerfile中聲明應用自身的健康檢測配置。HEALTHCHECK 指令聲明了健康檢測命令，用這個命令來判斷容器主進程的服務狀態是否正常，從而比較真實的反應容器實際狀態。

HEALTHCHECK 指令格式：

HEALTHCHECK [選項] CMD <命令>：設置檢查容器健康狀況的命令
HEALTHCHECK NONE：如果基礎鏡像有健康檢查指令，使用這行可以屏蔽掉

注：在Dockerfile中 HEALTHCHECK 只可以出現一次，如果寫了多個，只有最后一個生效。

使用包含 HEALTHCHECK 指令的dockerfile構建出來的鏡像，在實例化Docker容器的時候，就具備了健康狀態檢查的功能。啟動容器后會自動進行健康檢查。

HEALTHCHECK 支持下列選項：

--interval=<間隔>：兩次健康檢查的間隔，默認為 30 秒；
--timeout=<間隔>：健康檢查命令運行超時時間，如果超過這個時間，本次健康檢查就被視為失敗，默認 30 秒；
--retries=<次數>：當連續失敗指定次數后，則將容器狀態視為 unhealthy，默認 3 次。
--start-period=<間隔>: 應用的啟動的初始化時間，在啟動過程中的健康檢查失效不會計入，默認 0 秒； (從17.05)引入

在 HEALTHCHECK [選項] CMD 后面的命令，格式和 ENTRYPOINT 一樣，分為 shell 格式，和 exec 格式。命令的返回值決定了該次健康檢查的成功與否：

0：成功；
1：失敗；
2：保留值，不要使用

容器啟動之后，初始狀態會為 starting (啟動中)。Docker Engine會等待 interval 時間，開始執行健康檢查命令，并周期性執行。如果單次檢查返回值非0或者運行需要比指定 timeout 時間還長，則本次檢查被認為失敗。如果健康檢查連續失敗超過了 retries 重試次數，狀態就會變為 unhealthy (不健康)。

注：