“閏年蟲”引發Windows Azure中斷

openkk 12年前發布 | 5K 次閱讀 Windows

作者 Abel Abel 譯者 曹如進

微軟 Windows Azure 云平臺若干子區域受“閏年蟲”影響致許多客戶 12 至 24 個小時無法使用服務。

根據 Windows Azure 服務儀表板顯示,從 UTC 時間 2 月 29 日凌晨到 3 月 1 日早上,大量的子區域服務和全球性服務發生了超過 24 小時的中斷。以下是受影響的服務:

  • Windows Azure 計算服務(Compute Service)部分出現故障,6個子區域中有 4 個出錯,共影響了美國中北部區域6.7%、美國中南部 28% 以及北歐區域 37% 的托管服務。另外,Azure 的一些其他服務也受到了波及,包括:訪問控制2.0(Access Control 2.0)、市場(Marketplace)、服務總線(Service Bus)以及訪問控制&緩存入口(Access Control & Caching Portal);
  • 美國中南部區域的服務總線中斷超過 24 小時;
  • 位于美國中南部的市場也部分受到了超過 12 小時的影響,特別是那些需要 OAuth 訪問的服務。
  • 2012年 2 月 29 日觸發的某個證書問題導致服務管理(Service Management)服務在全球性范圍內受到影響。一些區域約 12 小時無法正常訪問,其他區域超過 24 小時無法正常訪問。

存儲、CDN 和其他服務似乎并未受到影響。  而平臺管理入口(Platform Management Portal)由于另外一個不同的問題,導致 3 月 1 號全球范圍內受到大約 3 小時的影響,其原因是因為“后臺某個設置被配置錯誤”。

微軟負責服務器和云服務的副總裁 Bill Laing 簡要通報了 Azure 客戶此次中斷及其原因。據 Laing 描述,Azure 團隊在太平洋標準時間 2 月 28 日下午5:45,即 UTC 時間 2 月 29 日上午1:45意識到該問題。而問題的罪魁禍首是由 2 月 29 日這個特殊日子觸發的一個軟件 bug。

這個問題迅速被觸發并確定起因是一個軟件 bug。雖然根本原因分析還在進行當中,但是問題看起來似乎是對閏年的時間計算不正確所致。

賽門鐵克報告說,閏年蟲影響了他們6.1版本的軟件交付。Inedo 合作伙伴 Alex Papadimoulis 報告說,他們的一些客戶受到了影響。此外,新西蘭一些銷售設備也發生了故障

雖然這個 bug 對小公司多少可以接受,但是對于微軟著實有些尷尬,特別是因為它影響了客戶托管在微軟云平臺上的服務。有意思的是,如此之小的事情竟然夠弄垮這么大的計算平臺,同樣一年前亞馬遜也發生過這樣的事情:在美國東部區域的一塊可用區流量被錯誤地轉到一個無法處理這些流量的低級別的路由中,影響了幾個 EBS(彈性塊存儲,Elastic Block Storage)結點,并最終導致了整個區域的垮掉。我們可能還會看到此類中斷事件,畢竟“人非圣賢,孰能無過”。

查看英文原文:http://www.infoq.com/news/2012/03/Azure-Blackout-Leap-Year-Bug

 本文由用戶 openkk 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!