攜程解釋癱瘓原因:員工錯誤操作 刪除執行代碼

jopen 9年前發布 | 5K 次閱讀 攜程

編者:從上午11點到夜間11點完全恢復,整個故障時間持續整整12個小時,運維的反思、互聯網的反思!

昨日上午11:09,攜程官方網站及APP大面積癱瘓,無法正常使用。直到昨日晚間23:29,攜程官方網站及APP恢復正常。對此,攜程向鳳凰科技發來聲明,稱經技術排查,確認此次事件是由于員工錯誤操作,刪除了生產服務器上的執行代碼導致。

攜程解釋癱瘓原因:員工錯誤操作 刪除執行代碼

攜程在聲明中說,攜程后臺是一個由SOA(面向服務)架構組成的龐大服務器集群,看似簡單的一個頁面背后由上千個應用子系統以及上千個Web Service組成,而每個應用子系統和每個Web Service之間都存在著相互調用的依賴關系。發生事件后,攜程的技術人員除了需要恢復生產服務器上的執行代碼以外,還需要做的是恢復并確保每個應用子 系統以及每個Web Service的功能正常,同時確保應用子系統與Web Service間的調用關系得以正常執行。因此才花費了十二個多小時才恢復正常。

攜程稱,數據和數據庫并未受到此次事件的影響,用戶訂單數據也完整無損。

對于該員工后續如何處理,攜程方面暫未表態。

以下為攜程的簡要原因說明:

1、事件發生原因

經攜程技術排查,確認此次事件是由于員工錯誤操作,刪除了生產服務器上的執行代碼導致。

2、為什么恢復時間那么長

一 般來說,類似攜程這樣的大型網站承載著繁多業務,其后臺是一個由SOA(面向服務)架構組成的龐大服務器集群,看似簡單的一個頁面背后由上千個應用子系統 以及上千個Web Service組成,而每個應用子系統和每個Web Service之間都存在著相互調用的依賴關系。

發生事件后,攜程的技術人員除了需要恢復生產服務器上的執行代碼以外,還需要做的是恢復并確保每個應用子系統以及每個Web Service的功能正常,同時確保應用子系統與Web Service間的調用關系得以正常執行。

這種驗證性的操作需要攜程的工程師及運維人員通力合作,盡快恢復生產代碼并通過反復地、持續性地調試以確保應用子系統與Web Service功能的正常運行。

攜程再次保證,數據和數據庫并未受到此次事件的影響,用戶訂單數據也完整無損,請用戶放心并繼續使用攜程網站及App。

3、如何杜絕此類事件的再次發生?

攜程在系統上做了改進,規范并杜絕技術人員錯誤刪除生產服務器上代碼的操作。

來自:http://www.oschina.net/news/62851/ctrip-down-reason

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!