MongoDB集群卡死問題

ijxo2226 9年前發布 | 12K 次閱讀 MongoDB

一年前搭了個MongoDB集群，跑得還算不錯，但是有幾次遇到過服務卡死的問題。處理起來已經得心應手了，拿來跟大家分享一下：

故障現象

業務查詢緩慢，而且會有連接異常：

{ "serverUsed" : "/10.6.19.80:10013" , "errmsg" : "exception: could not run map command on all shards for ns tloc.fileprops and query { author: { $in: [ \"exception\" ] }, type: { $in: [ 0, 1 ] } } :: caused by :: socket exception [CONNECT_ERROR] for shard2/10.6.19.91:10016" , "code" : 11002 , "ok" : 0.0}

{ "serverUsed" : "/10.6.19.108:10013" , "ok" : 0.0 , "errmsg" : "MR post processing failed: { errmsg: \"exception: could not initialize cursor across all shards because : socket exception [SEND_ERROR] for 10.6.19.91:10016 @ shard2/10.6.19.91:10016\", code: 14827, ok: 0.0 }"}

當時各個Mongo分片、路由、配置服務器進程有在運行，而且查看路由服務的IO也不算高，內存、CPU也是可以接受的。但是業務查詢卻會卡死，導致服務不可用。

故障原因

能通過本地連接上mongo，切到業務db，通過“db.currentOp()”查看到執行的操作，發現操作數已經開始積累，呈阻塞狀態。而且通過觀察可以發現一般操作累積的都是同一個分片下的任務，估計是這個分片出現了問題，有幾種可能性：

1、磁盤IO異常

2、任務參數不合理，查詢確實很慢

總之，不可能因為一個分片問題，導致整個集群不可用。

故障恢復

如果是線上可用性，一般都會很急的，現在知道了原因，應立即恢復。這里有兩種辦法：

1、一個一個地用db.killOp("opid")去殺掉某個操作（mongo沒有群殺，即使你重啟了路由，那些操作還在配置服務器里存著），但是這個不大合理，因為它的增長阻塞很快，而且很可能你連mongo都登不上，整個服務都癱瘓掉了；

2、暴力重啟分片，這個是目前我在使用的，也是比較快速有效的方法

具體重啟服務，也不是所有服務器都要重啟，只需要把引起阻塞的分片重啟即可：

1、通過db.currentOp()或分片mongd日志確認可疑分片

2、直接上分片機器，kill掉mongod進程

3、再啟動mongod進程

4、進入各個路由服務器，依次執行db.shutdownServer()，再啟動mongos進程

此時，應用里那些阻塞的操作應該都沒了，可以通過在路由服務上執行db.xxx.find()來確認是否集群可用。

閱讀原文

本文由用戶 ijxo2226 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1468591848980.html

MongoDB

MongoDB集群卡死問題

故障現象

故障原因

故障恢復

相關經驗

相關資訊

相關文檔

目錄