用 debugger 學習 golang

steppen 6年前發布 | 32K 次閱讀 Golang Google Go/Golang開發

常見的工程語言可分為解釋型和編譯型兩種,比如寫 php 的,一般就不怎么在乎 debugger 之類的東西。為什么?如果真出了問題,我可以臨時把出問題的服務機器從線上服務中摘除出來,甚至申請一個較高的權限去修改代碼,然后到處去 die/echo。雖然有人說這么做不太好,或者一般公司也不給開權限。不過著急的時候,這個肯定是可行的。然而像 java/go 這種編譯型的就比較麻煩了。線上一般只有程序的運行環境而沒有編譯環境。就算是在線下,每次去加一行 fmt.Println 或者 System.out.println 都去編譯一遍代碼也是會明顯降低幸福感的事情(當然這里有人說現在 java 支持 hotswap 之類的功能,不過你總還是會遇到需要重新編譯的場景。go 也是一樣的,項目大了,編譯時間還是可能會有個五六七八秒的。想要迅速地還原 bug 的現場,那還是能用 debugger 為上。

除了拿 debugger 來 debug。還可以用 debugger 來了解了解程序運行的機制,或者用 disass 來查看程序運行的匯編碼。這一點也很重要。應用層的語言很多時候因為 runtime 事無巨細的封裝,已經不是所見即所得的東西了,特別是像 go 這樣,你寫一個 var a = 1 卻連最終這個變量會被分配到堆上還是棧上都不知道。而像應用層的空 interface 和非空的 interface 實際的數據結構完全不一樣,這些如果你想知道的話一方面可以通過閱讀源代碼,但 go 的源代碼到你的代碼之間始終還是有一個轉換過程。如果你可以通過匯編直接查看運行時的結構顯然要更為直觀。

這篇文章也不準備寫得大而全,就簡單地舉一些可以靠 debugger 來幫我們更清楚地認識問題的場景吧。

var a = new(T) 和 var a = &T{} 這兩種語法有區別么?

寫兩個差不多的程序,然后帶上 gcflags="-N -l" 來 go build

-> 5    func main() {

di`main.main:
->  0x104f400 <+0>:  sub    rsp, 0x28
    0x104f404 <+4>:  mov    qword ptr [rsp + 0x20], rbp
    0x104f409 <+9>:  lea    rbp, [rsp + 0x20]

** 6        var a = &T{}

    0x104f40e <+14>: mov    qword ptr [rsp], 0x0
    0x104f416 <+22>: lea    rax, [rsp]
    0x104f41a <+26>: mov    qword ptr [rsp + 0x18], rax
    0x104f41f <+31>: test   al, byte ptr [rax]
    0x104f421 <+33>: mov    qword ptr [rsp], 0x0
    0x104f429 <+41>: mov    rax, qword ptr [rsp + 0x18]
    0x104f42e <+46>: mov    qword ptr [rsp + 0x10], rax

** 7        a.age += 1

    0x104f433 <+51>: test   al, byte ptr [rax]
    0x104f435 <+53>: mov    rax, qword ptr [rax]
    0x104f438 <+56>: mov    qword ptr [rsp + 0x8], rax
    0x104f43d <+61>: mov    rcx, qword ptr [rsp + 0x10]
    0x104f442 <+66>: test   al, byte ptr [rcx]
    0x104f444 <+68>: inc    rax
    0x104f447 <+71>: mov    qword ptr [rcx], rax
-> 5    func main() {

di2`main.main:
->  0x104f400 <+0>:  sub    rsp, 0x20
    0x104f404 <+4>:  mov    qword ptr [rsp + 0x18], rbp
    0x104f409 <+9>:  lea    rbp, [rsp + 0x18]

** 6        var a = new(T)

    0x104f40e <+14>: mov    qword ptr [rsp], 0x0
    0x104f416 <+22>: lea    rax, [rsp]
    0x104f41a <+26>: mov    qword ptr [rsp + 0x10], rax

** 7        a.age += 1

    0x104f41f <+31>: test   al, byte ptr [rax]
    0x104f421 <+33>: mov    rax, qword ptr [rsp]
    0x104f425 <+37>: mov    qword ptr [rsp + 0x8], rax
    0x104f42a <+42>: mov    rcx, qword ptr [rsp + 0x10]
    0x104f42f <+47>: test   al, byte ptr [rcx]
    0x104f431 <+49>: inc    rax
    0x104f434 <+52>: mov    qword ptr [rcx], rax

兩種代碼反編譯出來的匯編不一致,可以看到第一種比第二種多要了 8 個字節的棧空間。可以猜測實際上第一種寫法是分兩部走:

  1. T{};2.& 取地址

go build 不帶 gcflags 參數時,兩者出來的匯編代碼就是完全一致的了。感興趣的同學可以自行驗證。

查看 go 的 interface 的數據結構

go 的 interface 一直是一個比較讓人糾結的數據結構,官方和信徒們從 14 年就一直在花不少篇幅跟你講,怎么判斷 interface 和 nil,我們這個設計是這樣的 blabla。不過我始終覺得 go 的 interface 設計是有點問題的,只不過這幫 unix 老古董們不想承認。。。

先來看一些例子吧:

package main

import (
    "bytes"
    "fmt"
    "io"
)

var (
    a *bytes.Buffer = nil
    b io.Writer
)

func set(v *bytes.Buffer) {
    if v == nil {
        fmt.Println("v is nil")
    }
    b = v
}

func get() {
    if b == nil {
        fmt.Println("b is nil")
    } else {
        fmt.Println("b is not nil")
    }
}

func main() {
    set(nil)
    get()
}

例子二(來自公司同事):

package main

import (
    "fmt"
    "io"
    "os"
    "unsafe"
)

var (
    v  interface{}
    r  io.Reader
    f  *os.File
    fn os.File
)

func main() {
    fmt.Println(v == nil)
    fmt.Println(r == nil)
    fmt.Println(f == nil)
    v = r
    fmt.Println(v == nil)
    v = fn
    fmt.Println(v == nil)
    v = f
    fmt.Println(v == nil)
    r = f
    fmt.Println(r == nil)
}

可以自己運行一下看看結果。有很多文章會講,interface 包含有 type 和 data 兩個元素,只有兩者均為 nil 的時候才是真的 nil,然后再給你灌輸了很多理由為什么要這么設計。甚至還援引了 Rob Pike 的某個 ppt。

對設計的吐槽先打住,我們看看 interface 在運行期到底是一個什么樣的東西:

(lldb) p v
(interface {}) main.v = {
  _type = 0x0000000000000000
  data = 0x0000000000000000
}
(lldb) p r
(io.Reader) main.r = {
  tab = 0x0000000000000000
  data = 0x0000000000000000
}
(lldb) p f
(*os.File) main.f = 0x0000000000000000

這里可以看到,在 golang 中空 interface 和非空 interface 在數據結構上也是有差別的。空 interface 就只有 runtime._type 和 void 指針組成。而非空 interface 則是 runtime.itab 和 void 指針組成。

把 *os.File 分別賦值給空 interface 和 io.Reader 類型的接口變量之后。我們看看這個 runtime._type 和 runtime.itab 都變成什么樣了:

(lldb) p v
(interface {}) main.v = {
  _type = 0x00000000010be0a0
  data = 0x0000000000000000
}

(lldb) p *r.tab
(runtime.itab) *tab = {
  inter = 0x00000000010ad520
  _type = 0x00000000010be0a0
  link = 0x0000000000000000
  hash = 871609668
  bad = false
  inhash = true
  unused = ([0] = 0, [1] = 0)
  fun = ([0] = 0x000000000106d610)
}

非空 interface 的 _type 是存儲在 tab 字段里了。除此之外,非空 interface 本身的類型(這里是 io.Reader)存儲在 inter 字段中:

(runtime.interfacetype) *inter = {
  typ = {
    size = 0x0000000000000010
    ptrdata = 0x0000000000000010
    hash = 3769182245
    tflag = 7
    align = 8
    fieldalign = 8
    kind = 20
    alg = 0x000000000113cd80
    gcdata = 0x00000000010d55f6
    str = 12137
    ptrToThis = 45152
  }
  pkgpath = {
    bytes = 0x0000000001094538
  }
  mhdr = (len 1, cap 1) {
    [0] = (name = 1236, ityp = 90528)
  }
}

此外,非空 interface 還會在 itab 的 fun 數組里存儲函數列表。

這里會有一個非常蛋疼的地方,如果你把一個非空 interface 類型的 nil 值的 interface 變量賦值給一個空 interface 類型的變量,那么就會得到一個非空類型的非空 interface 變量。

這絕對是 go 的設計缺陷。。。

現在為了避免判斷時候的失誤,也有人會用 reflect.ValueOf(v) 來判斷一個 interface 是否為 nil。但也會比較別扭。

學習 go 的 channel

來一個簡單的 demo:

package main

func main() {
    var a = make(chan int, 4)
    a <- 1
    a <- 1
    a <- 1
    a <- 1
    close(a)
    println()
}

打上斷點,查看 a 的結構:

* thread #1, stop reason = step over
    frame #0: 0x000000000104c354 normal_example`main.main at normal_example.go:5
   2
   3    func main() {
   4        var a = make(chan int, 4)
-> 5        a <- 1
   6        a <- 1
   7        a <- 1
   8        a <- 1
Target 0: (normal_example) stopped.
(lldb) p a
(chan int) a = 0x000000c42007a000
(lldb) p *a
(hchan<int>) *a = {
  qcount = 0
  dataqsiz = 4
  buf = 0x000000c42007a060
  elemsize = 8
  closed = 0
  elemtype = 0x0000000001055ee0
  sendx = 0
  recvx = 0
  recvq = {
    first = 0x0000000000000000
    last = 0x0000000000000000
  }
  sendq = {
    first = 0x0000000000000000
    last = 0x0000000000000000
  }
  lock = (key = 0x0000000000000000)
}

a.buf 是 void* 類型,類似 c/c艸,這種類型需要用 x 指令來讀取內容:

(lldb) n
Process 21186 stopped
* thread #1, stop reason = step over
    frame #0: 0x000000000104c369 normal_example`main.main at normal_example.go:6
   3    func main() {
   4        var a = make(chan int, 4)
   5        a <- 1
-> 6        a <- 1
   7        a <- 1
   8        a <- 1
   9        close(a)
Target 0: (normal_example) stopped.
(lldb) p a.buf
(void *) buf = 0x000000c42007a060
(lldb) x a.buf
0xc42007a060: 01 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00  ................
0xc42007a070: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00  ................

可以看到向 channel 中寫入一個 1 之后,a.buf 中的內容發生了變化。同時,a 中的 sendx 和 qcount 也都發生了變化:

(lldb) p *a
(hchan<int>) *a = {
  qcount = 1 // 這里這里
  dataqsiz = 4
  buf = 0x000000c42007a060
  elemsize = 8
  closed = 0
  elemtype = 0x0000000001055ee0
  sendx = 1 // 這里這里
  recvx = 0
  recvq = {
    first = 0x0000000000000000
    last = 0x0000000000000000
  }
  sendq = {
    first = 0x0000000000000000
    last = 0x0000000000000000
  }
  lock = (key = 0x0000000000000000)
}

這樣就可以非常方便地結合代碼,觀察 channel 的發送和接收行為。其實從 debugger 里得到的信息都非常的直觀,比看圖表要直觀得多。比如這里我們可以直接看到 lock 字段。這也說明 channel 本身為了并發安全是帶鎖的。

recvq 和 sendq 是用來維護發送接收時被阻塞需要休眠的 goroutine 列表。

elemtype 是 runtime._type 類型,可以看到 channel 中的元素類型信息。

close(a) 以后再看看結構:

(chan int) a = 0x000000c42007a000
(lldb) p *a
(hchan<int>) *a = {
  qcount = 4
  dataqsiz = 4
  buf = 0x000000c42007a060
  elemsize = 8
  closed = 1 // 重點在這里
  elemtype = 0x0000000001055ee0
  sendx = 0
  recvx = 0
  recvq = {
    first = 0x0000000000000000
    last = 0x0000000000000000
  }
  sendq = {
    first = 0x0000000000000000
    last = 0x0000000000000000
  }
  lock = (key = 0x0000000000000000)
}

比畫一堆圖不知道高到哪里去了。

再嘗試在 a 上阻塞幾個 goroutine:

(lldb) p a.recvq
(waitq<int>) recvq = {
  first = 0x000000c42007c000
  last = 0x000000c42007c060
}
(lldb) p a.recvq.first
(*sudog<int>) first = 0x000000c42007c000
(lldb) p *a.recvq.first
(sudog<int>) *first = {
  g = 0x000000c420000f00
  isSelect = false
  next = 0x000000c42007c060
  prev = 0x0000000000000000
  elem = 0x0000000000000000
  acquiretime = 0
  releasetime = 0
  ticket = 0
  parent = 0x0000000000000000
  waitlink = 0x0000000000000000
  waittail = 0x0000000000000000
  c = 0x000000c42007a000
}

可以看到,channel 的 recvq 和 sendq 就是個 sudog 的雙向鏈表,沒有什么難理解的~

確認 panic 的現場

程序里有時候會有這種代碼:

someFunction(r.A, *r.B, *r.C, *r.D, r.E, *r.F)

然后在這里 panic 了。但是 go 只會告訴你 nil pointer deference,卻不會告訴你是哪個 nil pointer deference。著實蛋疼。

這個就是用 debugger 最基本斷點功能了。如果是用 delve,斷點可以用很多種方法來設置,比如 function+行號,文件名+行號,如果有歧義,delve 也會告訴你具體要怎么來消除歧義。

(lldb) n
Process 22595 stopped
* thread #1, stop reason = step over
    frame #0: 0x000000000104c344 nilPointer`main.main at nilPointer.go:16
   13   }
   14
   15   func main() {
-> 16       var t = T{A: 1}
   17       test(t.A, *t.B, *t.C, *t.D, t.E, *t.F)
   18   }
Target 0: (nilPointer) stopped.
(lldb) n
Process 22595 stopped
* thread #1, stop reason = step over
    frame #0: 0x000000000104c365 nilPointer`main.main at nilPointer.go:17
   14
   15   func main() {
   16       var t = T{A: 1}
-> 17       test(t.A, *t.B, *t.C, *t.D, t.E, *t.F)
   18   }
Target 0: (nilPointer) stopped.
(lldb) p t
(main.T) t = {
  A = 1
  B = 0x0000000000000000
  C = 0x0000000000000000
  D = 0x0000000000000000
  E = 0
  F = 0x0000000000000000
}

哪里是 nil 一目了然~

string 和 byte 之間到底有沒有進行相互轉換

例子:

package main

func main() {

    var str = "abcde"
    var b = []byte("defg")

    println(str)
    println(string(b))

}

還是看反編譯的結果:


** 6        var b = []byte("defg")
   7

    0x104cf17 <+71>:  lea    rax, [rsp + 0x30]
    0x104cf1c <+76>:  mov    qword ptr [rsp], rax
    0x104cf20 <+80>:  lea    rax, [rip + 0x1c95b]      ; go.string.* + 210
    0x104cf27 <+87>:  mov    qword ptr [rsp + 0x8], rax
    0x104cf2c <+92>:  mov    qword ptr [rsp + 0x10], 0x4
    0x104cf35 <+101>: call   0x1038390                 ; runtime.stringtoslicebyte at string.go:146
    0x104cf3a <+106>: mov    rax, qword ptr [rsp + 0x20]
    0x104cf3f <+111>: mov    rcx, qword ptr [rsp + 0x18]
    0x104cf44 <+116>: mov    rdx, qword ptr [rsp + 0x28]
    0x104cf49 <+121>: mov    qword ptr [rsp + 0xa0], rcx
    0x104cf51 <+129>: mov    qword ptr [rsp + 0xa8], rax
    0x104cf59 <+137>: mov    qword ptr [rsp + 0xb0], rdx

重點在這里的

    0x104cf35 <+101>: call   0x1038390                 ; runtime.stringtoslicebyte at string.go:146

runtime 里還有一個對應的:

    0x104c624 <+196>: call   0x10378c0                 ; runtime.slicebytetostring at string.go:72

有了這樣的手段,如果別人和你說 go 會優化 string 和 []byte 之間的轉換。你就可以隨時掏出 debugger 來打他的臉了。

我程序的 select 到底被翻譯成什么樣的執行過程了

select 是 golang 提供的一種特權語法,實現的功能比較神奇。先不說行為怎么樣。這種特權語法實際上最終一定會被翻譯成某種匯編指令或者 runtime 的內置函數。

用反匯編來看一眼。

-> 6        select {

->  0x104e3d5 <+117>: mov    qword ptr [rsp + 0x38], 0x0
    0x104e3de <+126>: lea    rdi, [rsp + 0x40]
    0x104e3e3 <+131>: xorps  xmm0, xmm0
    0x104e3e6 <+134>: lea    rdi, [rdi - 0x10]
    0x104e3ea <+138>: mov    qword ptr [rsp - 0x10], rbp
    0x104e3ef <+143>: lea    rbp, [rsp - 0x10]
    0x104e3f4 <+148>: call   0x1048d5a                 ; runtime.duffzero + 250 at duff_amd64.s:87
    0x104e3f9 <+153>: mov    rbp, qword ptr [rbp]
    0x104e3fd <+157>: lea    rax, [rsp + 0x38]
    0x104e402 <+162>: mov    qword ptr [rsp], rax
    0x104e406 <+166>: mov    qword ptr [rsp + 0x8], 0xb8
    0x104e40f <+175>: mov    dword ptr [rsp + 0x10], 0x3
    0x104e417 <+183>: call   0x10305d0                 ; runtime.newselect at select.go:60

** 6        select {

    0x104e425 <+197>: mov    rax, qword ptr [rsp + 0x30]

** 6        select {

    0x104e445 <+229>: mov    rax, qword ptr [rsp + 0x28]

** 6        select {

    0x104e46a <+266>: lea    rax, [rsp + 0x38]
    0x104e46f <+271>: mov    qword ptr [rsp], rax
    0x104e473 <+275>: call   0x1030b10                 ; runtime.selectgo at select.go:202
    0x104e478 <+280>: mov    rax, qword ptr [rsp + 0x8]
    0x104e47d <+285>: mov    qword ptr [rsp + 0x20], rax

看起來 select 被翻譯成了多段匯編代碼。說明這個函數稍微復雜一些,不過反匯編過程已經幫我們定位到了 select 被翻譯成的函數的位置。

實際上 select 的執行過程為: newselect->selectsend/selectrecv->selectgo 這幾個過程。如果你的程序是下面這樣的:

for {
  select {
     case <-ch:
     case ch2<-1:
     default:
  }
}

在每次進入 for 循環的時候,runtime 里的 hselect 結構都會重新創建。也就是說寫一個有 default case 的無限循環,不僅僅是你知道的 cpu 占用爆炸,實際上還在不斷地在堆上分配、釋放、分配、釋放空間。感覺這里官方應該是可以做一些優化的,不知道為什么邏輯這么原始。(當然,在 go 語言學習筆記里看到雨痕老師也吐槽他們的代碼寫得渣哈哈哈。

正在運行的 goroutine 到底是阻塞在什么地方了

golang 中常見的內存泄露套路是這樣的:


func main() {

   var ch chan int
   go func() {
      select {
         case <-ch:
      }
   }()
}

監聽了一個永遠阻塞的 channel,或者向一個沒有接收方的 channel 發數據,如果這些事情沒有發生在主 goroutine 里的話,在 runtime 的 checkdead 函數中不會認為這是個 deadlock。而這樣的 goroutine 創建過程往往在 for 循環里。

公司內的某個程序就曾經在線下 debug 的時候發現每次來一個請求,就會導致 goroutine 總數 +1。這顯然是不正常的。在 goroutine 達到一定數量之后,可以適用 delve attach 到你的進程,然后運行:

goroutines

一下就看到你泄露的 goroutine 都是卡在什么地方了。

當然,如果你的程序開了 pprof,那通過網頁來看倒是更為方便。

之前公司內的某個庫在找不到 disf 的 ip 的時候就會阻塞在 lib 的 channel 上。用這個辦法可以非常快的找到問題根結。不用像某些程序員一樣到處加 fmt.Println 了。

程序的 cpu 占用非常高,似乎在哪里有死循環

這個問題有兩個工具可以用,一個是 perf,一個是 debugger。

sudo perf top

可以找到死循環所處的位置,這個在之前寫的文章中有過涉及了。這里就不再贅述。

還有一種死循環,但是程序本身沒死掉的,那就可以直接用 dlv attach 進去了,基本上切換至可疑的 goroutine,跟個十幾步就可以找到問題所在,當然,結合 perf 來看更高效。這個可以參考之前定位 jsoniter 時候的步驟:https://github.com/gin-gonic/gin/issues/1086

怎么一直觀察某一個變量的變化過程

也很簡單,在希望觀察的地方打上斷點,如果斷點 id 是 13,那么用 delve 的 on 命令:

on 13 print xxx

即可

(dlv) n
> main.main() ./for.go:6 (hits goroutine(1):11 total:11) (PC: 0x44d694)
    count: 45
     1: package main
     2:
     3: func main() {
     4:     count:=0
     5:     for i:=0;i<10000;i++ {
=>   6:         count+=i
     7:     }
     8:     println(count)
     9: }
(dlv) n

我的程序只有運行到 for 循環的第 1000 次疊代的時候才會出 bug,我怎么在第 1000 次循環的時候才設置這個斷點

用 delve 很簡單:

ubuntu@ubuntu-xenial:~$ dlv exec ./for
Type 'help' for list of commands.
(dlv) b for.go:6
Breakpoint 1 set at 0x44d694 for main.main() ./for.go:6
(dlv) cond 1 i==1000 ////// => 重點在這里
(dlv) r
Process restarted with PID 29024
(dlv) c
> main.main() ./for.go:6 (hits goroutine(1):1 total:1) (PC: 0x44d694)
     1: package main
     2:
     3: func main() {
     4:     count:=0
     5:     for i:=0;i<10000;i++ {
=>   6:         count+=i
     7:     }
     8:     println(count)
     9: }
(dlv) p i
1000
(dlv) p count
499500

 

來自:https://gocn.io/article/657

 本文由用戶 steppen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!