記一次獲得3倍性能的go程序優化實踐,及on-cpu/off-cpu火焰圖的使用

之前一直使用Logstash作為日志文件采集客戶端程序。Logstash功能強大,有豐富的數據處理插件及很好的擴展能力,但由于使用JRuby實現,性能堪憂。而Filebeat是后來出現的一個用go語言實現的,更輕量級的日志文件采集客戶端。性能不錯、資源占用少,但幾乎沒有任何解析處理能力。通常的使用場景是使用Filebeat采集到Logstash解析處理,然后再上傳到Kafka或Elasticsearch。值得注意的是,Logstash和Filebeat都是Elastic公司的優秀開源產品。

為了提高客戶端的日志采集性能,又減少數據傳輸環節和部署復雜度,并更充分的將go語言的性能優勢利用于日志解析,于是決定在Filebeat上通過開發插件的方式,實現針對公司日志格式規范的解析,直接作為Logstash的替代品。

背景介紹完畢,下面是實現和優化的過程。

Version 1

先做一個最簡單的實現,即用go自帶的正則表達式包regexp做日志解析。性能已經比Logstash(也是通過開發插件做規范日志解析)高出30%。

這里的性能測試著眼于日志采集的瓶頸——解析處理環節,指標是在限制只使用一個cpu core的條件下(在服務器上要盡量減少對業務應用的資源占用),采集并解析1百萬條指定格式和長度的日志所花費的時間。測試環境是1臺主頻為3.2GHz的PC。為了避免disk IO及page cache的影響,將輸入文件和輸出文件都放在/dev/shm中。對于Filebeat的CPU限制,是通過啟動時指定環境變量GOMAXPROCS=1實現。

這一版本處理1百萬條日志花費的時間為122秒,即每秒8200條日志。

Version 2

接下來嘗試做一些優化,看看這個go插件的性能還可不可以有些提升。首先想到的是替換regexp包。Linux下有一個C實現的PCRE庫,github.com/glenn-brown/golang-pkg-pcre/src/pkg/pcre這個第三方包正是將PCRE庫應用到golang中。CentOS下需要先安裝pcre-devel這個包。
這個版本的處理時間為97秒,結果顯示比第一個版本的處理性能提升了25%。

Version 3

第三個版本,是完全不使用正則表達式,而是針對固定的日志格式規則,利用strings.Index()做字符串分解和提取操作。這個版本的處理時間為70秒,性能又大大的提升了將近40%。

Version 4

那還有沒有進一步提升的空間呢。有,就是go語言的自帶json包。我們的日志上傳使用json格式,而go的encoding/json是基于反射實現的,性能一直廣受詬病。如果對json解析有優化的話,性能提高會是很可觀的。既然我們的日志格式是固定的,解析出來的字段也是固定的,這時就可以基于固定的日志結構體做json的序列化,而不必用低效率的反射來實現。go有多個針對給定結構體做json序列化/反序列化的第三方包,我們這里使用的是easyjson。在安裝完easyjson包后,對我們包含了日志格式結構體定義的程序文件執行easyjson命令,會生成一個xxx_easyjson.go的文件,里面包含了這個結構體專用的Marshal/Unmarshal方法。這樣一來,處理時間又縮短為61秒,性能提高15%。

這時,代碼在我面前,已經想不出有什么大的方面還可以優化的了。是時候該本文的另一個主角,火焰圖出場了。

火焰圖是性能分析的一個有效工具,這里是它的說明。通常看到的火焰圖,是指on-cpu火焰圖,用來分析cpu都消耗在哪些函數調用上。

安裝完FlameGraph工具后,先對目前版本的程序運行一次性能測試,按照說明抓取數據生成火焰圖如下。

記一次獲得3倍性能的go程序優化實踐,及on-cpu/off-cpu火焰圖的使用

圖中縱向代表的是函數調用棧,橫向各個方塊的寬度代表的是占用cpu時間的比例,需要留意的是靠近頂端的大長條。方塊的顏色是隨機的沒有實際意義。

從上圖可以看到cpu時間占用最多的主要有兩塊。一塊是Output處理部分,稍為大頭的是json處理,這塊已經優化過沒什么可以做的了。另一塊就比較奇怪了,是common.MapStr.Clone()方法,居然占了40%的cpu時間。再往上看,主要是Errorf的處理。一看代碼,馬上明白了。

func (m MapStr) Clone() MapStr {
    result := MapStr{}

    for k, v := range m {
        innerMap, err := toMapStr(v)
        if err == nil {
            result[k] = innerMap.Clone()
        } else {
            result[k] = v
        }
    }

    return result
}

common.MapStr是在pipeline中存放日志內容的結構體,它的Clone()方法實現里判斷一個子鍵值是否為嵌套的Mapstr結構時,是通過判斷toMapStr()方法是否返回error。從這里看,生成error對象的代價是非常可觀的。于是,一個顯然的fix,就是將toMapStr()中的判斷方法移到Clone()中并避免生成error。

Version 5

對修改后的代碼重新生成一張火焰圖如下。

記一次獲得3倍性能的go程序優化實踐,及on-cpu/off-cpu火焰圖的使用這時common.MapStr.Clone()從圖中已經幾乎找不見了,證明花費的cpu時間已經可以忽略不計。
測試時間一下子縮短到了46秒,節省了33%,非常大的改善!

到現在,還有一個之前未提到的問題沒有解決——在限制使用一個core之后,測試運行時cpu利用率只能跑到82%左右。是不是由于有鎖存在影響了性能呢?

這時候,又該輪到off-cpu火焰圖出場了。Off-cpu火焰圖,是用來分析程序沒有有效利用cpu的時候,消耗在什么地方了,在這里有詳細的介紹。數據收集比on-cpu火焰圖要復雜,可以使用大名鼎鼎的春哥提供的openresty-systemtap-toolkit包。春哥的項目頁面中沒有詳細說明的是kernel-devel和debuginfo包的安裝方法。在此也記錄一下。

# kernel-devel沒有問題,直接yum安裝
sudo yum install -y kernel-devel

# debuginfo,在CentOS7中需要這樣裝
sudo vim /etc/yum.repos.d/CentOS-Debuginfo.repo
修改為enable=1
sudo debuginfo-install kernel

安裝時可能還會報錯:
Invalid GPG Key from file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-Debug-7: No key found in given key data
需要從https://www.centos.org/keys/RPM-GPG-KEY-CentOS-Debug-7下載key寫入到/etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-Debug-7

安裝完后按照說明生成了off-cpu火焰圖如下:

記一次獲得3倍性能的go程序優化實踐,及on-cpu/off-cpu火焰圖的使用

我還不能完全解讀這張圖,但是已經可以明顯看到,對Registry文件(Filebeat用于記錄文件采集列表和offset數據)的寫操作占了一定比例。于是,嘗試將Filebeat的spool_size(每完成這么多條日志更新一次Registry文件)設置為10240,默認值的5倍,運行測試cpu已經可以跑到95%以上。而將Registry設置到/dev/shm/下也同樣可以解決測試時cpu跑不滿的問題。

這就否定了上面對鎖使用不當影響性能的猜測。在實際應用時spool_size的設置應當依據結合了output端(如寫入到Kafka)的測試數據來決定。

至此,優化結束,達到了最初版本性能的3倍!
各個版本的具體運行性能數據如下圖所示。

記一次獲得3倍性能的go程序優化實踐,及on-cpu/off-cpu火焰圖的使用

需要稍作說明的是:

  1. Filebeat開發是基于5.3.1版本
  2. Logstash的測試通過-w 1參數配置使用一個工作進程,并未限制使用一個core
  3. 執行時間包括了程序的啟動時間(Logstash的啟動時間有將近20秒)

最終的優化結果是,針對特定格式和長度的日志解析能力在PC上達到了每秒25000條,即使在CPU主頻較低的生產服務器上,也可以達到每秒20000條。

Go的高性能真不是吹的,當然是要在足夠的優化后:)

附錄,關于go的性能有一篇這樣的討論,有興趣可以看看:
http://stackoverflow.com/questions/20875341/why-golang-is-slower-than-scala

 

總結

 

  1. Golang的性能可以做到非常好,但是一些native包的性能很可能會拖后腿,比如regexp和encoding/json。如果在性能要求較高的場合使用,要根據實際情況做相應優化。
  2. on-cpu/off-cpu火焰圖的使用是程序性能分析的利器,往往一針見血。雖然生成一張火焰圖比較繁瑣(尤其是off-cpu圖),但絕對值得擁有!

來自:簡書

 本文由用戶 zhengfzhi 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!