揭秘:微信是如何用 libco 支撐 8 億用戶的

Lin2967 8年前發布 | 7K 次閱讀 軟件開發 軟件架構

導語

ibco是微信后臺大規模使用的c/c++協程庫,2013年至今穩定運行在微信后臺的數萬臺機器上。libco在2013年的時候作為騰訊六大開源項目首次開源,我們最近做了一次較大的更新,同步更新在 https://github.com/tencent/libco 上。libco支持后臺敏捷的同步風格編程模式,同時提供系統的高并發能力。

libco支持的特性

  • 無需侵入業務邏輯,把多進程、多線程服務改造成協程服務,并發能力得到百倍提升;

  • 支持CGI框架,輕松構建web服務(New);

  • 支持gethostbyname、mysqlclient、ssl等常用第三庫(New);

  • 可選的共享棧模式,單機輕松接入千萬連接(New);

  • 完善簡潔的協程編程接口

— 類pthread接口設計,通過co_create、co_resume等簡單清晰接口即可完成協程的創建與恢復;

— 類__thread的協程私有變量、協程間通信的協程信號量co_signal (New);

— 非語言級別的lambda實現,結合協程原地編寫并執行后臺異步任務 (New);

— 基于epoll/kqueue實現的小而輕的網絡框架,基于時間輪盤實現的高性能定時器;

libco產生的背景

早期微信后臺因為業務需求復雜多變、產品要求快速迭代等需求,大部分模塊都采用了半同步半異步模型。接入層為異步模型,業務邏輯層則是同步的多進程或多線程模型,業務邏輯的并發能力只有幾十到幾百。隨著微信業務的增長,系統規模變得越來越龐大,每個模塊很容易受到后端服務/網絡抖動的影響。

異步化改造的選擇

為了提升微信后臺的并發能力,一般的做法是把現網的所有服務改成異步模型。這種做法工程量巨大,從框架到業務邏輯代碼均需要做一次徹底的改造,耗時耗力而且風險巨大。于是我們開始考慮使用協程。

但使用協程會面臨以下挑戰:

  1. 業界協程在c/c++環境下沒有大規模應用的經驗;

  2. 如何控制協程調度;

  3. 如何處理同步風格的API調用,如Socket、mysqlclient等;

  4. 如何處理已有全局變量、線程私有變量的使用;

最終我們通過libco解決了上述的所有問題,實現了對業務邏輯非侵入的異步化改造。我們使用libco對微信后臺上百個模塊進行了協程異步化改造,改造過程中業務邏輯代碼基本無修改。至今,微信后臺絕大部分服務都已是多進程或多線程協程模型,并發能力相比之前有了質的提升,而libco也成為了微信后臺框架的基石。

libco框架

libco在框架分為三層,分別是接口層、系統函數Hook層以及事件驅動層。

同步風格API的處理

對于同步風格的API,主要是同步的網絡調用,libco的首要任務是消除這些等待對資源的占用,提高系統的并發性能。一個常規的網絡后臺服務,我們可能會經歷connect、write、read等步驟,完成一次完整的網絡交互。當同步的調用這些API的時候,整個線程會因為等待網絡交互而掛起。

雖然同步編程風格的并發性能并不好,但是它具有代碼邏輯清晰、易于編寫的優點,并可支持業務快速迭代敏捷開發。為了繼續保持同步編程的優點,并且不需修改線上已有的業務邏輯代碼,libco創新地接管了網絡調用接口(Hook),把協程的讓出與恢復作為異步網絡IO中的一次事件注冊與回調。當業務處理遇到同步網絡請求的時候,libco層會把本次網絡請求注冊為異步事件,本協程讓出CPU占用,CPU交給其它協程執行。libco會在網絡事件發生或者超時的時候,自動的恢復協程執行。

大部分同步風格的API我們都通過Hook的方法來接管了,libco會在恰當的時機調度協程恢復執行。

千萬級協程支持

libco默認是每一個協程獨享一個運行棧,在協程創建的時候,從堆內存分配一個固定大小的內存作為該協程的運行棧。如果我們用一個協程處理前端的一個接入連接,那對于一個海量接入服務來說,我們的服務的并發上限就很容易受限于內存。為此,libco也提供了stackless的協程共享棧模式,可以設置若干個協程共享同一個運行棧。同一個共享棧下的協程間切換的時候,需要把當前的運行棧內容拷貝到協程的私有內存中。為了減少這種內存拷貝次數,共享棧的內存拷貝只發生在不同協程間的切換。當共享棧的占用者一直沒有改變的時候,則不需要拷貝運行棧。

libco協程的共享協程棧模式使得單機很容易接入千萬連接,只需創建足夠多的協程即可。我們通過libco共享棧模式創建1千萬的協程(E5-2670 v3 @ 2.30GHz * 2, 128G內存),每10萬個協程共享的使用128k內存,整個穩定echo服務的時候總內存消耗大概為66G。

協程私有變量

多進程程序改造為多線程程序時候,我們可以用__thread來對全局變量進行快速修改,而在協程環境下,我們創造了協程變量ROUTINE_VAR,極大簡化了協程的改造工作量。

因為協程實質上是線程內串行執行的,所以當我們定義了一個線程私有變量的時候,可能會有重入的問題。比如我們定義了一個__thread的線程私有變量,原本是希望每一個執行邏輯獨享這個變量的。但當我們的執行環境遷移到協程了之后,同一個線程私有變量,可能會有多個協程會操作它,這就導致了變量沖入的問題。為此,我們在做libco異步化改造的時候,把大部分的線程私有變量改成了協程級私有變量。協程私有變量具有這樣的特性:當代碼運行在多線程非協程環境下時,該變量是線程私有的;當代碼運行在協程環境的時候,此變量是協程私有的。底層的協程私有變量會自動完成運行環境的判斷并正確返回所需的值。

協程私有變量對于現有環境同步到異步化改造起了舉足輕重的作用,同時我們定義了一個非常簡單方便的方法定義協程私有變量,簡單到只需一行聲明代碼即可。

gethostbyname的Hook方法

對于現網服務,有可能需要通過系統的gethostbyname API接口去查詢DNS獲取真實地址。我們在協程化改造的時候,發現我們hook的socket族函數對gethostbyname不適用,當一個協程調用了gethostbyname時會同步等待結果,這就導致了同線程內的其它協程被延時執行。我們對glibc的gethostbyname源碼進行了研究,發現hook不生效主要是由于glibc內部是定義了 poll方法來等待事件,而不是通用的poll方法;同時glibc還定義了一個線程私有變量,不同協程的切換可能會重入導致數據不準確。最終gethostbyname協程異步化是通過Hook poll方法以及定義協程私有變量解決的。

gethostbyname是glibc提供的同步查詢dns接口,業界還有很多優秀的gethostbyname的異步化解決方案,但是這些實現都需要引入一個第三方庫并且要求底層提供異步回調通知機制。libco通過hook方法,在不修改glibc源碼的前提下實現了的gethostbyname的異步化。

協程信號量

在多線程環境下,我們會有線程間同步的需求,比如一個線程的執行需要等待另一個線程的信號,對于這種需求,我們通常是使用pthread_signal 來解決的。在libco中,我們定義了協程信號量co_signal用于處理協程間的并發需求,一個協程可以通過co_cond_signal與co_cond_broadcast來決定通知一個等待的協程或者喚醒所有等待協程。

總結

libco是一個高效的c/c++協程庫,提供了完善的協程編程接口、常用的Socket族函數Hook等,使得業務可用同步編程模型快速迭代開發。隨著幾年來的穩定運行,libco作為微信后臺框架的基石發揮了舉足輕重的作用。

 

 

 

來自:http://mp.weixin.qq.com/s?__biz=MzA3NTYzODYzMg==&mid=2653578147&idx=2&sn=c0797f319e77b370f21102fde223bc4d&chksm=84b3b1a4b3c438b233c40d210500d501257d72995bc1921ad8348f3a451cc605f4e8d0e5992f&scene=4#wechat_redirect

 

 本文由用戶 Lin2967 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!