大規模深度學習優化技術在PAI平臺中的應用及實踐
1.前言
自2012年Deep Learning的代表模型AlexNet在ImageNet大賽中力壓亞軍,以超過10個百分點的絕對優勢奪得頭籌之后,依托于建模技術的進步、硬件計算能力的提升、優化技術的進步以及海量數據的累積,Deep Learning在語音、圖像以及文本等多個領域不斷推進,相較于傳統作法取得了顯著的效果提升。工業界和學術界也先后推出了用于Deep Learning建模用途的開源工具和框架,包括Caffe、Theano、Torch、MXNet、TensorFlow、Chainer、CNTK等等。其中MXNet、TensorFlow以及CNTK均對于訓練過程提供了多機分布式支持,在相當大程度上解放了DL建模同學的生產力。但是,DL領域的建模技術突飛猛進,模型復雜度也不斷增加。從模型的深度來看,以圖像識別領域為例,12年的經典模型AlexNet由5個卷積層,3個全連接層構成(圖1),在當時看來已經算是比較深的復雜模型,而到了15年, 微軟亞洲研究院則推出了由151個卷積層構成的極深網絡ResNet(圖2);從模型的尺寸來看,在機器翻譯領域,即便是僅僅由單層雙向encoder,單層decoder構成的NMT模型(圖3),在阿里巴巴的一個內部訓練場景下,模型尺寸也達到了3GB左右的規模。從模型的計算量來看,上面提到的機器翻譯模型在單塊M40 NVIDIA GPU上,完成一次完整訓練,也需要耗時近三周。
Deep Learning通過設計復雜模型,依托于海量數據的表征能力,從而獲取相較于經典shallow模型更優的模型表現的建模策略對于底層訓練工具提出了更高的要求。現有的開源工具,往往會在性能上、顯存支持上、生態系統的完善性上存在不同層面的不足,在使用效率上對于普通的算法建模用戶并不夠友好。阿里云推出的PAI(Platform of Artificial Intelligence)[18]產品則致力于通過系統與算法協同優化的方式,來有效解決Deep Learning訓練工具的使用效率問題,目前PAI集成了TensorFlow、Caffe、MXNet這三款流行的Deep Learning框架,并針對這幾款框架做了定制化的性能優化支持,以求更好的解決用戶建模的效率問題。
這些優化目前都已經應用在阿里巴巴內部的諸多業務場景里,包括黃圖識別、OCR識別、機器翻譯、智能問答等,這些業務場景下的某些建模場景會涉及到幾十億條規模的訓練樣本,數GB的模型尺寸,均可以在我們的優化策略下很好地得到支持和滿足。經過內部大規模數據及模型場景的檢測之后,我們也期望將這些能力輸出,更好地賦能給阿里外部的AI從業人員。
圖1. AlexNet模型示例
圖2. 36層的ResNet模型示例
圖3. NMT模型架構示例
接下來,本文會扼要介紹一下在PAI里實現的大規模深度學習的優化策略。
2.大規模深度學習優化策略在PAI中實踐應用
大規模深度學習作為一個交叉領域,涉及到分布式計算、操作系統、計算機體系結構、數值優化、機器學習建模、編譯器技術等多個領域。按照優化的側重點,可以將優化策略劃分為如下幾種:
I. 計算優化
II. 顯存優化
III. 通信優化
IV. 性能預估模型
V 軟硬件協同優化
PAI平臺目前主要集中在顯存優化、通信優化、性能預估模型、軟硬件協同優化這四個優化方向。
1). 顯存優化
內存優化主要關心的是GPU顯存優化的議題,在Deep Learning訓練場景,其計算任務的特點(大量的滿足SIMD特性的矩陣浮點運算執行序列,控制邏輯通常比較簡單)決定了通常我們會選擇GPU來作為計算設備,而GPU作為典型的高通量異構計算設備,其硬件設計約束決定了其顯存資源往往是比較稀缺的,目前在PAI平臺上提供的中檔M40顯卡的顯存只有12GB,而復雜度較高的模型則很容易達到M40顯存的臨界值,比如151層的ResNet、阿里巴巴內部用于中文OCR識別的一款序列模型以及機器翻譯模型。從建模同學的角度來看,顯存并不應該是他們關心的話題,PAI在顯存優化上做了一系列工作,期望能夠解放建模同學的負擔,讓建模同學在模型尺寸上獲得更廣闊的建模探索空間。在內存優化方面, 通過引入task-specific的顯存分配器以及自動化模型分片框架支持,在很大程度上緩解了建模任務在顯存消耗方面的約束。其中自動化模型分片框架會根據具體的模型網絡特點,預估出其顯存消耗量,然后對模型進行自動化切片,實現模型并行的支持,在完成自動化模型分片的同時,我們的框架還會考慮到模型分片帶來的通信開銷,通過啟發式的方法在大模型的承載能力和計算效率之間獲得較優的trade-off。
2). 通信優化
大規模深度學習,或者說大規模機器學習領域里一個永恒的話題就是如何通過多機分布式對訓練任務進行加速。而機器學習訓練任務的多遍迭代式通信的特點,使得經典的map-reduce式的并行數據處理方式并不適合這個場景。對于以單步小批量樣本作為訓練單位步的深度學習訓練任務,這個問題就更突出了。
依據Amdahl’s law[19],一個計算任務性能改善的程度取決于可以被改進的部分在整個任務執行時間中所占比例的大小。而深度學習訓練任務的多機分布式往往會引入額外的通信開銷,使得系統內可被提速的比例縮小,相應地束縛了分布式所能帶來的性能加速的收益 。
在PAI里,我們通過pipeline communication、late-multiply、hybrid-parallelism以及heuristic-based model average等多種優化策略對分布式訓練過程中的通信開銷進行了不同程度的優化,并在公開及in-house模型上取得了比較顯著的收斂加速比提升。
在Pipeline communication(圖4)里,通過將待通信數據(模型及梯度)切分成一個個小的數據塊并在多個計算結點之間充分流動起來,可以突破單機網卡的通信帶寬極限,將一定尺度內將通信開銷控制在常量時間復雜度。
圖4. Pipeline communication
在Late-multiply里,針對全連接層計算量小,模型尺寸大的特點,我們對于多機之間的梯度匯總邏輯進行了優化,將“多個worker計算本地梯度,在所有結點之間完成信息交互”(圖5)的分布式邏輯調整為“多個worker將全連接層的上下兩層layer的后向傳播梯度及激活值在所有計算結點之間完成信息交互”(圖6),當全連接層所包含的隱層神經元很多時,會帶來比較顯著的性能提升。
圖5. Without late-multiply
圖6. With late-multiply
在Hybrid-parallelism里,針對不同模型網絡的特點,我們引入了數據并行與模型并行的混合策略,針對計算占比高的部分應用數據并行,針對模型通信量大的部分應用模型并行,在多機計算加速與減少通信開銷之間獲得了較好的平衡點。通過圖7,可以看到將這個優化策略應用在TensorFlow里AlexNet模型的具體體現。
圖7. AlexNet with hybrid-parallelism
3). 性能預估模型
對于建模人員來說,他們關心的往往是以最具性價比的方式完成他們的建模訓練任務,而不是用多少張卡,以什么樣的分布式執行策略來完成他們的訓練任務。而目前Deep Learning訓練工具以及訓練任務的復雜性,使得建模人員往往不得不透過leaky abstraction的管道,去關心為了完成他們的一個建模實驗,應該使用多少張GPU卡,多少個 CPU核、什么樣的通信介質以及選擇哪種分布式執行策略,才能有效地完成自己的訓練任務。
基于性能預估模型,我們期望能夠將建模人員從具體的訓練任務執行細節中解放出來。具體來說,給定建模用戶的一個模型結構,以及所期望花費的費用和時間,PAI平臺會采用模型+啟發式的策略預估出需要多少硬件資源,使用什么樣的分布式執行策略可以盡可能逼近用戶的期望。
4). 軟硬件協同優化
上面提到的3個優化策略主要集中在任務的離線訓練環節,而Deep Learning在具體業務場景的成功應用,除了離線訓練以外,也離不開在線布署環節。作為典型的復雜模型,無論是功耗、計算性能還是模型動態更新的開銷,Deep Learning模型為在線部署提出了更高的要求和挑戰。在PAI平臺里,關于在線部署,我們除了軟件層面的優化之后,也探索了軟硬件協同優化的技術路線。目前在PAI平臺里,我們正在基于FPGA實現在線inference的軟硬件協同優化。在PAI里實現軟硬件協同優化的策略與業界其他同行的作法會有所不同,我們將這個問題抽象成一個domain-specific的定制硬件編譯優化的問題,通過這種抽象,我們可以采取更為通用的方式來解決一大批問題,從而更為有效地滿足模型多樣性、場景多樣性的需求。
3. 小結
大規模深度學習優化是一個方興未艾的技術方向 ,無論是工業界還是學術界在對這個領域都有著極高的關注度,圍繞這個主題也涌現出若干個成功的start-up,通過分享這篇文章,我們期望能夠讓PAI的終端用戶了解到為了提升用戶提升,改善用戶建模效率,我們在背后所做出的優化努力。
今年5月份,NVIDIA GTC 2017北美主場會在硅谷舉行,PAI團隊也會在硅谷現場給出一個以大規模深度學習優化為主題的分享。今年7月份,在Strats+Hadoop World 2017大會上,PAI團隊也會做一個相關主題的分享。也希望能夠以這篇文章為引子,以這個技術會議為渠道,跟國內外更多從事相關領域工作的業界同行有更多交流和碰撞,一起來推進大規模深度學習這個技術方向的進展和建設。
來自:http://geek.csdn.net/news/detail/189816