史上最快AI計算機發布!谷歌TPU V3的1/5功耗、1/30體積
還記得 8 月份占據各家科技頭條的有史以來最大芯片嗎?
這個名為 Cerebras Wafer Scale Engine(WSE)的“巨無霸”面積達到 42225 平方毫米,擁有 1.2 萬億個晶體管,400000 個核心,片上內存 18 Gigabytes,內存帶寬 19 PByte/s,fabric 帶寬 100 Pbit/s,是目前芯片面積最大的英偉達 GPU 的 56.7 倍。
就在剛剛,在超級計算 2019 峰會(Supercomputing 2019 Event)上,這家備受矚目的硅谷初創公司 Cerebras,又宣布了大消息,發布了號稱世界上最快的深度學習計算系統 CS-1。
Cerebras 同時還宣布,CS-1 已經獲得了美國政府超級計算機項目的認可。
目前,第一臺 CS-1 已經向美國能源部的 Argonne 國家實驗室交付完畢,將投入處理大規模的人工智能計算問題,比如研究癌癥藥物的相互作用。
盡管 CS-1 的性能還沒有得到相關驗證,但似乎仍為大規模人工智能計算提供了一種新可能。
一、專為人工智能計算設計的超級計算系統
Cerebras 其實是一家剛剛成立三年的硅谷初創公司, 但憑借幾次重要發布,目前已經融資超過 2 億美元。
Cerebras 主頁
如此受矚目是因為其在人工智能芯片制造上采取了一種不同以往的方法——將所有數據保存在一塊巨大的芯片上,以便系統更快運行。
AI 系統一般會搭載許多芯片協同工作。但這存在一個顯著問題,在芯片之間進行數據傳輸很慢,并且會限制芯片的分析速度。
成立之初,Cerebras 就希望建立一種專門為深度學習優化的新型計算機,為特定的工作負載選擇正確的計算機體系結構。
Cerebras 表示,與其他系統相比,CS-1 的每一個組件都專門針對人工智能工作優化,可以以更小的尺寸和更少的能源消耗下提供更高的計算性能。
CS-1 高度達到 26 英寸(約 66 厘米),大概相當于一個小的行李箱。據相關報道,一個機架中包含了1,000 個 GPU 的集群,50 千瓦的功率。單個 Cerebras 芯片的內核數量是單個 GPU 的 78 倍以上,內存是3,000 倍,內存帶寬是 10,000 倍,此外它還具有 33000 倍的帶寬(PB/s)。
CS-1 的側視圖
這個性能有多強大呢?對比一下谷歌的 TPU v3,CS-1 功耗是它的五分之一,體積只有它的三十分之一,但速度卻是整個 TPU v3 的三倍。
二、搭載全世界最大芯片,幾分鐘完成傳統芯片幾個月的任務
Cerebras 為 CS-1 設計了專門的系統和軟件平臺,以從史上最大芯片 WSE 上的 40 萬個計算內核和 18G 高性能片上存儲器中提取極限處理能力。
在人工智能計算中,芯片越大越好。更大的芯片處理信息更快,能在更短的時間內得到訓練結果。但是,僅有優異的處理器性能還遠不足夠。像 WSE 這樣的高級處理器必須與專用的軟件相結合才能實現破紀錄的性能。因此,Cerebras 專門為這一巨型芯片開發了 CS-1 內置系統和軟件平臺,各方面都為加速人工智能計算專門設計。
Cerebras 首席執行官安德魯·費爾德曼(Andrew Feldman)在接受 VentureBeat 采訪時說:“這是從 300 毫米晶圓中切割出的最大“正方形“。盡管我們擁有最大、最快的芯片,但我們知道,一個非凡的處理器未必足以提供非凡的性能。如果想提供非常快的性能,那么就需要構建一個系統。而且并不是說把法拉利的引擎放進大眾汽車里,就能得到法拉利的性能。如果想要獲得 1000 倍的性能提升,需要做的就是打破瓶頸。”
Cerebras 首席執行官安德魯·費爾德曼(Andrew Feldman)
Cerebras 表示,他們是唯一一家從頭開始建立專用系統這一任務的公司。通過優化芯片設計、系統設計和軟件的各個方面,CS-1 目前的性能令人滿意。
通過 CS-1 和配套的系統軟件, AI 需要幾個月才能完成的工作現在可以在幾分鐘內完成,而需要幾個星期完成的工作可以在幾秒鐘內迅速完成。
CS-1 不僅從根本上減少了訓練時間,而且還為降低延遲設立了新的標桿。對于深度神經網絡,單一圖像的分類可以在微秒內完成,比其他解決方案快幾千倍。
“這是一臺由 40 萬個專用人工智能處理器組成的人工智能系統。”費爾德曼說。
三、已經與 Argonne 國家實驗室達成合作
CS-1 分解圖。來源: Cerebras
目前,CS-1 的第一臺機器已經完成交付。在 Argonne 國家實驗室,CS-1 正被用于研究癌癥的神經網絡的開發,幫助理解和治療創傷性腦損傷,CS-1 的性能使其成為 AI 中最復雜問題的潛在解決方案。
Argonne 實驗室是一個多學科的科學與工程研究中心,CS-1 可以將全球最大的超級計算機站點比現有的 AI 加速器性能提升 100 到 1000 倍。
通過將超級計算能力與 CS-1 的 AI 處理能力結合使用,Argonne 實驗室現在可以加快深度學習模型的研發,以解決現有系統無法實現的問題。
“我們與 Cerebras 合作已有兩年多了,我們非常高興將新的 AI 系統引入 Argonne。”Argonne 實驗室的計算、環境和生命科學副實驗室主任 Rick Stevens 表示,“通過部署 CS-1,我們大大縮短了神經網絡的訓練時間,使我們的研究人員能夠大大提高工作效率,從而在癌癥、顱腦外傷以及當今社會重要的許多其他領域的深度學習研究中得到顯著進步。”
深度學習是人工智能的一個領域,它允許計算機網絡從大量的非結構化數據中進行學習,然而深度學習模型需要大量的計算能力,并正在挑戰當前計算機系統能夠處理的極限,Cerebras CS-1 的推出試圖解決這一問題。
Argonne 實驗室部署 CS-1 以加強人工智能模型的訓練,它的第一個應用領域是癌癥藥物反應預測,這個項目是美國能源部和國家癌癥研究所合作的一部分,旨在利用先進的計算機和人工智能來解決癌癥研究中的重大挑戰問題。增加的 Cerebras CS-1 正在努力支持 Argonne 擴大,主要提倡先進的計算,這也有望利用 AI 功能在 2021 年發布的 Aurora exascale 系統實現百億億次級連接。
美國能源部負責人工智能與技術的副部長 Dimitri Kusnezov 在一份聲明中說:“在能源部,我們相信與私企合作是加速美國人工智能研究的重要組成部分。我們期待著與 Cerebras 建立長期而有成效的伙伴關系,這將有助于研究下一代人工智能技術,并改變能源部的運營、業務和任務的形勢。”
費爾德曼說:“我認為,我們將在未來五年內迎來一個非常激動人心的職業生涯。我認為,一小群人可以改變世界,這確實是企業家的口頭禪。你不需要一個大公司,不需要數十億美元,只要一小群杰出的工程師就能真正改變世界。我們始終相信這一點。”
三、仍存在質疑:高昂價格、內存過小、算法瓶頸?
當然,對于這樣一個全新的 AI 系統,許多網友也提出了質疑。
Reddit 上針對 CS-1 的一個討論中,名為“yusuf-bengio”的網友表示,在實際操作中這種“晶圓規模的 AI 處理器”可能存在瓶頸,比如:
內存的問題也引起了許多網友的共鳴,有網友表示,這個芯片只能用 batch_size 1 訓練,18GB 的靜態隨機存取存儲器(SRAM)直接使得 Megatron,T5,甚至是 GPT-2 這些模型不能使用。
兩大亮點
最后,盡管有質疑,還是再來看看 Cerebras 公布的這臺全世界最快計算機的兩大亮點。
CS-1 系統
上圖: Cerebras 聲稱 CS-1 是最快的人工智能計算機。圖片來源: Cerebras
“ CS-1 是一個單一的系統,可以比最大的集群提供更多的計算性能,還省去了集群搭建和管理的開銷。”Tirias Research 首席分析師凱文 · 克雷韋爾(Kevin Krewell)在一份聲明中表示, “CS-1 在單個系統中提供如此多的計算機,不僅可以縮短訓練時間,還可以減少部署時間。總體而言,CS-1 可能大幅縮短項目的整體時間,而這是人工智能研究效率的關鍵指標。”
相比于 GPU 集群需要數周或數月才能建立起來、需要對現有模型進行大量修改、消耗數十個數據中心的機器以及需要復雜的專用 InfiniBand 進行集群搭建不同,CS-1 的搭建使用需要數分鐘。
用戶只需接入標準的 100Gb 以太網到交換機,就可以用驚人的速度開始訓練模型。
Cerebras 軟件平臺
上圖: 近距離觀察 Cerebras 芯片。圖片來源: Cerebras
CS-1 非常易于部署和使用,但是 Cerebras 的目的不僅是加快訓練時間,還要加快研究人員驗證新想法所需的端到端時間,從模型定義到訓練,從調試到部署。
Cerebras 軟件平臺旨在允許機器學習研究人員在不改變現有工作流程的情況下利用 CS-1 的性能,用戶可以使用行業標準的機器學習框架(如 TensorFlow 和 PyTorch)為 CS-1 定義模型訓練。
一個強大的圖形編譯器自動將這些模型轉換為針對 CS-1 優化的可執行文件,并提供一組可視化工具進行直觀的模型調試和分析。
費爾德曼說: “我們使用開源軟件,并盡可能使程序簡單化。”但是目前所知的是,這個系統既不是基于 x86,也不是基于 Linux。