14萬3千枚CPU:探訪中國首臺自主超級計算機

jopen 12年前發布 | 9K 次閱讀 計算機

        擁有為 14 萬 3 千枚 16 核 CPU;

        存儲容量高達 2PB (1PB 等于 100 萬 GB)

        最高帶寬達到 69.6TB/s(1TB 等于 1000GB);

        每秒峰值運算達1.07千萬億次,相當于 20 萬臺普通筆記本同時運算能力;

        ……

14萬3千枚CPU:探訪中國首臺自主超級計算機

        顯然,這不是一臺普通的電腦,這是中國首臺自主研發 CPU 和底層系統的千萬億次超級計算機神威藍光

        10月 13 日,帶著幾分好奇,電腦報記者來到濟南超級計算機中心,第一次了解到神威藍光的諸多細節,也見到了與這臺國產超級計算機朝夕相處的一群科學家。

        走進超級計算機的心臟

        沒有想象中巨大,神威藍光就是一個放大的“0”躺在機房里,走進它,如果不是旁邊一排商業服務器的噪聲提醒,從外面封閉的外殼難以察覺它的運行。

        國家超級計算濟南中心陳德訓研究員像魔法師為記者打開了三扇門。

        第一扇“0”型頭部的一扇門,映入記者眼簾的是晶瑩透明、手指粗細的水管,有序地排列在兩排機架上,與地板下的制冷系統相連,用手摸一下這些水管,都是冰涼的感覺。

        第二扇門打開,是配列整齊的 CPU,每排 8 顆 CPU,128個核,一個機架上是一萬億次的計算能力。

        第三扇門打開的時候,就是一個空的橢圓形小房間,“這里有什么寶貝?”

        “進來吧,感受一下安靜。”陳德訓邀請記者走進藍光超級計算機的內部,“環形墻”原來是 9 個計算機倉和 2 個網絡機倉,除了網絡連線上的指示燈閃爍,這里簡直可以當著是靜修的空間。

        “這就是神威藍光的主機部分”,總工程師周明忠研究員說包含 14 萬 3 千個核的主機只占用 60 平米的機房,與其龐大的計算能力相比,確實是小巧玲瓏

        神威藍光從 2011 年 9 月整個系統安裝加電測試以來,一直就是保持 24 小時的開機運行狀態。

        “關鍵是主機的 CPU 和底層軟件系統全部是國內自主研發生產的,使中國成為繼美國、日本之后,世界上第三個具有獨立研發千萬億次超級計算機的能力的國家。”陳德訓和所有研究員都倍感自豪。

        最神秘的神威藍光的 CPU,是全球第一顆 16 核 CPU,比 AMD 的要早 6 個月,并行操作系統、虛擬機管理器、多核編譯器、并行編譯器、海量并行文件系統、多核數學庫則是自主研發的軟件成果

        此時是 10 月 13 日中午 12:08,從主機房外監控室的屏幕上,看到此刻正忙著的 CPU 是 7760 個,系統為正在運行的項目配置了 8704 顆 CPU,屏幕上綠色顯示閑著的 CPU 主要分布在第 3 號機倉。

        “正在運行的是什么計算?”

        “我們并不清楚每個計算項目的具體運行內容,監控主要是看機器性能配置,發現有問題會及時自動處理。”

        “通常一次運算要多少時間?”

        “一天的計算時間是最短的項目,項目一周左右的計算時間比較普遍。”

        “怎么知道在這里跑的運算項目沒有暗藏惡意代碼?”

        “運行前有一套安全檢測程序會保證機器安全”研究員對記者的疑問一一耐心解答。

        超級計算應用每一天

14萬3千枚CPU:探訪中國首臺自主超級計算機

        在監控室中就能隨時查看超級計算機的各個狀態參數

        還有什么比超級計算機的應用最接近人們的生活?每天我們要看的天氣預報就是最廣泛的應用。

        “如果需要,我們可以推算 1000 年后的氣候情況。”周總工說,人類自 1850 年有天氣記錄以后,就產生了一些列氣象數據,專家們可以根據歷史數據建立數學模型,推演過去 1000 年或者未來 1000 年的天氣變化。

        現在天氣預報的數據實際上是每小時都會有一個新的計算結果,氣象部門還要參考其他氣象因素,然后才定時播報。

        類似的應用還有海洋數據分析,可以了解海底地貌幾千年前的形狀,其他的成熟應用還有石油勘探、金融分析、農業上基因育種篩選、動漫產業等等。

        濟南超算中心的定位在為黃河三角洲及半島經濟服務上,全國一半以上海洋研究機構都在山東省,為海洋數據研究服務就是濟南超算的主要任務。

        不過,這些應用的軟件大都是國際上共享的軟件,國內在應用上的研發缺失讓濟南超算中心研發部總經理潘景山感到一絲遺憾。

        據介紹,目前國內僅有的四大超算中心,包括在建的長沙中心,天津、深圳中心都是采用 GPU 為主的異構架構,只有濟南超算中心是國產 CPU 和底層軟件系統,機器成本比采用國外處理器和系統的成本低,但研發成本遠比采用國外產品的大。

        “僅 CPU 的研發就是十幾年時間,我們在硬件上與國外產品水平相當,但在應用軟件上,差距在 30 年以上”。

        應用軟件的開發不是一個簡單的過程,需要計算專家、行業專家共同參與,一個項目的開發需要 200 人年左右,投入使用年限都在 20 至 30 年。

        “美國三大實驗室,有幾千人在應用領域研發,計算機專業的只百人團隊。”潘景山對比國外在超算應用領域的重視,看到濟南超算中心的 40 位員工,很有壓力。

        國外在超算系統與應用的開發投入上1:2 或者是1:3的比例,國內在軟件應用上投入的人力資金僅有硬件系統的1/5。“大型軟件,像海洋、氣象這類,70年代的代碼、90年代的代碼都可以找到, 是長期積累下來的東西,海洋、氣象軟件可以免費使用,但還有好多領域需要自行研發,我們現在是有大量數據,缺計算軟件這樣的工具,眼看著數據不能挖掘出智 慧。”

        從神威藍光運行以來,很多個周六潘景山就是和同事們一起在超算中心加班度過的,記者在周六的采訪也是他們眾多工作日的普通一天。

        瘋狂博士帶你看超級計算機

        相信各位讀者都曾經看到中國某某超級計算機又勇奪世界排名多少位之類的新聞,對“天河”、“銀河”、“神威藍光”等等關鍵詞記憶猶新。

        不過在我們的想象中,對超級計算機的認識卻僅僅停留在“運算能力比普通電腦強很多”這個層面上。

        到底超級計算機是個什么樣子?它的各部分硬件和普通電腦有什么不同?其實包括瘋狂博士自己也想把它弄個明白。10月 13 日,瘋狂博士親自深入國家超級計算濟南中心,為大家揭開超級計算機神秘的面紗!

14萬3千枚CPU:探訪中國首臺自主超級計算機

        神威藍光的主要技術參數,8704核心、2PB 的存儲空間相當搶眼

14萬3千枚CPU:探訪中國首臺自主超級計算機

14萬3千枚CPU:探訪中國首臺自主超級計算機

        系統為正在運行的項目配置了 8704 顆 CPU,屏幕上綠色顯示閑著的 CPU 主要分布在第 3 號機倉。

14萬3千枚CPU:探訪中國首臺自主超級計算機

        整套神威藍光超級計算機有多大?這只是其中1/4不到

14萬3千枚CPU:探訪中國首臺自主超級計算機

        打開其中一臺機柜,可以看到很多層刀片機

14萬3千枚CPU:探訪中國首臺自主超級計算機

        為什么每一層有三個電源開關?因為一層有三部電源,兩部是備用的

14萬3千枚CPU:探訪中國首臺自主超級計算機

        機柜中黃色的是光纖線(內部數據通信),藍色的是千兆網線(與控制室通信),各單元之間直接用 PCB 連接進行通信

14萬3千枚CPU:探訪中國首臺自主超級計算機

        最高帶寬達到 69.6TB/s

        走進神威藍光超級計算機的機房,可以看到很多立式的機柜,在機房正中間擺成一圈的機柜正是神威藍光,旁邊排成一行的是常規的 X86 架構服務器機柜(從前面的機房布局圖也能看出來)。

        瘋狂博士也見過不少大型機房,不過神威藍光給我的最大印象就是非常安靜!和旁邊發出巨大噪音的 X86 服務器形成了鮮明的對比。

        經工程師介紹,神威藍光全部采用水冷設計,一是比風冷省電,二是幾乎零噪音(這個我們后面詳細介紹)。

        工程師打開機柜,一層層的刀片機引入眼簾。經工程師介紹,每一片上有兩顆處理器,每顆處理器有 16 個物理核心,每顆處理器配備了 16GB DDR3 內存

        瘋狂博士發現刀片機上有三個電源開關,原來每一片都配備了三個獨立的電源,就算有一個壞掉,另兩個也能及時補上,大大保證了服務器的可靠性和穩定性(三個一起壞?這幾率太太太小了)。

        從機柜背后可以看到,各個節點之間是用光纖進行連接的,這樣才能保證足夠的數據帶寬;而刀片機之間是直接用 PCB 連接的,數據帶寬更高。

        那么千兆網線這樣顯得比較“慢”的網絡連接是用來做什么的呢?其實是用來連接監控單元的,監控對于數據帶寬要求很低,所以一般的網絡就行了。

14萬3千枚CPU:探訪中國首臺自主超級計算機

        一排排透明的管子正是神威藍光所用的水冷系統

14萬3千枚CPU:探訪中國首臺自主超級計算機

        水冷系統的進水管與出水管,有多粗?中間放的是本博士的 Note 手機,自己比較吧

14萬3千枚CPU:探訪中國首臺自主超級計算機

        水冷散熱系統的儲水管,左邊的小管子用來觀察水位

        一提到水冷散熱系統,恐怕大家最先想到的就是發燒玩家玩超頻的必備神器了。

        其實,神威藍光超級計算機也是采用的水冷散熱系統,而且這也是它最有特色的設計之一。

        首先,這套給超級計算機使用的水冷系統非常安靜,基本上可以算是零噪音了;

        其次,它非常節能,遠比常規的散熱系統省電得多,畢竟只需要驅動功率不算大的水泵,而且在冬天,濟南的室外溫度很低,冷卻水在室外實現自然冷卻,散熱效率更高;

        再次,這套水冷散熱系統的運營成本也很低,一年的冷卻水損耗率才 30%(其他超級計算機采用的水冷系統蒸發量遠高于它)。

14萬3千枚CPU:探訪中國首臺自主超級計算機

        現場拍攝的申威 SW1600C 國產處理器

14萬3千枚CPU:探訪中國首臺自主超級計算機

        一塊計算單元的主板,上面有兩顆申威 SW1600C 處理器

14萬3千枚CPU:探訪中國首臺自主超級計算機

        申威 SW1600C 處理器結構圖

        這里需要說明一下,和我國其他幾個超級計算機中心所用的 CPU+GPU 方案不同的是,神威藍光采用的是完全自主開發的純 CPU 方案

        其中申威 SW1600C 采用的架構與 X86、ARM 完全不同,采用自己的編譯器和軟件,具備 16 個物理核心(一般臺式機上最多才 8 核),頻率為 1GHz,每顆 CPU 搭配 16GB DDR3 1066 內存

        看到這里可能玩家有疑問,怎么才 1GHz?現在臺式機的處理器默認頻率都快破 4GHz 了。其實不能這么比較,申威 SW1600C 的架構不同于 X86 和 ARM (X86和 ARM 兼容的軟件無法直接在它上面運行,因此擁有很好的安全性),而且針對的數據與應用也不同于一般臺式機,所以不能單純從頻率來衡量。

        另外,從結構圖上也可以看到,申威 SW1600C 內部有 4 個核心組,也就是說每個核心組包含了 4 個物理核心,由交叉開關來進行動態調節計算負載。

        再來看看一個計算單元的主板,兩顆采用 BGA 封裝的申威 SW1600C 直接焊接在主板上面,周圍是 DDR3 內存顆粒,每顆 CPU 分配了 16GB 內存。

        瘋狂博士仔細觀察了一下主板上的供電電路,一共是 11+1 相供電,相當于高端 Z77 等主板的供電規格, 看來申威 SW1600C 的功耗應該和普通臺式機處理器差不多!

來自: 驅動之家
 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!