繼英偉達最小邊緣超算,英特爾再推10倍提升VPU
市場被催熟,巨頭進場收割。
邊緣智能,人工智能的最后一公里,很長一段時間里被創業者視為得以繞開巨頭打壓的藍海市場,在今年開始有了微妙的變化。
北京時間今日凌晨 2 點,英特爾在舊金山舉行 2019 人工智能峰會,推出從邊緣到云端到全新 AI 芯片,包括下一代英特爾 Movidius Myriad 視覺處理單元 (VPU),用于邊緣媒體、計算機視覺和推理應用,以及難產三年終于落地的 Nervana 系列,面向訓練 (NNP-T1000) 和面向推理 (NNP-I1000) 的 Nervana 神經網絡處理器 (NNP)。
三條 AI 芯片產品線的發布,標志著英特爾人工智能業務獲得實質進展。
在最近的財報電話會議上,英特爾樂觀地預測,2019 年人工智能的年收入達到 35 億美元,高于 2017 年的 10 億美元,完成 2022 年 100 億美元目標的三分之一以上。
英特爾透露,在無人機、相機、機器人和自動駕駛汽車等設備的邊緣計算收入同比增長了 20%。
「這一數字將逐年增長,基于我們的廣度與深度,已經從數據中心走到邊緣。」英特爾公司副總裁兼 AI 產品事業部總經理 Naveen Rao 表示。
1
邊緣端性能十倍提升
英特爾詳細介紹了代號為 Keem Bay 的下一代 Movidius Myriad 視覺處理單元(VPU),該單元針對邊緣推理任務進行了優化。
英特爾物聯網副總裁喬納森·巴倫(Jonathan Ballon)表示,該芯片擁有一種新的片上存儲器架構,具有 64 位存儲器帶寬,性能是上一代產品的約 10 倍。
機器之心現場實拍
巴倫稱:「它將以比同類產品低一倍的性能,幾分之一的尺寸和成本來提供優于 GPU 的性能。」
Keem Bay 中封裝了用于計算機視覺的專用芯片和 12 個可加快運行速度的專用(SHAVE)處理器內核,可使用 Myriad Development Kit(MDK)進行編程,從而兼容更多 AI 算法。
英特爾表示,Keem Bay 的功耗是 Nvidia 的 Jetson TX2 的四分之一,比華為昇騰(Ascend)310 計算速度快 1.25 倍。在特定情況下,能效比競爭對手的處理器高六倍,每秒提供的 TOPS 推理量是 Nvidia 的 Xavier 的四倍。
該款芯片將在 2020 年上半年推出,包括 PCI Express 和 M.2 等形式。
早在 2016 年 9 月,英特爾就收購總部位于圣馬特奧的 AI 初創團隊 Movidius,設計用于計算機視覺的專用低功耗處理器芯片,為其終端算力市場步下重要一子。
2017 年,英特爾推出 Myriad 2,被 Google 的 Clips 相機,大疆的 Phantom 4 無人機,和國內安防市場的高端攝像頭所采用。
隨后推出的 Myriad X 具有改進的成像和視覺引擎,包括附加的可編程 SHAVE 內核和升級的視覺加速器,以及支持多達 8 個高清傳感器的本地 4K 圖像處理器管線。
參考英偉達在軟件生態的深厚基礎而能厚積薄發,這次巴倫也著重強調了,英特爾在軟件與開發工具方面的努力,使用英特爾 OpenVINO 工具包的客戶可以獲得大約 50% 的額外性能。
基于 OpenVINO 工具包,Edge AI DevCloud 能夠對無人機和攝像頭等邊緣設備進行 AI 原型和測試,開發人員可以使用現有工具和框架免費測試和優化 OpenVINO 中用于 Intel 硬件(例如 CPU 或 FPGA)的模型。
隨著 Edge AI DevCloud 的發布,客戶現在能夠使用在夏季推出的 Deep Learning Workbench 工具進行建模和仿真,然后將其免費部署在開發云中的各種不同硬件配置上。
Ballon 在與 VentureBeat 的一次對話中稱,OpenVINO 是英特爾歷史上增長最快的工具。
2018 年 5 月,英特爾首次向開發人員和制造商提供 OpenVINO 或開放式視覺推理和神經網絡優化,以使用英特爾硬件進行深度學習推理。
OpenVINO 支持從 CPU,GPU 和 FPGA 到 Intel Movidius 神經計算棒的一系列機器學習加速器。該工具包于今年早些時候進行了更新,以擴展到計算機視覺應用之外,并支持語音和 NLP 模型。
英特爾今天還與 Udacity 一起推出用于物聯網納米級程序的 Edge AI。據悉,正在創建的數據中有 70% 位于邊緣,只有一半將進入公共云,其余的將在邊緣存儲和處理。
2
云端 AI 芯片終商用
在終端之外,英特爾當然沒忘最核心的數據中心市場,Nervana 產品線難產三年終于落地。
英特爾推出面向 AI 推理和 AI 訓練領域的兩個系列產品,分別是神經網絡訓練處理器(Intel Nervana NNP-T)和神經網絡推理處理器(Intel Nervana NNP-I),作為英特爾為云端和數據中心客戶提供的首個針對復雜深度學習的專用 ASIC 芯片。
訓練芯片 NNP-T 采用臺積電 16nm 制程工藝,擁有 270 億個晶體管,硅片總面積達 680 平方毫米,支持所有主流深度學習框架。
機器之心現場實拍推理芯片 NNP-I 基于英特爾 10nm Ice Lake 處理器架構,在 ResNet50 上的效率可達 4.8 TOPs/W,功率范圍為 10W 到 50W 之間,同樣支持所有的主流深度學習框架。
早在 2016 年,英特爾就提出啟動 Nervana 神經網絡處理器的項目研發,直到今年才正式揭曉,并宣告正式投入生產,并實現商用。
值得注意的是,這兩款產品面向百度、 非死book 等前沿人工智能客戶,并針對這些企業的 AI 處理需求進行定制開發。
談到英特爾 Nervana 的獨特性和優勢時,英特爾公司人工智能產品事業部副總裁、推理產品事業部總經理 Gadi Singer 向機器之心表示,主要集中在功效、功能、規模化三個方面。
深度學習變化得如此之快,AI 從某個研究實驗室到或公司開始注意到開發再到部署可能只需要不到一年的時間,就好比去年 BERT 出來時, 三個月內大家對它進行了廣泛的試驗,一年之內對其進行了非常大規模的部署。
在瞬息萬變的環境下,研發出一個能隨時‘準備就緒’的通用解決方案,我們才可以解決甚至還沒有被廣泛關注的新問題。因此,我們的架構是使用構建模塊不斷進行重組。
最后是規模化,比起硬件方面,更多組員主攻的是軟件這個部分。軟件對整個解決方案的優化非常關鍵,比如軟件能了解在不同的內存位置以及使用這些功能分別需要的時長,軟件能每個數據模塊的使用頻率并把它們放置在正確的位置上,讓你可以最高效地使用推理計算引擎。Nervana 架構與某些單一用途的同類產品不同,使用帶有接口通道的 API 分層構建它。最底層的 API 直接與硬件打交道,然后中間會有一些類似于圖譜節點的 API,像是深度學習圖譜中的高級計算單元,然后最高層的軟件層將它們映射到用戶所需要的任何應用程序接口中。
3
巨頭掘力終端
不止于英特爾,細心觀察就會發現,今年巨頭發力終端和邊緣端的算力市場比以往聲量更大。這在某種意義上也標志著終端 AI 芯片市場的成熟,巨頭開始收割。
1、英偉達
Jetson 是英偉達在面向嵌入式市場的產品線,正是對標英特爾 Movidius。區別于其他邊緣 SoC 的特點,Jetson 家族強調并行運行多個神經網絡。
截至目前,Jetson 已發布四個系列,包括 Jetson TX1、Jetson TX2、Jetson Nano、Jetson Xavier NX,主要部署在邊緣與終端應用上,適用于機器人、無人機和智能攝像頭等應用。
2017 年,英偉達推出首款采用 Pascal GPU 架構(16 nm 工藝)的芯片 Jetson TX2,大小相當于一張信用卡。官方給出的數據顯示,TX2 可在 MAX Q、MAX P 兩種狀態下運行,功耗在 7.5W-5W。
2018 年,英偉達發布 Jetson 系統級模塊——AGX Xavier,可提供工作站級別的任務執行性能。AGX Xavier 有 10W/15W/30W 三種選擇,神經網絡運算輸出為 32TOPS,可應付多達四路的 HEFC 4K 、60fps 視頻流。
而就在上周,英偉達進一步推出 Jetson 的最新成員 Jetson Xavier NX,號稱「全球最小邊緣超算」。
可提供高達 14 TOPS(功耗為 10W 時)或 21 TOPS(功耗為 15W 時)的性能,能夠并行運行多個神經網絡,并在與 Nano 同樣尺寸(70x45mm)的小巧外形中同時處理來自多個高分辨率傳感器的數據。
Xavier NX 將于明年 3 月開始發售,價格 399 美元。
與此同時,英偉達為 Jetson 配置了一套開放式平臺和完整的 AI 軟件堆棧 JetPack SDK,可以運行復雜的 AI 網絡,并用于深度學習的加速庫以及計算機視覺、計算機圖形、多媒體等。
2、谷歌
今年年早些時候,谷歌推出名為 Coral 的本地終端 AI 平臺,是 TPU 的邊緣芯片版本,強調以低功耗水平提高出色的 ML 推理性能。能夠以良好的功率表現執行 MobileNet v2 等最先進的移動視覺模型,且 fps 可達 100 以上。
Coral USB 加速棒(圖左)與第一代英特爾神經計算棒(圖右)。
基于 Corel 平臺,谷歌發布了五款設備,分別是單板計算機「Coral Dev Board」、支持 Raspberry Pi 或 Debian Linux 計算機的 USB 加速器、對應 Dev Board 的 500 萬像素鏡頭模塊、 Dev Board 的系統模塊(SoM),和輕易將機器學習加速器 Edge TPU 與現有計算機系統整合的 PCI-E 加速器。
3、華為
看國內市場,當屬華為作為風向標。
去年,華為發布全面自研芯片信號,昇騰則是其推出的首款面向邊緣計算品牌,采用華為自有的達芬奇架構(12nm 工藝),使用華為自有的高效靈活 CISC 指令集。
昇騰系列除了瞄準機器人、智能制造等終端智能產品,同時也是華為在安防智能攝像頭和邊緣計算的重要布局。
昇騰 310 最大功耗為 8W,半精度(FP16)運算能力 8TFLOPS,整數精度(INT8)16TOPS,支持 16 通道全高清視頻解碼(H.264/265)。在今年上半年正式推出。
4
AI 芯片創業壓力加劇
很長一段時間里,由于云端 AI 芯片市場被集中壟斷,同時更加依賴生態,導致大部分 AI 芯片的初創公司都將目標瞄準在邊緣和終端市場,以各種 AI 加速器或 SoC 芯片的形式走向市場。
通過獨特的架構設計以及領先的性能指標的芯片,以求在分散而潛力巨大的物聯網市場分得一杯羹。
如今,英特爾 Myriad Keem Bay、英偉達 Jetson Xavier NX 的推出不僅標志著巨頭邊緣端 AI 芯片布局的完善和實力的進一步增強,同時也是邊緣端芯片市場競爭更加激烈的強烈信號。
巨頭的 AI 芯片觸角蔓延至邊緣端,將讓 AI 芯片初創公司面臨著更加嚴峻的生存挑戰。