誰頂住雙11的世界級流量洪峰?神龍架構負責人等9位大牛現場拆解

五嘎子 5年前發布 | 1K 次閱讀 流量

  今年雙 11,天貓成交額再次刷新世界紀錄,阿里巴巴核心系統 100% 上云,撐住了雙 11 的世界級流量洪峰。在這一流量戰場上,阿里可謂是華山論劍的最大贏家。18 日下午,神龍架構負責人旭卿、OceanBase 日照、菜鳥行易等阿里 9 位技術大牛現身北京望京,全面解析阿里雙 11 的武功秘籍。

  阿里江湖中,很多資源和技術,如神龍服務器、OceanBase、POLARDB 等等,在開源、自研、云這三架馬車上形成協同效應,既是內功也是武器。

  “不是任何一朵云都能撐住這個流量。中國有兩朵云,一朵是阿里云,一朵叫其他云。”11 月 11 日晚,阿里巴巴集團 CTO 行癲(張建鋒)不久前表示。

  除云之外,要深入了解阿里的武功路數,必須知道每個花名背后的武器與絕技。旭卿、觀濤、鳴嵩、日照、褚霸、孤星、龍現、行易、鐳銘,11 月 18 日,在阿里舉辦的“雙 11 背后的技術力量”沙龍活動,這 9 位阿里技術大牛展示了路數,全面解讀雙十一背后的武功秘籍。

  整個天貓的成交額是 2684 億,零點訂單峰值達到 54.4 萬筆/秒。這是華山論劍的結果。 自研數據庫 POLARDB 和 OceanBase 分別處理 8700 萬、6100 萬筆/秒峰值請求、實時計算處理峰值每秒 25.5 億筆、計算平臺單日處理 970PB 數據、12 億筆物流智能化等……2019 年雙 11 期間,阿里巴巴打破了諸多技術紀錄。

  點擊進入新智元小程序,可及時獲取一手資訊,與阿里云智能基礎產品事業部研究員旭卿等大咖進行互動。

  一、核心交易系統 100% 遷移到云,第三代神龍服務器定義 IT 行業新的計算范式

  雙 11 一個個閃亮的數字的背后有一個比較重要的事情,那就是今年阿里把核心交易系統 100% 遷移到阿里的公共云上,這是史無前例的、世界級的挑戰。 要實現 100% 的遷移,必須提到阿里云的神龍服務器。神龍架構負責人的旭卿(張獻濤)介紹,“神龍服務器是阿里云近三年來投入巨大的資源,研發的新一代適合云計算的計算架構的服務器,具備高彈性、高穩定和高性能的能力。”

  阿里云從 2016 年開始投入相關研發,2017 年 10 月發布了第一代神龍云服務器。三年內,阿里云從自研芯片開始、到自研設備 +Hypervisor、最后成功自研神龍服務器,打通芯片、軟件、服務器硬件之間的斷層,首次實現了云計算行業性能、資源的零損耗。


阿里云智能基礎產品事業部張獻濤(旭卿)

  為什么阿里云要研發這樣一個神龍服務器? 

  旭卿談到,在過去十幾年間,整個服務器的架構沒有太大的變化。因此在云計算、甚至整個 IT 系統層面,業界都面臨歷史遺留問題,比如性能損失

  究其根本原因,就是做芯片、服務器、軟件的廠商之間沒有太多的協同,缺乏一個頂層的設計,每一個領域,每一個廠商都是希望把自己的東西做得很強,但做強之后對整體系統效率的提升不一定有幫助,這是我們可以感受到的。 

  從這個角度來看,我們需要對整個計算架構做一些改變、革新和提升,提升整體的計算效率,這是阿里做神龍最初的初衷。 

  為什么是阿里云做成了這件事?

   “規模到達一定程度的時候,才會真切的感受到它是一個需要解決的問題,你可能將來只有 10 臺、20 臺、甚至 200 臺、2000 臺服務器的時候,資源還跑不滿,在這種情況下沒有太大的動力去投入上億資金解決這樣一個問題,而今天阿里云的整體規模已經讓我們必須直面這個問題,并且解決這個問題。”旭卿解釋道。 

  旭卿認為,今天神龍正在定義 IT 行業新的計算范式,它不僅僅能實現阿里云的核心系統 100% 上云,解決虛擬化的性能、資源的開銷,并且也能夠實現軟件、硬件完美融合,它的綜合表現在很多業務場景下都是超越物理機的性能表現。 

  說到物理機,旭卿還介紹了第三代神龍架構,它可以提供的性能非常高,“我們網絡的性能可以做到每秒 2500 萬 PPS 的轉發,這個已經是業界標桿的 5 倍,存儲性能其實也做到了 100 萬 IOPS,是業界標桿的 3 倍,所以有了這樣一個東西之后,我們承載雙 11 大促這種業務的話,其實已經比物理機的性能要高很多了。” 

  “當然最后我們還是認為云是 IT 的集大成者,真正的云計算廠商有責任也有義務引導今天軟硬件方面的一些創新,回饋未來的 IT 技術變革打下基礎。”旭卿表示。 

  AliNLP 平臺賦能 700 多個核心業務,客服 AI 搭載 KAN-TTS 技術處理 70% 問題

  在語音和視覺方向,阿里也有所準備。達摩院實驗室的雷鳴就介紹了阿里的客服 AI 和視覺 AI。 

  這是基于阿里巴巴真實客服人員的聲音定制的電話客服 AI,基于今年發布的新一代語音合成技術——KAN-TTS 技術,這個技術可以使語音合成的效果,和真人錄音的接近程度達到 97%。阿里通過技術可以把整個定制周期壓縮到 20 天,錄音周期就 2 天左右,這有效減輕了人工客服的負擔。 

  這種 AI 會不會完全取代人工客服呢?其實,這種 AI 并不是完全替代人工,而是人工跟 AI 協同工作AI 可以解決常規問題,剩下 30% 的問題則需要人工客服來解決,這是一個比較好的人機協同模式。 

  從數據來看,阿里巴巴 AI 每天調用超過 1 萬億次,服務全球 10 億人,日處理圖像 10 億張,日處理視頻 120 萬小時,日處理語音 55 萬小時,日處理自然語言 5 千億句。 

  達摩院在自然語言處理、智能語音、視覺計算等領域奪得 40 多項世界第一,同時自然語言處理在 SQuAD 機器閱讀評比中精確閱讀率首次超過人類,智能語音入選 MIT Technology Review2019 年全球十大突破性技術。這些技術在雙十一的貢獻有以下三個方面。 

  首先是自然語言處理方面,通過 AliNLP 平臺,賦能淘寶、天貓、盒馬、國際化等數十個 BU 的 700 多個核心業務。雙十一重點支持 23 個業務方,包括阿里媽媽、阿里云、小蜜、菜鳥、新零售、天貓精靈等,在雙十一當天,在線調用量超過 11 億。 

  其次是客服 AI,阿里小蜜承接了淘寶天貓平臺 97% 的在線服務需求,換算過來相當于 8.5 萬名人工客服小二工作量,其次阿里小蜜今年推出了多項新功能,包括直播小蜜、基于圖片的智能問答、多樣性文本生成。另外阿里小蜜并不是一個單方向的能力,更多的是綜合了語音、語言、視覺、翻譯等能力,而且小蜜與用戶的交互,已經朝著文本、圖像、語音等多模態的方向發展。 

  在視覺方面,拍立淘日處理圖片 10 億張,今年雙十一,視覺 AI 對拍立淘做了技術升級,從一圖一物到一圖多物的升級,比如之前只識別一個元素,到今天全身穿搭一次性識別,而且這個技術在計算機視覺領域頂級會議上 ICCV 2019 上贏得一個冠軍。 

  三、飛天大數據平臺和飛天 AI,以技術實現商品和消費者最優匹配

  AI 不僅幫助商品識別、客服與顧客之間的溝通,同樣,最重要的消費關系中也有大數據和 AI 的支撐。 

  阿里云智能計算平臺事業部研究員關濤(觀濤)表示,雙十一的挑戰從商務角度看是商品和消費者最優化匹配的問題,往下則是大數據和 AI 能力的挑戰。

  從數據來看,今年雙 11 數據量達到 970 PB,這大概是一個什么量級?央視網所有的電視劇和新聞節目的數據量是 80 PB 左右,對比來看,阿里巴巴通過大數據和 AI 技術分析出來大概是央視數據量的 10 倍以上。 

  這樣的數據能力背后的平臺是什么?就是阿里十年前開始做的飛天大數據平臺。在雙 11 中,阿里使用了全自研的一整套平臺,平臺包括超過 10 萬臺規模服務器集群,10+ 數據中心、10EB 級別存儲、每天千萬級別的大數據和 AI 計算作業。 

  在 AI 方面,關濤介紹了后臺的流計算系統,它是一個數據實時計算系統,通過實時計算的模式,能夠給系統、商家和消費者非常實時的數據的能力。流計算系統可以通過實時計算和 AI 預測,支持商家的商業決策。據統計,去年 2018 年雙十一的時候,這樣的實時推薦給商家的智能決策,90% 都會被商家采用。 

  實時計算的系統層面,能夠支持 TPS、每天有超過萬級別的在線實時在跑,每天處理超過 10 Trillions of Records,包括實時分析、實時預警、實時搜索、在線機器學習、廣告實時推薦,這些都是大數據和 AI 在做的。 

  另外,還有飛天 AI 平臺,通過處理音頻和視頻元素,不僅可以做到千人千面,對于同一件商品,還能提供上千種不同的視頻封面。 

  四、20 個工程師貸出 3000 億貸款,網商銀行融合算力、算料、算法形成核心競爭力

  商家能夠上新產品和作出商業決策的一大前提是資金到位,這就涉及到網商銀行的業務了。 

  “網商銀行其實大家不一定多么熟悉,我去之前都不清楚在做什么。”螞蟻金服網商銀行研究員褚霸說到。 

  網商銀行成立于 2009 年,前身是阿里小貸。10 年后的今天,網商銀行總共貸出去 3000 億的貸款,而這 3000 億貸款就是 20 個算法工程師完成的。褚霸認為,“20 個人就能很漂亮的把這件事完成,我覺得科技是最大的功臣。 能夠完成這樣一個業績的網商銀行,褚霸卻笑稱其為“傻子銀行”,“因為網商其實是一家銀行,不是做技術的,我們是一個技術的整合者,前面幾位介紹那些技術都是被我們很好的去整合到今天的系統里面去。” 

  但其實并不是“傻子”,在新的技術,比如說像云延伸的技術引入方面,網商銀行其實還是走在前面的。 

  還有實時反欺詐技術,這樣一整套的技術能夠將不良率做到1% 或者更低。從金融風險看,業界不良率是5%。“因為今天我們有各種各樣的大數據,AI 的計算能力,還有非常優秀的算法工程師能夠把這些算力、算料、算法串聯起來,形成一個比較核心的競爭力。”褚霸解釋道。

  在交易中,不可或缺的是記錄交易的數據庫,其中一大重點的POLARDB 不容忽視。 

  阿里云智能數據庫事業部資深技術專家曹偉(鳴嵩)介紹了阿里巴巴數據庫發展的歷史,經過三個階段:第一個階段是使用 IOE,使用 Oracle;到了 2015、2016 年開始自主研發 POLARDB,再到今年 100% 上云,所有阿里的核心的交易還有庫存等等業務都會使用 POLARDB 以及我們的生態,就是物流云都在 POLARDB 支持今年雙十一。 

  鳴嵩介紹道,我們 2010 年做了去 IOE 這件事情,2013 年開始起我們把所有的 Oracle 系統下掉,換成 AliSQL,今年我們做了 POLARDB,而 POLARDB 在今年雙十一達到 8700 萬次每秒的這么一個峰值 TPS,在它的背后我們有在 VLDB、SIGMOD、ICDE 上發表的創新技術。 

  五、IOT 技術、自動化技術和智能算法,實現數字化和智能化的倉儲物流

  而在物流領域,那些我們看的見的包裹中都蘊含著哪些看不見的技術。 

  雙 11 的包裹量從 1.52 億到今年的 12.98 億,大概提升了 8 倍,然后雙 11 包裹簽售破億時間點從原來的 9 天到今天我們只需 2.4 天就可以完成一個包裹的投遞。 

  “今年我們雙 11 整個備貨量足可以塞滿 1000 個鳥巢或者 16000 架 A380 飛機。菜鳥到現在為止成立了大概 6 年的時間,這 6 年其實菜鳥已經把科技塞到未來的每個毛細血管。”菜鳥北京技術中心資深技術專家陳罡(花名:行易)說道。

  首先,在包裹產出也就是倉庫上。 菜鳥”用三個技術來達成數字化,即IOT 技術、自動化技術和智能算法,確保實現數字化和智能化的倉儲能力。 

  例如,每年雙十一,倉庫會招收很多臨時工,但因業務熟練度問題,臨時工培訓和熟練完成工作需要耗費大量時間,而今年 IOT 技術就包含了一個 lemo 設備,能夠讓一個臨時工在幾分鐘之內學會怎么操作,通過這個設備,臨時工可以在一天之內達到 99% 的熟練度。 

  11 月 12 日,阿里巴巴的董事長兼 CEO 張勇就在倉庫里,花了 5 分鐘時間使用了 Lemo,他親自點選了一些訂單,并且在 10 分鐘之內就把整個工作流程做完了。 

  目前,菜鳥在全國的自動化流水線已經超過了 5000 公里,自動化設備比去年增加了 50% 以上。在無錫還有一個機器人的生產線,在驛站這邊“秒取快遞”技術,自助可以通過刷臉取快遞等一系列的。另外,電子面單使用率超過 99%,大幅度的減少了整個中國的物流成本。 

  六、綠色數據中心、開放式網絡架構、RDMA 高性能網絡、彈性跨域訪問和自研數據平臺,5 項絕技縱橫江湖

  以上大多技術,都需要基礎設施去支撐。在基礎設施的人眼中,雙十一是什么?

  阿里云智能基礎設施事業部資深技術專家唐陵波(花名:龍現)談道,“我們認為雙十一就是華山論劍,阿里毫無疑問是世界第一。

  但是我們認為,所有的武功都不是一天練的,創新的內功和賦能的武器才是我們在華山之巔拿到的利器、基石。

  阿里是怎么練內功的呢?這就要看阿里綠色數據中心里一個比較創新的技術,叫液冷服務器,這個技術在 2016 年上線了 1.0 版本,現在是 2.0,已經在阿里做了大規模的部署。今年雙十一,液冷技術能夠把每萬筆交易量的耗電量降到 2 度左右。如果所有的交易都放在液冷上實現的話,雙 11 當天可以節約 15 萬度左右的電。 

  目前,阿里巴巴數據中心已經遍布了 200 多個國家和地區。這樣分布廣泛的數據中心被看作是易筋經一樣的肋骨,是驅動阿里一切商業行為和商業流量的基礎,不僅能夠支持雙十一的峰值而且能夠提供彈性的服務。另外,液冷技術近期將會開源。 

  練完內功再來看屠龍寶刀,也就是阿里的自研服務器,它能夠優化阿里應用場景,促進產業生態研進。在存儲場景中,龍現重點介紹了 AliFlash,它已經廣泛運用在存儲場景里面,通過硬件的創新和軟件技術的結合,阿里現在做到了軟件一體化上下的協同設計,在性能和功能上都有突破性的創新。 

  在阿里百萬級的服務器規模背后,怎么讓資源能夠充分利用?龍現說道,“我覺得極致彈性和自動化,是我們能夠支撐這么大規模的服務器,放在我們自己的數據中心里面的一個最重要的原因。” 

  還有被龍現比作倚天劍的自研交換機自研交換機就是阿里在網絡領域的一個重大的技術創新,實際上是就是網絡界的去 IOE,它承擔了大部分的核心流量、網絡流量,能夠讓大家感知不到網絡的減速或“晃動”,使雙 11 平滑過去。 

  另外,RDMA 網絡也是一個重點技術,今年像存儲計算分離之后的云盤和核心數據庫的核心交易量,在去年的基礎上發展了 3 倍,所有的這一切就是阿里在數據中心網絡里面做的幾個比較突出的工作。 

  供應鏈中也蘊含著太極拳。“大家都知道太極拳是以靜制動的,放在企業層面它更多強調的是人的協同。從當初集團決定雙 11 上云使用神龍,到最后上線只有兩個月時間,供貨、備貨、測試都非常緊張,但是供應鏈的同事通過優化庫存、優化流程,然后去幫助供應鏈廠商優化資源共享,極大的提高了供應鏈的交付情況,取得了較為滿意的結果,有效的支持了雙 11 上云這個目標。”龍現解釋道。 

  總結來看,支持云上雙十一的硬核基礎設施,共有 5 項絕技縱橫江湖綠色數據中心、開放式的網絡架構、RDMA 高性能網絡、彈性跨域訪問和自研數據平臺。 

  七、未來將持續擁抱開源,擁抱云原生技術,以技術效率提升商業效率

  在過去十幾年電商的發展的背后是技術力量的持續發展,電商的發展帶給技術巨大的挑戰,技術的突破和變革也支撐起電商業務規模的不斷壯大和商業場景的拓寬。 

  阿里巴巴淘系技術部資深技術專家洪海(花名:孤星)談道,我們經歷了系統架構從集中式到分布式,從中心化到去中心化,從私有云到混合云,今天全面進入阿里云的公有云的過程。在這個業務的高速發展的過程中,一個個難題放在了技術人的面前,最大的挑戰來自雙十一,在這個巨大的商業盛況的背后是一層層技術的突破。 

  網絡、服務器、存儲這些基礎設施多年來發生了翻天覆地的變化,微服務,容器化,數據庫等一系列的底層技術和框架的持續演進,帶動了電商技術今天在搜索,個性化推薦,視頻互動,消息等各個應用領域支撐和連接著數億消費者。 

  解決了業務規模增長的技術瓶頸之后成本的問題擺在了阿里人的眼前。為此,電商開始嘗試混合云的架構,在大促時短時間內租用云的機器進行擴容,進而形成了云單元,另一方面又利用離線大數據集群和在線集群的錯峰互補,形成了混布技術。在這個階段我容器化技術飛速發展,Pouch 容器和 Sigma 調度系統成為了整個資源管理調度的基石,支撐了數百萬的容器的管理和運行。通過這一系列手段,應對雙十一峰值的計算資源的成本得到了有效的控制。 

  在成本問題之后,阿里借助神龍服務器、云的彈性能力、秒級擴容技術、云端一體研發等實現了更有效率和更加開放。 最后,孤星表示,“未來我們將持續擁抱開源,擁抱云原生技術,全面上云。通過技術效率的提升推動商業更有效率,生態更加開放,讓技術創造新商業。

 

 本文由用戶 五嘎子 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!
  轉載自:https://mp.weixin.qq.com/s/i7FHDtwpNTBjLIMMwPzIWw