阿里云破紀錄的背后：377秒是如何煉成的？

jopen 10年前發布 | 9K 次閱讀阿里云

10月28日， Sort Benchmark 官方宣布，阿里云用377秒完成了100TB的數據排序，打破了此前Apache Spark創造的1406秒紀錄。在含金量最高的 GraySort 和 MinuteSort 兩個評測系統中，阿里云分別在通用和專用目的排序類別中創造了4項世界紀錄。

消息一出，整個技術圈都沸騰了，特別是對云計算高度關注的互聯網、計算機行業。阿里云打破世界紀錄，再次點燃了大家對分布式計算的熱情。同時，大數據、云計算的各種圈子里也掀起了討論：這件事情有多難？怎么做到的？對普通人意味著什么等等。

基于這些原因，我們發表此文，希望從阿里云的角度回答大家的疑問。

這件事情有多難？

SortBenchmark的出現，是希望能用最簡單的方法，評估出不同的計算模型，計算平臺的計算能力優劣？而排序是最基礎的計算問題，任何一本數據結構和算法的計算機教材，首先要講的，就是各種排序算法。所以排序，當之無愧的成為這個簡單，但直接有效的benchmark。

SortBenchmark競賽最早的紀錄追溯到1987年，當時都是單機的比賽。如何造出最強大的機器，如何盡量壓榨單臺機器的性能是大家的主要工作。

但從1998年開始，大家的策略和思路發生了改變，分布式計算開始成為主流。大家的工作重點也轉變為：如何有效調度成百上千乃至幾萬臺機器上的 CPU、內存、網絡、磁盤IO等物理資源，最快完成海量數據的排序。這就像軍隊里，管好幾個人，你可以當班長；管好幾十個人，你可以當排長；但要管好幾萬人，你才能當將軍。

而且，對大規模集群做線性擴展，遠比大家想象得困難。正如，一個班長說“我只有幾個人，所以我才是班長，但如果你現在給我幾萬人，我馬上就是將軍了”，大家會覺得好笑一樣。當規模不斷擴大，系統的各種瓶頸都會逐漸出現，原來能處理所有消息，能做出各種調度決定，現在發現忙不過來；如果找出下級代理，可能又會發現代理做出的決定和處理總不是最好的。

這還只是一種資源的調度，當計算需要多種資源完美配合時，你可能會發現內存是有效調度了，但是會影響網絡的使用；網絡可能用好了，但是又影響了磁盤的有效利用。調度不好時，各個維度可能互相沖突。

當你把資源調度得差不多了，你可能發現其實這個計算任務如果從機器A上換到機器B上運行，時間會短很多。或者機器A本來很適合，但是碰巧機器A壞了，就像幾千人的軍隊打仗，有人臨陣脫逃很正常。諸如此類的問題，隨著規模的不斷擴大，會急劇復雜化。可以說，規模每增加一個數量級，分布式計算平臺需要處理問題就會完全不同。而如何利用大量低端機器達到高性能，正是云計算技術的核心挑戰。

阿里云的“飛天”分布式計算平臺于2013年正式上線了5000臺的單集群規模，現在生產線上的規模更大。關于如何支持這么大的規模，可以參考 VLDB 2014上伏羲發表的文章，這不是本文的重點。本文接下來會重點介紹在支持如此大規模計算集群后，我們還做了哪些事情，讓一萬億條記錄，100TB數據的排序能在不到7分鐘完成。

阿里云如何做到的？

“飛天”是阿里云的分布式計算平臺，不僅承擔著阿里集團內部所有的離線數據處理任務，同時也提供阿里云公共云服務的基礎平臺支撐。“飛天”系統的關鍵模塊包括：(a)Pangu-分布式文件系統，負責存儲和管理計算中心的數據文件；(b)Fuxi-分布式調度系統，負責管理計算中心的集群資源，調度分布式系統中運行的在線和離線應用。Fuxi提供了一種名為FuxiJob的大數據批處理框架，能處理任意的基于DAG(有向無環圖)描述的用戶計算任務。

Fuxi已經部署在了阿里巴巴多個計算中心的數十萬服務器上，單個集群的規模超過5000臺機器。任何可以用DAG描述的離線數據處理作業都可以用Fuxi Job來執行，包括但不限于MapReduce作業和更加復雜的機器學習作業。Job的輸入輸出文件以及運行過程中的臨時文件都存儲在Pangu中，依賴 Pangu提供的文件副本和locality配置來獲取更好的性能，同時提高數據的可靠性。

接下來我們重點介紹基于“飛天”系統開發的Fuxisort程序。我們在GraySort和MinuteSort兩項比賽中使用相同的程序，程序中的優化將在后續章節中詳細介紹。

概述

首先，程序會對待排序數據進行采樣，以確定數據各分片的范圍。如圖1所示，除了采樣之外，整個數據排序過程分兩大階段：map階段和sort階段。兩個階段都包含多個并行的任務。