頂級賽場中的列強爭霸——以可視化數據解讀超算TOP500榜單

企業站 張垞 2019-07-01 15:23

【PConline雜談】每年6月和11月,TOP500榜單的發布是IT圈里固定的大事件。在這個國家實力和IT技術的角力場上 ,一家又一家公司、一臺又一臺超算不斷刷新著人類技術和工程能力的巔峰。6月17日,2019年上半年TOP500榜單在德國舉辦的國際超算大會ISC上發布。

超算TOP3風采

IBM Summit

站在榜單頂點的仍舊是由IBM建造的Summit,Linpack峰值性能達到148.6PFlop/s,整機功率10MW,操作系統為紅帽企業版,能效比為14.719GFlop/w,是整個TOP500榜單中第二高的存在(能效排名第一是日本超算Shoubu System B,能效17.604GFlop/w)。Summit擁有4608個IBM AC922節點,每節點搭載兩顆IBM POWER9 22核心處理器、3.07GHz,每節點系統內存512GB,每節點存儲1.6TB;同時,每個節點還擁有6塊NVIDIA Tesla V100加速卡;單節點算力42TFlop/s。Summit的CPU-GPU通訊采用NVLink總線,而節點之間的通訊則使用100G Infiniband。Summit的CPU和GPU核心均采用水冷散熱,整個散熱系統每分鐘流量超過15000升。Summit坐落于田納西州橡樹嶺國家實驗室,隸屬于美國能源部科學部門。

IBM Sierra

排名第二的是來自IBM的Sierra,可以看成是Summit的姊妹系統,Linpack性能94.64 PFlop/s,整機功率7.438MW,操作系統同為紅帽企業版,能效比為12.723GFlop/s,亦是超算排行榜中名列前茅的能效先鋒。Sierra擁有4320個IBM S922LC OpenPOWER節點,采用主頻為3.1GHz的22核心POWER9處理器,每節點搭載4塊NVIDIA Tesla V100 GPU。內部CPU-GPU通訊仍舊采用NVLink總線,而節點間通訊則采用EDR Infiniband。Sierra隸屬于美國能源部國家核安全管理局的勞倫斯利弗莫爾國家實驗室,主力研究方向是彈道導彈及核爆模擬。

江南計算所神威·太湖之光

排名第三的則是來自中國、由江南計算所研制的神威·太湖之光,Linpack性能93TFlop/s,總功率15.37MW,能效為6.051GFlop/W。與前兩名的集群架構不同,神威·太湖之光采用了MPP架構,CPU為自研的260核眾合架構申威SW26010處理器,RISC架構,指令集是脫胎于Alpha 64的自研指令集,運行頻率1.45GHz,沒有采用GPU或其他協處理器。神威·太湖之光坐落于國家超算中芯無錫中心,隸屬于中國國家并行計算機工程技術研究中心。

細讀TOP500榜單

每次TOP500都會發布詳盡的榜單,包含系統名稱、性能、配置、隸屬機構、用途、國家等眾多信息。不過為了更好的從榜單中看清趨勢,我們還是需要將各類數據進行可視化處理。

TOP500年度(年中)平均算力演化

從2010年一路走來,TOP500榜單中的超算平均算力已經從當年的65TFlop/s逐漸增長為目前的3120TFlop/s,10年增長48倍。不過2019年屬于超算算力進步的小年,平均算力較上年增長只有28.8%。在2011、2012、2013、2016、2018這種超算大年中,平均算力增長都會超過50%(2012年最夸張,平均算力較上年增長超過100%)。不過即便如此,今年榜單仍舊淘汰了去年的252臺超算。也就是說,去年同期能夠排到248名的1026TFlop/s曙光Pvideo-A超算,今年只能排在墊底的499名。

TOP100年度(年中)平均算力演化

再看更高端的TOP100,今年平均算力增長幅度為22%,但平均算力已經達到了9833TFlop/s,預計下半年的榜單可以輕松突破10000TFlop/s。

TOP500榜單國家入圍數

在國家入圍超算臺數方面,中國依舊一騎絕塵,總數達到了219臺,相比2018年6月榜單,數量增加了9臺。按照這個趨勢發展下去,過不了幾年中國超算就將占據TOP500的半壁江山。排在中國之后的則是美國的116臺和日本的29臺。歐洲則基本占據了第二集團,英法德等國分別有十幾臺上榜超算。

TOP500榜單國家入圍數(歐盟)

當然,如果我們把歐盟諸國算成一個整體的話,那么歐盟整體將以96臺上榜的成績排名第三,與美國差距大大縮小。

TOP100榜單國家入圍數

但是來到更加高精尖的TOP100榜單,情況則完全不同。在TOP100排行當中,美國以37套形成了孤獨的第一集團,日本則以15套排名第二,德國和中國都有9套上榜分列三四(德國平均排名比中國靠前)。從TOP100的排名中我們也可以發現,中國新建超算多以中小型(相對而言)超算居多,TOP級大型超算仍舊落后于美日等傳統超算強國。

TOP100榜單國家入圍數(歐盟)

如果將歐盟算作一個整體,那么其30套的TOP100入圍數量則足以與美國分庭抗禮,日本則只能屈居第三。

TOP500榜單國家算力匯總

看完了上榜數量我們再來看看質量。美國以榜單中總計600105TFlops的算力排在了當之無愧的第一,中國則以465852TFlops合計算力排名第二。從圖表中可以看出,中美兩國已經大幅領先其他國家。不過,中國在TOP500中的總算力相比美國仍舊落后不少,只有美國的77.6%;而這還是再超算數量超過美國50%的情況下取得的成績。

TOP100國家算力

在TOP100榜單國家算力排行中,中國位置有所提升,雖然距離美國恐怖的482959TFlops算力相去甚遠,但已經能夠從入圍數量的排名第四上升到排名第二,TOP100總算力為173650TFLops,是美國TOP100算力的36%。

TOP500入圍國家超算總能耗

與超算算力的排名類似,美國雖然入圍超算數量要遠遠落后于中國,但美國入圍的產品都是大型超算,因此,不僅在算力上超越中國,更在能耗上也超越中國。不過,中國雖然在總算力上只有美國的77.6%,但能耗則只有美國的71.3%。說明中國超算在總體能效上要略微超過美國(但是由于中國入圍超算多排在榜單的后半段,更新頻繁,所以上榜超算都是最近一年的新建系統,能效更高也理所應當)。

TOP500榜單處理器分布

從處理器分布來看,英特爾Broadwell架構的至強v4系列以227臺的數量成為了TOP500中的絕對主力。排名第二的則是至強的第一代可擴展處理器Skylake,第三名則是至強v3系列的Haswell架構。當然,除了占絕對主力的各代Intel至強處理器之外,POWER系列處理器還占據了13席、SPARC 64占據4席位,AMD處理器占3席。更特別的是,除了脫胎于Alpha 64的眾核架構神威處理器之外,TOP500還上榜了一臺使用Cavium ARM處理器的超算。這臺超算是排名第156位的Astra,該系統節點采用HPE Apollo 70,處理器是來自Cavium的ThunderX2 CN9975-2000,這是一顆28核心2GHz處理器,沒有采用額外的加速卡。整個超算包含2466個雙路節點,使用100G Infiniband網絡互連,功耗和能效數據未知,因此也不好判斷目前ARM架構是否會比x86或者POWER更高。

TOP500榜單互聯架構

在互聯架構方面,以太網仍舊是超算互聯架構的絕對主力,達到了271臺,相比2018年6月榜單的247臺還有所增加。在以太網中,10GbE仍舊是主流,達到190臺,比去年同期還要多20臺。這顯然與單節點算力持續增加有很大關系(隨著單節點算力的增加,很多上榜超算已經不需要太多節點,普通的10GbE也能承載互聯需求)。另一方面,高性能網絡中的絕對主力Infiniband占比正在緩慢下降,從去年的139臺下降為今年的125臺。同時,定制互聯架構(商業化的定制互聯架構,例如Cray的Aries interconnect、Bull的BXI、國防科技大學的TH-Express2、江南計算所的神威互聯架構等)的占比從去年同期的68臺下降為今年的51臺。而專有互聯架構更是從去年的7臺降為今年的4臺(基本上已經是專指富士通的Tofu interconnect 2了)。不過,作為Infiniband主要競爭對手的OmniPath份額則在緩慢上升,從去年的39臺增加為今年的49臺。這顯然與Intel的主推、相對更低廉的價格有很大關系。

TOP500加速器、協處理器匯總

雖然加速卡能夠在很大程度上提升超算的性能、能效,但受限于計算類型,加速卡仍然不是超算的主流,500臺超算中部署了加速卡的超算只有133臺,還不到總數的1/3;不過相對于2018年6月的110臺,我們還是能看到加速卡在頂級超算中的應用勢頭正在緩慢增長。

在已經部署加速卡的機型中,NVIDIA則是絕對主流。而在Tesla眾多型號中,價格昂貴的V100和P100成為了當仁不讓的寵兒,裝機量分別達到了52臺和46臺。已經進入停產計劃的Intel Xeon Phi協處理器則只占到了5席。

TOP100加速器、協處理器匯總

在更高端的TOP100中,加速卡仍舊只占到32席,不到總數的1/3。除了NVIDIA Tesla V100、P100這些??椭?,我們還能看到一個特殊的存在——天河2A采用的Matrix-2000加速卡。

2016年,美國以“懷疑被用于核爆模擬”為由將國家超級計算天津、廣州、長沙中心和國防科技大學列入限制出口名單。此后,為了擺脫美國禁令的限制,當年的天河2號進行了升級,將之前使用的KC架構Xeon Phi協處理器換成了由國防科技大學研發的Matrix 2000。

對于這塊加速卡,相關專家對其的定義是general-purpose DSP,也就是用途更廣泛的DSP。按照外界對國防科大芯片技術路線的推斷,Matrix 2000很可能使用的是經過魔改的ARM核心,具備128個物理核心,制程未知(從發布時間點來推測是TSMC 28nm制程),封裝之后的芯片面積為66x66mm,使用PCI-E 3.0 x16總線與系統連接。芯片內部包含4個SuperNode,每個SN包含32個核心,SN內部采用名為FIT的點對點內部互聯架構,帶寬25.6GB/s,環路延遲20ns;每個SN包含8個節點,每節點包含4個計算核心以及共享的DCU和Cache;每個SN擁有兩個獨立的DDR4-2400內存控制器(SN對應的內存容量有8GB和16GB兩種)。Matrix 2000運行頻率1.2GHz,支持雙精度和單精度浮點運算(不支持半精度),每時鐘周期可執行16個雙精度運算,雙精度時性能為2.458GFlop/s,單精度性能翻倍,TDP240W(早期產品運行頻率1.0GHz,TDP200W)。

在用Matrix 2000替換Xeon Phi之后,天河2號更名為天河2A,性能從之前的33682.7TFlops提升為61444.5TFlops。雖然升級之后節點總數從之前的16000增加到17792個,但性能提升卻達到了81.45%;可見Matrix 2000的性能還是相當了得的。

TOP500操作系統統計

從操作系統層面來看,TOP500榜單已經被各種版本的Linux全部占領,之前的AIX等操作系統徹底消失。雖然有將近一半的系統并沒有提供具體的Linux版本號,但從之后的排名來看,常見的Red Hat、SUSE、CentOS、Ubentu等公開發行版一應俱全。當然,還有很多超算使用了Cray、Bull、Penguin等制造商的魔改版Linux。

TOP500制造商

從超算制造商來看,聯想、浪潮、曙光分別以173臺、71臺和63臺的數量霸占了榜單的前三名,三家合計達到307臺,占比超過60%。HPE(SGI)、CRAY等超算領域老牌勁旅則只能以40和39臺的數量屈居第二集團(去年同期HPE還能以79臺的數量在榜單中排名第二,而CRAY去年也還有53臺的裝機量;聯想、浪潮、曙光三家去年同期合計也只有240臺的裝機量)??傮w來看,與企業基礎架構領域的情況類似,超算系統也開始呈現出明顯的向頭部集中的趨勢;而值得慶幸的是,超算中的頭部企業都來自于中國。

中國超算成就輝煌,但前途布滿荊棘

自從2010年中國的天河1A第一次奪得TOP500冠軍之時起,中國IT圈乃至中國社會也對這個注定屬于小圈子的榜單產生了濃厚的興趣。在這之后,天河2號、神威太湖之光的相繼問,則讓國人的對于超算的關注發展到了頂點。

但自從2016年美國將中國眾多超算研究、制造及使用機構列入禁運名單之后,美國便開始了對中國超算領域的持續壓制。在ISC大會舉辦期間,美國再次將包括曙光、江南計算所在內的超算制造、研究單位列入實體名單,這無疑會對中國的超算發展帶來一定沖擊。

這兩年,中國TOP10以內的新超算出現頻率降低,這是因為中國正在全力備戰百億億次計算。目前,中國同時準備了三套E級計算系統,分屬不同技術路線——國防科大/國家超算天津中心共同主導的天河3號(使用Matrix 200+)、曙光領銜的x86路線(使用海光處理器,但三家海光公司均被列入實體名單)、江南計算所主導的神威系列超算(眾核架構、ARM處理器)。三套系統將在2021-2022年之間集中亮相,不過,在幾乎相同的時間段里,美國、歐盟、日本的E級超算也將集體亮相。屆時超算領域將再次迎來一場龍爭虎斗的高速發展時期。

 

收藏

網友評論

寫評論

相關推薦

极速赛车8码计划软件手机版下载