2022國(guó)際超算大會(huì)發(fā)布最新TOP500榜單,美國(guó)田納西州橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室(ORNL)的“前沿”(Frontier)以1.102 exaflops的成績(jī)屠榜,成為第一個(gè)真正突破Exascale大關(guān)的超算。
在這一份榜單中,我國(guó)的神威太湖之光位列第六,天河二號(hào)位列第九,與前幾年相比排名有所下降,算力也不及美國(guó)“前沿”的十分之一。
長(zhǎng)期以來(lái),超算被視為綜合國(guó)力的象征之一,是支撐國(guó)家持續(xù)發(fā)展的關(guān)鍵技術(shù)之一。那么,中國(guó)的超算能力如何?國(guó)內(nèi)芯片供應(yīng)鏈?zhǔn)欠衲軌蛑沃袊?guó)搭建超算中心呢?
超算市場(chǎng)的形成
簡(jiǎn)單來(lái)說(shuō),超級(jí)計(jì)算機(jī)是指由數(shù)千甚至更多處理器組成、能計(jì)算普通計(jì)算機(jī)和服務(wù)器不能完成的大型復(fù)雜課題的計(jì)算機(jī),它是將大量的處理器集中在一起以處理龐大的數(shù)據(jù)量,同時(shí)運(yùn)算速度比常規(guī)計(jì)算機(jī)快許多倍。
根據(jù)中國(guó)科學(xué)院院士錢德沛2019年所做的一個(gè)報(bào)告,1993-2012年,超級(jí)計(jì)算機(jī)的性能大約每10年提高1000倍,從2013年起,上升速率變緩,降低為每10年100倍左右。但無(wú)論如何,超級(jí)計(jì)算機(jī)性能增長(zhǎng)的速度遠(yuǎn)高于民用PC的性能增長(zhǎng),這說(shuō)明超級(jí)計(jì)算機(jī)性能提高固然要靠單芯片性能的增長(zhǎng),也非常依賴系統(tǒng)規(guī)模的擴(kuò)大。
最早,超算領(lǐng)域一直是由美國(guó)主導(dǎo)的,美國(guó)是該領(lǐng)域的傳統(tǒng)強(qiáng)國(guó),已構(gòu)建了三大E級(jí)超算體系。自20世紀(jì)80年代中期開(kāi)始,日本逐漸追趕上,其自主研發(fā)的超級(jí)計(jì)算機(jī)的性能屢創(chuàng)佳績(jī)。
近幾年,中國(guó)在超算領(lǐng)域也逐漸崛起,占據(jù)了突出優(yōu)勢(shì)。在2022年的榜單上,中國(guó)共有兩個(gè)超級(jí)計(jì)算機(jī)進(jìn)入前十,分別是HPL得分為93PFlop/s、位列第六的“神威·太湖之光”和HPL得分為61.4PFlop/s、位列第九的“天河二號(hào)”。
截至目前,我國(guó)共掛牌8座國(guó)家級(jí)超算中心,分別位于天津、長(zhǎng)沙、濟(jì)南、廣州、深圳、無(wú)錫、鄭州、昆山。
那么如此重要的算力場(chǎng)景,究竟需要那些芯片呢?
超算中心需要哪些芯片?
先來(lái)看國(guó)內(nèi),2010年,中國(guó)的“天河一號(hào)”位居全球超級(jí)計(jì)算機(jī)500強(qiáng)排行榜榜首。其思路采用“CPU+GPU”的設(shè)計(jì)思路,結(jié)合了大約7000個(gè)英偉達(dá)GPU和14000個(gè)英特爾CPU,將GPU(圖形芯片)用于超級(jí)計(jì)算機(jī),起到了“CPU加速器”的作用。
盡管“天河”的主要部件仍來(lái)自英特爾與英偉達(dá)兩個(gè)美國(guó)制造商,但互聯(lián)芯片則完全是中國(guó)自主研發(fā),“天河”安裝有由中國(guó)自主研發(fā)的“飛騰1000”芯片,部分取代了進(jìn)口芯片。
2016年“神威·太湖之光”誕生,是世界首臺(tái)峰值運(yùn)算性能超過(guò)每秒十億億次浮點(diǎn)運(yùn)算能力的超級(jí)計(jì)算機(jī)。這臺(tái)計(jì)算機(jī)共有40960顆國(guó)產(chǎn)芯片,運(yùn)算系統(tǒng)全面采用了國(guó)產(chǎn)“申威26010”眾核處理器。這也是我國(guó)第一臺(tái)全部采用國(guó)產(chǎn)處理器構(gòu)建的超級(jí)計(jì)算機(jī)。
從北京超級(jí)云計(jì)算中心來(lái)看,根據(jù)處理器的類別,北京超級(jí)云計(jì)算中心的超算分區(qū)可以劃分為四大系列:基于AMD芯片的A分區(qū)與M分區(qū),以及A分區(qū)的加強(qiáng)版「A6分區(qū)」;基于英特爾芯片的T分區(qū)與L分區(qū);基于國(guó)產(chǎn)芯片的先導(dǎo)一號(hào);基于英偉達(dá)芯片的AI智算云,比如N17、N19區(qū)。
其中,A分區(qū)采用的是AMD在2019年推出的第二代EPYC(霄龍)服務(wù)級(jí)處理器,代號(hào)羅馬(Rome),基于7nm工藝,搭載64核心128線程,每一個(gè)核心的內(nèi)存為4GB,在提升核心的同時(shí)也提升了時(shí)鐘速度,加速頻率可達(dá)3.4GHz。
國(guó)外方面,今年在超算榜單排名第一的美國(guó)的“前沿(Frontier)”超級(jí)計(jì)算機(jī),相較于神威·太湖之光,美國(guó)的Frontier只有9408個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)配備一個(gè)AMD Epyc 7A53 CPU和四個(gè)AMD Instinct MI250X加速卡。顯然,F(xiàn)rontier的節(jié)點(diǎn)間通信的壓力要小得多,也更容易設(shè)計(jì)。
該系統(tǒng)共包括8730112個(gè)內(nèi)核,整個(gè)系統(tǒng)總共有9400多個(gè)CPU和37000多個(gè)GPU。Frontier核心計(jì)算部分主要依靠AMD Instinct MI250X加速卡,采用的是CDNA2架構(gòu)。
此外,每塊加速卡上還集成了128GB HBM2e高帶寬內(nèi)存?,F(xiàn)在的超算主要還是馮·諾依曼結(jié)構(gòu)占主導(dǎo),內(nèi)存速度將直接影響計(jì)算速度,這種內(nèi)存比普通的要快得多,目前卻只有少數(shù)企業(yè)能夠生產(chǎn)。
超算中心如何分配芯片
超級(jí)計(jì)算機(jī)的性能野蠻生長(zhǎng)了20年,至今為止,美國(guó)研制Frontier的花費(fèi)也不過(guò)區(qū)區(qū)6億美元,這說(shuō)明超算系統(tǒng)規(guī)模的擴(kuò)大并不是簡(jiǎn)單的堆硬件。
日本“富岳”(Fugaku)超算,宣稱它的浮點(diǎn)運(yùn)算速度峰值可達(dá)每秒41.5億億次;中國(guó)的“神威太湖之光”,它的浮點(diǎn)運(yùn)算速度峰值是每秒12.5億億次。都達(dá)到了10億億次以上。超算用了很多個(gè)芯片,讓它們同時(shí)執(zhí)行任務(wù),而單個(gè)芯片的性能跟個(gè)人電腦的芯片是差不多的。用科學(xué)術(shù)語(yǔ)來(lái)說(shuō),這叫做“并行計(jì)算”,這是高性能計(jì)算的基本思路。
超算的算力是和核數(shù)有關(guān)的。但算力速度并不能與核數(shù)構(gòu)成正比例關(guān)系。實(shí)際上,要讓多個(gè)芯片同時(shí)運(yùn)行,就必須首先給它們劃分好任務(wù),這個(gè)任務(wù)劃分是要消耗時(shí)間的。然后,當(dāng)各個(gè)芯片開(kāi)始計(jì)算之后,還不時(shí)地要和其他芯片交換數(shù)據(jù),這個(gè)通信也是要消耗時(shí)間的。
超算的競(jìng)爭(zhēng)主要是超算系統(tǒng)中調(diào)度、分發(fā)、通信相關(guān)的軟硬件的競(jìng)爭(zhēng)。早期的超算中心,每一個(gè)節(jié)點(diǎn)要么純CPU,要么是CPU+加速卡的異構(gòu)計(jì)算方案。但從2010年前后開(kāi)始,純CPU的方案劣勢(shì)太大,越來(lái)越少地被采用。CPU+加速卡的異構(gòu)計(jì)算方案也存在很大缺點(diǎn),即計(jì)算的數(shù)據(jù)會(huì)反復(fù)在CPU和加速卡之間傳輸,造成大量的性能浪費(fèi)。
因此,為了更高的性價(jià)比和計(jì)算速度,早期國(guó)內(nèi)往往會(huì)購(gòu)買英特爾和英偉達(dá)兩家美國(guó)廠商的成熟產(chǎn)品。
再之后異構(gòu)計(jì)算進(jìn)入超算中心的眼簾。事實(shí)上,最近幾年曾經(jīng)在TOP500刷榜,或者排名靠前的超算都采用了異構(gòu)計(jì)算——中國(guó)神威太湖之光、美國(guó)超算泰坦、中國(guó)天河1號(hào)和天河2號(hào)。
泰坦有18688個(gè)運(yùn)算節(jié)點(diǎn),每個(gè)運(yùn)算節(jié)點(diǎn)由1個(gè)16核心AMD Opteron 6274處理器和1個(gè)英偉達(dá) Tesla K20加速器組成,共計(jì)299008個(gè)運(yùn)算核心,屬于CPU+GPU。
天河1號(hào)使用了14336片英特爾 Xeon X5670處理器和7168片英偉達(dá) Tesla M2050高性能計(jì)算卡,屬于CPU+GPU。
天河2號(hào)有16000個(gè)計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)由2片英特爾的E5 2692和3片Xeon PHI組成,共使用了32000片英特爾的E5 2692和48000片Xeon PHI,屬于CPU+眾核芯片。正在升級(jí)的天河2號(hào)則將美國(guó)的Xeon PHI換成了自主研發(fā)的矩陣2000,屬于CPU+DSP。
神威·太湖之光使用的sw26010將兩個(gè)部分的電路,集成到了一個(gè)芯片上(片上異構(gòu)),這樣既避免了純CPU不擅長(zhǎng)專業(yè)計(jì)算的劣勢(shì),又避免了加速卡不能和CPU共享內(nèi)存的問(wèn)題。使得sw26010在設(shè)計(jì)團(tuán)隊(duì)規(guī)模很小,制程落后整整兩代的情況,實(shí)現(xiàn)了和英特爾類似產(chǎn)品相似的功耗和性能。
太湖之光的成功,啟迪了后來(lái)日本的“富岳”超算。“富岳”同樣拋棄了美國(guó)成熟的計(jì)算方案,購(gòu)買ARMv8.2-A指令集開(kāi)發(fā)管理核心,并自研專業(yè)計(jì)算模塊,推出了富士通版的片上異構(gòu)芯片A64FX。
總結(jié)
我國(guó)在發(fā)展超算中心的途中,仍有許多問(wèn)題。國(guó)產(chǎn)芯片研究起步較晚,CPU、GPU等超算核心芯片指令集架構(gòu)領(lǐng)域仍然存在明顯短板,缺乏高端芯片制造能力。EDA和編程平臺(tái)長(zhǎng)期面臨卡脖子風(fēng)險(xiǎn),核心設(shè)備依賴進(jìn)口,自主權(quán)和議價(jià)權(quán)仍由國(guó)外巨頭掌控。
目前來(lái)看,超級(jí)計(jì)算機(jī)的核心硬件CPU與GPU市場(chǎng)呈現(xiàn)馬太效應(yīng),CPU主要由Intel與AMD領(lǐng)跑,GPU市場(chǎng)由英偉達(dá)等國(guó)際巨頭掌握關(guān)鍵技術(shù)話語(yǔ)權(quán)。并且在美國(guó)的刻意制裁下,上榜超算大會(huì)TOP500的企業(yè),往往更容易被加入實(shí)體清單。
2019年6月,美國(guó)將江南計(jì)算技術(shù)研究所等列入實(shí)體清單;2021年4月8日,包括天津飛騰信息技術(shù)公司、上海集成電路技術(shù)與產(chǎn)業(yè)促進(jìn)中心、Sunway Microelectronics、國(guó)家超級(jí)計(jì)算濟(jì)南中心、國(guó)家超級(jí)計(jì)算深圳中心、國(guó)家超級(jí)計(jì)算無(wú)錫中心以及國(guó)家超級(jí)計(jì)算鄭州中心被美國(guó)列入黑名單。
在重重壓力下,我國(guó)超算仍然保持著優(yōu)秀的成績(jī)。在今年的ISC 2022超級(jí)計(jì)算大會(huì)上,中國(guó)是超級(jí)計(jì)算機(jī)上榜數(shù)量最多的國(guó)家,以173臺(tái)的數(shù)量位列第一,占全球34.6%;排名第二的美國(guó)從上一期的150臺(tái)下降到127臺(tái),占比25.6%;排名第三的日本則有33臺(tái)進(jìn)入榜單,占比6.6%。
從2016年開(kāi)始,我國(guó)超算進(jìn)入TOP500榜單的數(shù)量,除了2017年6月稍下滑位居第二外,基本上就一直穩(wěn)定在世界第一的位置。這些成績(jī)的出現(xiàn),并非易事。
隨著我國(guó)高度重視超級(jí)計(jì)算機(jī)核心芯片自主國(guó)產(chǎn)化研究,國(guó)產(chǎn)x86架構(gòu)CPU、DCU深度計(jì)算單元均已獲得一定的應(yīng)用。
更多信息可以來(lái)這里獲取==>>電子技術(shù)應(yīng)用-AET<<