在全球超算領(lǐng)域,中美一直在爭奪算力第一的位置,此外,日本和歐洲是兩股重要力量。而在超級計(jì)算機(jī)的核心——處理器方面,也是八仙過海,各顯神通,特別是在處理器架構(gòu)方面,業(yè)界有著不同的路線:有的采用傳統(tǒng)的x86以及IBM的Power,有的采用最新的并行異構(gòu)計(jì)算體系,還有一個就是ARM服務(wù)器架構(gòu)。
上周,在Hotchips會議上,富士通公司公布了號稱最強(qiáng)ARM處理器A64FX,其集成了48+4個核心,配備32GB HBM 2內(nèi)存,帶寬1TB/s,浮點(diǎn)性能2.7TFLOPS,使用7nm工藝生產(chǎn)。該處理器將用于日本新一代代號為Post-K的百億億次超算,據(jù)悉,其性能將是現(xiàn)在的京式超算的100倍,而能耗只有三倍。
日本現(xiàn)在的超算京(Kyo)是富士通聯(lián)合日本理化研究所開發(fā)的,使用的處理器是SPARC64架構(gòu),而新一代的百億億次超算將使用全新研發(fā)的處理器A64FX,與現(xiàn)有的超算相比,新一代Post-K超算最大的變化就是處理器從SPARC64架構(gòu)全面轉(zhuǎn)向了ARM,富士通還聯(lián)合ARM推出了SVE(可伸縮矢量擴(kuò)展)指令集,大幅強(qiáng)化浮點(diǎn)性能。
據(jù)悉,A64FX處理器使用了ARM的ARMv8.2-A指令集,浮點(diǎn)單元則是上面提到的SVE,支持512bit位寬浮點(diǎn)運(yùn)算。這個處理器的架構(gòu)設(shè)計(jì)也很特別,有48個計(jì)算核心及4個協(xié)助核心組成,分為四個CMG單元,每個單元13個核心,28Gbps I/O帶寬,16條PCIe 3.0通道。
A64FX處理器將使用7nm FinFET工藝生產(chǎn),87.86億個晶體管,性能可達(dá)2.7TFLOPS,是前代的SPARC V9處理器1.1TFLOPS的2.5倍左右。
根據(jù)富士通公布的信息,目前A64FX處理器已經(jīng)完成原型開發(fā),新一代超算已經(jīng)進(jìn)入功能測試階段。
富士通這一處理器產(chǎn)品的推出,特別是該公司將原有的超算處理器架構(gòu)由原來的SPARC64全面轉(zhuǎn)向了ARM,無疑是給當(dāng)下的ARM服務(wù)器市場打了一針強(qiáng)心劑。
全球服務(wù)器市場的ARM元素
在當(dāng)今的服務(wù)器CPU架構(gòu)領(lǐng)域,ARM明顯處于弱勢地位,市場主要由x86主導(dǎo),另外還有Power。在美國,ARM服務(wù)器CPU聲勢越來越弱,高通、AMD等大廠紛紛裁撤在該方面的投入。
ARM服務(wù)器CPU主要應(yīng)用包括商用和超算等,下面就以超算應(yīng)用為例,因?yàn)樗€是比較有代表性的。
今年6月,美國能源部與IBM、英偉達(dá)合作打造出了新一代超級計(jì)算機(jī),名為Summit。其峰值運(yùn)算性能達(dá)到200PFlops,也就是每秒執(zhí)行20億億次浮點(diǎn)運(yùn)算,是迄今為止性能最強(qiáng)的超級計(jì)算機(jī),也標(biāo)志著自2012年以來美國超算超越中國,再次奪冠。Summit基于IBM的Power Systems AC922做節(jié)點(diǎn),每個節(jié)點(diǎn)搭載2個Power9處理器和6個NVIDIA Tesla V100 GPU顯卡,總共設(shè)計(jì)約4600個節(jié)點(diǎn)。
可見,美國的超算更看好CPU+GPU的發(fā)展路線。
而全球超算兩強(qiáng)之一的中國,在處理器架構(gòu)方面,則呈現(xiàn)百花齊放,并行發(fā)展的態(tài)勢。
中國現(xiàn)在同時啟動了三大百億億次超算研發(fā)項(xiàng)目,分別是國防科大/天津超算中心的“天河三號”、中科曙光的E級超算以及江南所/濟(jì)南超算中心的“神威”E級。以上三套百億億次超算中,核心處理器都將是國產(chǎn)的。
其中,“天河三號”采取的技術(shù)路線則是基于ARM構(gòu)架處理器,中科曙光則選擇了類似于美國主流超算的CPU+GPU技術(shù)路線,“神威”采用的是眾核異構(gòu)體系——國產(chǎn)申威SW26010處理器。
此外,歐盟預(yù)計(jì)于2022~2023年交付首臺E級超算,使用的是美國、歐盟處理器,架構(gòu)有可能類似ARM。
以上主要給出全球超算市場的處理器架構(gòu)情況,而在商用服務(wù)器市場,ARM處理器應(yīng)用情況與超算沒有太大的差別??梢?,ARM架構(gòu)在全球服務(wù)器市場是處于弱勢地位的。
但隨著中國在ARM服務(wù)器研發(fā)上的發(fā)力,以及日本的代表企業(yè)富士通將超算處理器架構(gòu)由SPARC64全面轉(zhuǎn)向了ARM,特別是本次推出了強(qiáng)悍的新一代ARM處理器A64FX,讓人感覺眼前一亮。這些,是否預(yù)示著ARM服務(wù)器在市場洗牌之后,進(jìn)入了新一輪的博弈呢?答案還要由市場和時間給出。
中國ARM服務(wù)器CPU陣營
中國的ARM服務(wù)器CPU有三強(qiáng),分別是飛騰,華芯通和華為。
“天河三號”原型機(jī)采用的就是飛騰的ARM處理器,是一款百億億次的超算產(chǎn)品,綜合運(yùn)算能力是“天河一號”的200倍,“天河二號”的30倍(“天河一號”、“天河二號”用的都是Intel的Xeon處理器)。“天河三號”原型機(jī)于今年6月部署在天津超算中心,年底將正式上線投入使用。據(jù)悉,原型機(jī)的作用是為了驗(yàn)證‘天河三號’的技術(shù)路線。
在“天河一號”、“天河二號”階段,飛騰處理器就有應(yīng)用,但當(dāng)時采用的不是ARM架構(gòu),而是Ultra SPARC,基于此架構(gòu)的8核64線程的FT-1000被用在天河一號的節(jié)點(diǎn)網(wǎng)絡(luò)上,之后,同樣基于SPARC架構(gòu)的FT-1500,用在了天河二號超算上,用于節(jié)點(diǎn)前端處理器。
之后的FT-1500A,其架構(gòu)則由SPARC轉(zhuǎn)變成了ARM 64位,這與富士通的發(fā)展路線非常相似。不過飛騰這一轉(zhuǎn)變還有另外一層因素,就是避免被Intel的Xeon處理器“卡脖子”。
之后,飛騰在2016年發(fā)布了基于ARM架構(gòu)的FT-2000,最新產(chǎn)品是尚未對外發(fā)布的升級版——FT-2000 Plus。
FT-2000采用28nm制造工藝,可被用于超算計(jì)算節(jié)點(diǎn)和高性能服務(wù)器。集成了64個FTC661處理器核。工作主頻1.5GHz—2.0GHz。支持16個DDR3-1600存儲控制器,可提供204.8GB/s訪存帶寬。最大功耗100W。
據(jù)悉,在ARMv8指令集兼容的現(xiàn)有產(chǎn)品中,F(xiàn)T-2000在單核計(jì)算能力、單芯片并行性能、單芯片cache一致性規(guī)模、訪存帶寬等指標(biāo)上處于國際先進(jìn)水平。其自定義的擴(kuò)展接口不但可以用來擴(kuò)展緩存容量和存儲能力,還可以用來外接FPGA等加速器類專用芯片,實(shí)現(xiàn)異構(gòu)計(jì)算。
雖然沒有公開,但業(yè)界普遍認(rèn)為,“天河三號”采用的處理器應(yīng)該就是FT-2000 Plus。這款CPU是FT-2000的后繼產(chǎn)品。有信息顯示,F(xiàn)T-2000 Plus采用16nm制程。
相對于FT-2000,F(xiàn)T-2000 Plus首要任務(wù)就是提升集成度,以便于整機(jī)設(shè)計(jì),其由支持可擴(kuò)展DDR3存儲控制器改為片內(nèi)集成DDR4內(nèi)存控制器,再加上使用了臺積電16nm制造工藝,主頻最高可穩(wěn)定在2.4GHz,使FT-2000 Plus相對于FT-2000還是有不小的性能提升,能夠滿足高端服務(wù)器和超算主控CPU的性能要求。雖然FT-2000 Plus在單核性能上和Intel還存在一定差距,但在多核性能上,已經(jīng)達(dá)到Intel服務(wù)器CPU E5 主流產(chǎn)品的水平。
華芯通
今年5月,華芯通在數(shù)博會的“Arm服務(wù)器產(chǎn)業(yè)生態(tài)高峰論壇”上正式發(fā)布了其高性能服務(wù)器CPU品牌“昇龍”。華芯通首款“昇龍”處理器采用10nm制程工藝,最多48核,ARM V8架構(gòu),內(nèi)置國密密碼模塊和芯片級的安全基礎(chǔ)架構(gòu)。
據(jù)悉,昇龍?zhí)幚砥髁髌貋淼膶?shí)測性能已達(dá)到兩顆英特爾最新主流CPU水平,其能耗卻低了50%以上。如果情況果真如此的話,那么其性能還是比較強(qiáng)勁的,至少從算力上是可以進(jìn)入主流云服務(wù)市場的,可以與x86架構(gòu)產(chǎn)品爭一爭,但短期內(nèi)還難以形成規(guī)模,發(fā)展道阻且長,市場前景還要看華芯通的運(yùn)營能力,以及主要合作和技術(shù)提供方——高通的支持力度。
華為
2016年,華為推出了第一款A(yù)RM架構(gòu)服務(wù)器CPU“泰山”(Taishan)1612,采用的是ARM Cortex A57,這款處理器采用了臺積電16nm制程工藝,兼容ARM v8-A指令集,是華為在國內(nèi)主推的第一款多核服務(wù)器CPU。
據(jù)悉,1612是核高基1號專項(xiàng)項(xiàng)目,用來做互聯(lián)網(wǎng)冷卻儲存的生態(tài)系統(tǒng)驗(yàn)證,并未進(jìn)行推廣和量產(chǎn)。據(jù)說,經(jīng)過幾年攻堅(jiān),華為已經(jīng)攻克多項(xiàng)技術(shù)難題,2017年成功開發(fā)出第一款自研的、基于ARM架構(gòu)的CPU,能效是x86的x倍、領(lǐng)先市場上的同類ARM架構(gòu)CPU。從華為的一次會議上獲悉,華為海思圖靈業(yè)務(wù)部開發(fā)的泰山自研64 位CPU已經(jīng)成功商用。
最近有消息傳出,2019年華為將研制出性能堪比x86主流中端產(chǎn)品的ARM架構(gòu)服務(wù)器芯片,并將正式量產(chǎn),進(jìn)行公開商用推廣。
華為在研發(fā)處理器方面一向都非常謹(jǐn)慎,而在ARM架構(gòu)服務(wù)器芯片方面更是低調(diào)至極,鮮有公開信息??梢钥隙ǖ氖?,在ARM服務(wù)器CPU研發(fā)方面,華為內(nèi)部一定是在緊鑼密鼓地進(jìn)行著,就看這個憋了很久的大招何時能夠放出吧。
結(jié)語
ARM在手機(jī)和嵌入式應(yīng)用當(dāng)中順風(fēng)順?biāo)麸L(fēng)喚雨,在此基礎(chǔ)上,有了足夠的底氣和資本,從而想在服務(wù)器領(lǐng)域與傳統(tǒng)的x86陣營掰一掰手腕,要想在堅(jiān)固的x86生態(tài)中分得更多蛋糕,確實(shí)困難重重,需要付出的努力和投入將是巨大的。
而日本及中國ARM服務(wù)器CPU陣營的堅(jiān)持與投入無疑為其發(fā)展增加了砝碼,而如何運(yùn)用這些砝碼來建設(shè)新生態(tài),突破固有格局,走上良性的商用之路,是擺在ARM服務(wù)器陣營面前的大課題,前途如何,將由時間來檢驗(yàn)。