《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 電子元件 > 業(yè)界動(dòng)態(tài) > ?如果沒有英偉達(dá),Arm在數(shù)據(jù)中心市場(chǎng)能混出頭嗎?

?如果沒有英偉達(dá),Arm在數(shù)據(jù)中心市場(chǎng)能混出頭嗎?

2021-04-22
來源: 電子工程專輯

  前不久的GTC 2021之上,老黃宣布英偉達(dá)很快將推出應(yīng)用于HPC AI的中央處理器Grace——基于Arm架構(gòu)。這在數(shù)據(jù)中心/服務(wù)器/基礎(chǔ)設(shè)施行業(yè)是個(gè)大新聞。

  雖然去年到今年是Arm在各行各業(yè)大獲全勝的兩年,數(shù)據(jù)中心也頻繁出現(xiàn)Arm的身影——比如亞馬遜自研的Graviton2處理器基于Arm,富士通面向HPC的A64FX處理器基于Arm——這些在《Arm的十年P(guān)C征程,和微軟的“曖昧”》一文中就有所提及。

2.png

  但英偉達(dá)在數(shù)據(jù)中心的分量,幾乎將Arm推到了最前線,多少有點(diǎn)兒很快就能把根植于該市場(chǎng)的x86拉下馬的意思。有關(guān)英偉達(dá)的Grace,很快我們會(huì)發(fā)表另一篇文章做單獨(dú)評(píng)論,即便個(gè)人認(rèn)為Grace著力的市場(chǎng)具有相當(dāng)強(qiáng)的針對(duì)性。本文嘗試呈現(xiàn),拋開Grace不談,Arm如今在服務(wù)器市場(chǎng),究竟已經(jīng)發(fā)展到了何種程度。

  Arm第一次認(rèn)真對(duì)待服務(wù)器市場(chǎng)

  Arm一直以來就有突破移動(dòng)與嵌入式市場(chǎng)的野心,只不過就像Arm在PC之上的10年征程那樣,這個(gè)過程是需要不斷試錯(cuò)的。英偉達(dá)探索高性能CPU/SoC也不是今天才開始的,在10多年前英偉達(dá)就曾宣布過一個(gè)叫做Project Denver的項(xiàng)目,旨在與Arm合作面向HPC(高性能計(jì)算)市場(chǎng)推CPU產(chǎn)品。

  不止是英偉達(dá),高通也曾推出基于Arm架構(gòu)的Centriq處理器,面向企業(yè)和服務(wù)器市場(chǎng);Cavium的ThunderX此前也算是知名的Arm服務(wù)器芯片;還有博通的Vulcan,AMD的Opteron A1100……雖然它們中的大部分都失敗了。感覺從這些項(xiàng)目初期展示的PPT來看,Intel早就應(yīng)該縮在墻角顫抖了。但事實(shí)上,Arm在這一領(lǐng)域始終沒能真正走入主流視野(雖然Arm一直宣稱自己是“基礎(chǔ)設(shè)施(infrastructure)”設(shè)備中市場(chǎng)份額最高的,包含路由器、交換機(jī)、基站、服務(wù)器等)。

  3.png

  到近代鯤鵬920這類服務(wù)器芯片面世,以及如今相當(dāng)活躍的Ampere Computing也在推基于Arm的服務(wù)器處理器,Arm才真正在這一領(lǐng)域逐漸像樣起來。今年的GTC主題演講上,黃仁勛也宣布,英偉達(dá)的GPU開始和Ampere Computing、亞馬遜、聯(lián)發(fā)科等合作伙伴的CPU/SoC搭配,從云到邊緣到消費(fèi)終端。雖然在接受采訪時(shí),黃仁勛說Grace并不會(huì)多大程度影響到現(xiàn)有客戶,但這明擺著就有拆AMD/Intel墻角的意思。

  Arm在服務(wù)器、基礎(chǔ)設(shè)施,或者說數(shù)據(jù)中心產(chǎn)品的試錯(cuò)歷史就不多做回顧了。事實(shí)上,Arm過去雖然也一直有試探服務(wù)器市場(chǎng)的意思,但他們始終都沒有面向這些數(shù)據(jù)中心的基礎(chǔ)設(shè)施,推過專門的IP——Arm在該市場(chǎng)的IP,基本與面向消費(fèi)市場(chǎng)的IP共享。

  這一點(diǎn)其實(shí)是無可厚非的,大部分芯片制造商的同代核心IP,面向不同市場(chǎng)都會(huì)做較大程度的共享。但這也表現(xiàn)出Arm此前針對(duì)基礎(chǔ)設(shè)施設(shè)備并沒有明晰、像樣的市場(chǎng)規(guī)劃,這對(duì)生態(tài)構(gòu)建本來就是不利的。

  4.png

  轉(zhuǎn)機(jī)出現(xiàn)在2018年,這一年10月份的TechCon上,Arm正式宣布推出Neoverse系列IP,面向服務(wù)器市場(chǎng),從云到邊緣。與此同時(shí)還公開了未來3年的產(chǎn)品路線圖,如上圖所示。Arm Neoverse可以理解為服務(wù)器版的Arm Cortex。

  這張圖列出了一年一迭代的Neoverse版本,比如2019年代號(hào)為Ares的處理器核心IP,也就是Neoverse N1。Arm最早的時(shí)候宣布,未來每年迭代都將實(shí)現(xiàn)30%的性能提升——聽起來比旁邊的Cortex系列平均增速要快些,也比競(jìng)爭(zhēng)對(duì)手更快。后來的發(fā)布會(huì)上,Arm又宣布N1性能提升,實(shí)際相比2018年的Cosmos高出了60%(不過Cosmos據(jù)說并不指代一個(gè)專門的架構(gòu)),是原目標(biāo)的2倍提升——基于SPEC2017整形測(cè)試(SPECspeed2017_int_base)。到今年發(fā)布的N2,提升速度似乎又超預(yù)期了,后文還將探討更具體的微架構(gòu)變化。

 5.png

  2019年2月份,Arm正式宣布推出Neoverse N1與E1平臺(tái)——這應(yīng)該是Arm對(duì)服務(wù)器市場(chǎng)改朝換代的開始。

  當(dāng)然光換個(gè)名字肯定是沒用的,此前多篇探討Arm發(fā)展史的文章中,我們都談到了近代Arm的核心IP,在保持低功耗特性的前提下,在高性能方面也有了突破。即便一般的芯片制造商無法做到蘋果M1那種程度,高通驍龍8cx也已經(jīng)有了應(yīng)用于PC的可行性。起碼如今這個(gè)時(shí)代,和10年前英偉達(dá)Project Denver時(shí)代(Cortex-A15時(shí)代)還是有根本差別的。

  2018年這一年,Arm向市場(chǎng)推出Cortex A76核心IP,這應(yīng)該是眾所周知的了——高通面向PC所推的驍龍8cx就應(yīng)用了Cortex A76微架構(gòu)。次年問世的Neoverse N1實(shí)際上就屬于Cortex A76微架構(gòu)的變體,或者說基于Cortex A76。

  Austin家族微架構(gòu)(選讀)

  這兩者都來自Arm奧斯汀設(shè)計(jì)中心,都屬于Austin家族微架構(gòu),基于ARMv8指令集。事實(shí)上Cortex與Neoverse后續(xù)更新版本,包括Cortex A78、Neoverse V1應(yīng)當(dāng)都屬于Austin家族,今年預(yù)計(jì)要推向市場(chǎng)的新一代Neoverse Poseidon才會(huì)采用全新的微架構(gòu)。

  6.png

  Neoverse V1和Cortex A76一樣都采用4-wide取指/解碼,11級(jí)管線深度,可在需要時(shí)縮減至9級(jí)。前端、后端的區(qū)別都不大。

  兩者區(qū)別比較大的部分主要在存儲(chǔ)、連接方面——作為服務(wù)器處理器,這也是必然的。L1-I cache做到硬件級(jí)別的完全一致性(coherency),這屬于面向虛擬環(huán)境性能的改進(jìn)。L2新增1MB可選大?。ˋ76是512KB),針對(duì)存儲(chǔ)敏感型應(yīng)用。

 7.png

  存儲(chǔ)層級(jí)結(jié)構(gòu)發(fā)生了比較大的變化。N1 CPU是連接到mesh網(wǎng)絡(luò)之上的,即CMN-600(CMN-600是Arm最早于2016年發(fā)布的SoC互聯(lián)IP,全稱叫coherent mesh network;如上圖所示,連接中間經(jīng)過了CAL以及mesh網(wǎng)絡(luò)的XP交叉點(diǎn);每個(gè)CAL層至多連接2個(gè)N1——即兩核為一簇)。在Arm的參考設(shè)計(jì)中,后續(xù)再連接到系統(tǒng)級(jí)緩存——SLC(system level cache)slice,每簇2MB,參考設(shè)計(jì)64核N1總共64MB SLC。

  8.png

  這張圖來自Wikichip,結(jié)構(gòu)描繪上更為清晰

  N1去掉了L3和DSU(DynamIQ Shared Unit)的監(jiān)聽過濾(snoop-filter)邏輯,CPU核心直接連接到CMN的CHI接口。這樣一來內(nèi)存控制器和CPU核心之間的通訊,只需要經(jīng)過mesh網(wǎng)絡(luò)。這好像也屬于服務(wù)器CPU的標(biāo)配。

  7nm工藝也是與上述設(shè)計(jì)內(nèi)容配套的,核心面積整體上還是很小。另外,Neoverse N1一個(gè)比較大的變化是最高頻率往上提了,發(fā)布時(shí)是說達(dá)到3.1GHz,電壓也需相應(yīng)提高,提供更高的單線程性能——頻率提高19%,實(shí)際上需要44%的功耗為代價(jià),這也很能表現(xiàn)Arm在頻率與功耗的關(guān)系上,并沒有什么魔法。亞馬遜Graviton2就是基于Neoverse N1的芯片,CPU核心頻率只選擇了2.5GHz。

  基于消費(fèi)級(jí)產(chǎn)品提升頻率,和Intel、AMD這種傳統(tǒng)服務(wù)器CPU供應(yīng)商的思路就不同了:x86市場(chǎng)的這兩名玩家,其服務(wù)器CPU微架構(gòu)也與消費(fèi)CPU共享,但服務(wù)器CPU卻是拉低核心頻率的。這與雙方在消費(fèi)市場(chǎng)的定位還是有很大關(guān)系的。

  不過即便是這樣,功耗還是有優(yōu)勢(shì),Arm此前宣稱64核的N1參考設(shè)計(jì)總功耗大約為105W;Arm公開其64核參考設(shè)計(jì)SPECint_rate2006吞吐測(cè)試得分1310分,整數(shù)延遲得分(SPECint2006)37分,還是能夠表現(xiàn)Arm能效方面的優(yōu)勢(shì)的。

  對(duì)于networking和存儲(chǔ)服務(wù)器,Arm推薦8-32核N1設(shè)計(jì),TDP 25-65W;類似5G基站邊緣端側(cè)設(shè)備,16-64核目標(biāo)設(shè)計(jì),TDP 35-105W;對(duì)于超大規(guī)模數(shù)據(jù)中心而言,N1目標(biāo)設(shè)計(jì)64-128核,TDP >150W。

  Arm的Neoverse N1平臺(tái)參考設(shè)計(jì)64核心,外加前面提到的CMN-600 mesh網(wǎng)絡(luò)和64MB SLC緩存。臺(tái)積電7nm工藝制造64核N1參考設(shè)計(jì)的die size已經(jīng)快要接近400mm?了,Arm也因此推薦chiplet那樣的設(shè)計(jì),chiplet die之間通過CCIX互聯(lián)來通訊。

  另外Neoverse N1平臺(tái)設(shè)計(jì)中,可集成SmartNIC——加速網(wǎng)絡(luò)連接還是如今實(shí)現(xiàn)數(shù)據(jù)中心高吞吐的重要因素(看看英偉達(dá)現(xiàn)在都在宣傳些啥)。CMN-600可連一些固定功能加速IP。通過CCIX連接第三方IP,可實(shí)現(xiàn)存儲(chǔ)一致性。更多特性不再列舉,屬于服務(wù)器RAS、安全等相關(guān)的。

  Arm服務(wù)器CPU的效率現(xiàn)在怎么樣?

  早前的Arm服務(wù)器處理器IP核心不夠主流,很大程度上在于性能和效率都不怎么樣。硬件層面的性能和功耗表現(xiàn),是爭(zhēng)奪這塊市場(chǎng)的基本要求。

  能了解服務(wù)器CPU性能的渠道不多,像亞馬遜Graviton2這種芯片都還是亞馬遜自用的。不過隨Arm這兩年在服務(wù)器市場(chǎng)的活躍,像AnandTech這樣的外媒也開始把性能測(cè)試觸及到了服務(wù)器、基礎(chǔ)設(shè)施處理器產(chǎn)品之上。

  事實(shí)上,2018年Cavium的ThunderX2被AnandTech認(rèn)為是這一領(lǐng)域,Arm平臺(tái)首次可與Intel、AMD相提并論的處理器產(chǎn)品。此后亞馬遜Graviton處理器的出現(xiàn)也表明,Arm處理器是可以成為服務(wù)器領(lǐng)域的主流的。

 9.png

  除了亞馬遜Graviton2,在Neoverse N1實(shí)施方案中,比較具有代表性的應(yīng)該是Ampere Computing最新的 Altra產(chǎn)品線。去年的Altra Q80-33就是用來對(duì)標(biāo)Intel、AMD在服務(wù)器市場(chǎng)的高端產(chǎn)品的。

  Altra Q80-33主頻最高3.3GHz,80核心;CMN-600 mesh互聯(lián),每核心L2選配1MB,以及32MB SLC——每核心分配到的SLC可能少了點(diǎn)。I/O以及更高的系統(tǒng)層面就不做介紹了,Ampere打造的Mount Jade,2-socket 2U機(jī)架服務(wù)器,有興趣的可以去查一查外圍的配置。

  值得一提的是,這顆處理器的TDP標(biāo)250W,實(shí)際上它并不是指常規(guī)負(fù)載的平均功耗,而是峰值狀態(tài)下的平均功耗。其實(shí)際功耗大部分情況下低于250W,AnandTech認(rèn)為按照Intel、AMD的標(biāo)法,Altra Q80-33的TDP應(yīng)該在200W左右。

  與之對(duì)應(yīng),Intel前不久剛剛發(fā)布的Ice Lake-SP至強(qiáng)處理器,高配型號(hào)的TDP 270W(最高配8380為40核心,十代酷睿的Sunny Cove架構(gòu));AMD上個(gè)月推代號(hào)Milan的EPYC處理器,TDP 280W(最高配64核心,Zen 3架構(gòu))。如果光從高配版處理器的售價(jià)來看,Ampere Altra的性價(jià)比還是高出了一大截的。

  10.png

11.png

  AnandTech最近剛剛測(cè)試了Ice Lake-SP,參測(cè)的還包括AMD Milan、Ampere Altra,以及亞馬遜Graviton2。測(cè)試項(xiàng)分成多線程性能(SPECint2017/SPECfp2017 Base Rate-N)、單線程性能(SPEC2017 Rate-1)、每核心性能(針對(duì)per core licensing)、JAVA性能(SPECjbb MultiJVM)、LLVM編譯、NAMD性能。有興趣的可前往了解,這里就不列出具體的成績(jī)了(因?yàn)槠颍蠄D只列出了整數(shù)多線程性能/單線程性能)。

  單看x86平臺(tái),自從AMD Zen 2問世以來,Intel至強(qiáng)處理器在性能上表現(xiàn)出了全方位的乏力。上一代AMD EPYC和Intel至強(qiáng),在性能上拉開了比較大的差距。這一代Intel稍稍趕上了一些,但在旗艦產(chǎn)品上,整體仍然存在差距。Intel現(xiàn)在愈發(fā)強(qiáng)調(diào)系統(tǒng)性能,從自身包括存儲(chǔ)、軟件優(yōu)化等方面的優(yōu)勢(shì),彌補(bǔ)CPU本身的弱勢(shì),所以AnandTech的測(cè)試可能仍然是比較片面的。而且今年下半年規(guī)劃中的Sapphire Rapids會(huì)很快上線。這是題外話了。

  基于Arm Neoverse N1的Ampere Altra是能夠和AMD上一代Rome架構(gòu)64核的EPYC打得有來有回的。Neoverse在每核性能上還是與x86平臺(tái)有差距;此外Altra在存儲(chǔ)敏感型測(cè)試中的表現(xiàn)并不怎么樣,與其cache配置相關(guān)(以及可能與mesh互聯(lián)有關(guān));另外Ampere在整體系統(tǒng)方案上,雙socket擴(kuò)展還是不能和Intel/AMD比。不過偏算力的負(fù)載場(chǎng)景下,Altra更多的核心則有優(yōu)勢(shì);能效方面,如前所述相比x86平臺(tái)有功耗方面的顯著優(yōu)勢(shì)。

  特別值得一提的是,Arm平臺(tái)的服務(wù)器處理器還存在價(jià)格上的顯著優(yōu)勢(shì)。與此同時(shí),Ampere今年還計(jì)劃推一款A(yù)ltra-Max,采用128個(gè)Neoverse-N1核心,屬于Arm設(shè)計(jì)目標(biāo)頂配。

  12.png

  雖說以Ampere Altra為代表的Arm處理器仍在性能表現(xiàn)的某些方面不及x86(主要是AMD),但已經(jīng)真正意義上對(duì)x86的服務(wù)器市場(chǎng)構(gòu)成相當(dāng)嚴(yán)肅的威脅了。

  需要指出的是,加強(qiáng)生態(tài)構(gòu)建是Arm的當(dāng)務(wù)之急,不管是與軟硬件合作伙伴加強(qiáng)合作,還是制定規(guī)范。在前兩年發(fā)布Neoverse之時(shí),Arm還發(fā)布了ServerReady合規(guī)認(rèn)證計(jì)劃,幫助用戶做Arm服務(wù)器系統(tǒng)的安全、合規(guī)部署。

  Neoverse N2與V1的發(fā)布

  GTC大會(huì)上,英偉達(dá)表示Grace CPU會(huì)采用新一代的Neoverse架構(gòu),但沒說具體是什么架構(gòu)。按照計(jì)劃表,去年9月份,Arm發(fā)布了新一代的Neoverse架構(gòu)。除了N1迭代N2,這次新加了一個(gè)V系列:代號(hào)Zeus的Neoverse V1。

  13.png

  Neoverse V1是基于Cortex X1的性能向微架構(gòu)。和Cortex X1一樣,在PPA三者的指針上,Neoverse V1也更偏向性能,部分犧牲了功耗和面積。所以其設(shè)計(jì)方向和N系列是存在差別的。因此V1有著更大的cache、核心結(jié)構(gòu)。Arm的數(shù)據(jù)提到,V1相比N1有著50%的IPC提升,在這個(gè)時(shí)代下還是相當(dāng)巨量的,實(shí)際產(chǎn)品提頻過后要在每核性能上擊敗x86應(yīng)該已經(jīng)不是問題了。

  另外V1會(huì)成為首個(gè)支持SVE(Scalable Vector Extension)的Arm核心。此前富士通的A64FX已經(jīng)率先做出這方面的支持,V1的SIMD單元寬度是A64FX的一半。除此之外,V1也引入了Bfloat16格式支持。

  而N1迭代款的N2則持續(xù)專注于PPA均衡發(fā)展,與Neoverse N2對(duì)應(yīng)的Cortex家族微架構(gòu)還未發(fā)布,N2代號(hào)為Perseus。據(jù)說去年年底Arm就開始做N2架構(gòu)的授權(quán)了。N2的目標(biāo)設(shè)計(jì)最高攝心術(shù)已經(jīng)達(dá)到了192W,且TDP增至350W。這應(yīng)該是也是堆料的突破,英偉達(dá)的Grace CPU是極有可能應(yīng)用N2這個(gè)方案的。

  AnandTech猜測(cè),Neoverse N2可能會(huì)應(yīng)用ARMv9指令集+SVE2支持。另外,原本規(guī)劃中今年要推出的代號(hào)為Poseidon的5nm芯片預(yù)計(jì)會(huì)延后至明年。如今Neoverse的規(guī)劃已經(jīng)在有序推進(jìn)了。即便沒有英偉達(dá),Arm玩轉(zhuǎn)數(shù)據(jù)中心市場(chǎng)似乎也是早有預(yù)謀的,而英偉達(dá)顯然會(huì)成為這一行動(dòng)的助推器。



本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。