本文為re:Invent 2021亮點解讀的第一部分,關(guān)于自研Graviton的部分,后續(xù)還有關(guān)于機器學(xué)習(xí)和關(guān)于存儲的部分,敬請關(guān)注后續(xù)。
正文:
自從亞馬遜云科技(以下簡稱AWS)發(fā)布自研的ARM處理器以及ARM云主機以來,各家云服務(wù)商在自研芯片的道路上越走越遠(yuǎn)。
2021年,云服務(wù)商內(nèi)卷的越來越激烈了,作為云服務(wù)商內(nèi)卷運動的發(fā)起者,AWS在2021年年底又介紹了新一款A(yù)RM處理器——Amazon Graviton 3。
只不過,Graviton 3沿用了64核心的配置,而市場上已經(jīng)有云服務(wù)商做出了128核的Arm芯片,背后究竟有什么樣的考慮呢,本文將分享亞馬遜云科技大中華區(qū)產(chǎn)品部計算與存儲總監(jiān)周舸的正式回應(yīng)。
時隔2年,Graviton 3帶來哪些提升
AWS官方新聞宣稱,Graviton 3比Graviton 2快了25%,與科學(xué)計算和媒體編碼有關(guān)的浮點運算性能翻了1倍,加密工作負(fù)載運算速度提升高達(dá)2倍,由于支持bfloat16,所以,機器學(xué)習(xí)推理運算能力提升了3倍。
目前,Graviton 3公開的信息比較少,湊巧在AWS首席布道師Jeff Bar的推特里發(fā)現(xiàn)了一張開蓋的Graviton 3的圖片。圖中顯示,Graviton 3采用的是時下最流行的Chiplet設(shè)計和先進(jìn)的封裝技術(shù),這為I/O提升埋下了伏筆。
另外一張網(wǎng)傳的圖片顯示Graviton 3采用了PCIe 5.0的I/O連接。DDR 5加PCIe 5.0,IO規(guī)格與最新的x86系列CPU對齊了。按理說,后者距離上市應(yīng)該還有幾個月時間,Graviton 3搶先一步了。
此外,AWS還宣稱,Graviton 3的功耗最多可降低60%,不清楚是跟x86服務(wù)器做對比的還是跟此前的哪款服務(wù)器做對比,總之,AWS有資格獲得一枚綠色節(jié)能小能手勛章。
在面向中國媒體的溝通會上,亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理顧凡大談亞馬遜云通過技術(shù)創(chuàng)新(比如Graviton通用芯片和Trainium AI芯片),通過具體行動在節(jié)能減排上所取得的成績(比如大量使用清潔可再生能源),讓人們看到上云對于節(jié)能減排的意義,多買一臺云服務(wù)器可能比多種一棵樹還環(huán)保。
AWS副總裁Peter DeSantis解釋了提升Graviton核心效能的一個重要因素,那就是讓核心變得更寬(Make the core wider),比如,把Graviton3把每個核心在每個時鐘周期執(zhí)行的指令數(shù)量從5個提升到8個,總之,就是讓每個時鐘周期能做更多事兒。
AWS還宣布Graviton 3芯片將用于EC2 C7g實例,新的服務(wù)器將采用了新的DDR5內(nèi)存,與此前Graviton 2采用的DDR 4內(nèi)存相比,DDR 5的內(nèi)存帶寬提升50%,有利于提高科學(xué)計算等內(nèi)存密集型應(yīng)用的性能表現(xiàn)。
C7g實例所采用的服務(wù)器硬件采用了三路設(shè)計,Graviton2的服務(wù)器只有2路,計算密度得以大幅提升。筆者所見的單路雙路和四路會多一些,三路相對少一些。
另外,網(wǎng)傳圖片顯示Graviton 3使用了大約550億個晶體管,而大會上,AWS副總裁Peter DeSantis展示的PPT則顯示有500億晶體管,這年頭,上下50億晶體管都是誤差范圍了?
官方數(shù)據(jù)顯示,C7g實例與由Graviton2支持的C6g實例相比,計算密集型工作負(fù)載性能提高多達(dá)25%,C7g實例的網(wǎng)絡(luò)帶寬也高出20%。
此外,C7g實例還支持 Elastic Fabric Adapter (EFA),允許應(yīng)用程序直接與網(wǎng)絡(luò)接口卡通信,提供更低且更一致的延遲,提高需要大規(guī)模并行處理的應(yīng)用性能,比如HPC并行計算集群,比如機器學(xué)習(xí)訓(xùn)練集群,總之,它很重要。
記得Graviton2發(fā)布的時候,強調(diào)相關(guān)實例相較于x86實例有高達(dá)40%的性價比提升,而Graviton3的發(fā)布沒有過于強調(diào)性價比方面的提升(雖然肯定有),而是強調(diào)在高性能計算等更多場景上的性能表現(xiàn)。
Graviton 3的細(xì)節(jié)已不是最重要的事
在采訪中,亞馬遜云科技大中華區(qū)產(chǎn)品部計算與存儲總監(jiān)周舸則不愿意多聊芯片本身,他更愿意談的是,Graviton3實例用的好不好的問題。
但媒體似乎沒有放棄各種有趣的猜測,全球許多專業(yè)媒體都在根據(jù)已知信息猜測Graviton3的更多細(xì)節(jié),有猜測說,Graviton3用的是Arm Neoverse V1架構(gòu),有的人猜測是N2。
Timothy Prickett Morgan發(fā)表在NextPlatform上的猜測,紅色字體是猜測的數(shù)據(jù),黑體則是公開的信息。值得注意的是,媒體普遍猜測Graviton3的TDP大約為100瓦,遠(yuǎn)低于x86方案。
Graviton3采用了臺積電的5nm工藝制程,Arm v8.5版本架構(gòu),主頻相比上一代僅僅提升了0.1G(僅為2.6G),主頻晶體管數(shù)量雖然相比上代增長了200萬,而核心數(shù)量卻沒有增長,還是64核。
才64核?Graviton 3為什么不堆更多核心?
我們知道,2021年,國際市場上的Ampere Altra Max也提升到了128核,國內(nèi)市場上的阿里平頭哥半導(dǎo)體也發(fā)布了一款128核的基于Arm v9的處理器,為什么先搞ARM芯片的Graviton3還是64核呢,多出來200億的晶體管放在哪兒了呢?
周舸表示,新增的晶體管主要用于提升內(nèi)存帶寬而不是增加核心,之所以如此選擇,是考慮到Graviton用戶的實際工作負(fù)載主要是大數(shù)據(jù)、微服務(wù)以及HPC,這些負(fù)載對于內(nèi)存帶寬和延時的要求很高,于是AWS認(rèn)為提升內(nèi)存比增加核數(shù)更有意義,用戶的實際反饋也確實如此。
AWS的設(shè)計原則是如何以最低的成本提供更多的性能,芯片設(shè)計和實例設(shè)計需要考慮性價比,就好比司機憑經(jīng)驗掌握車速,把車速控制在某一個速度才更省油,AWS的EC2也要考慮類似的問題,而不是一昧的追求更主頻或者更多核。
Graviton在中國市場表現(xiàn)喜人
此外,相信許多人都好奇基于Graviton處理器的EC2實例的市場表現(xiàn),特別是在國內(nèi)市場的接受度如何,對此,周舸雖然沒有用數(shù)字來直接加以說明,但言語間,對于Graviton實例的市場表現(xiàn)還是非常滿意的。
之所以有較好的市場表現(xiàn),一方面是因為從x86遷移工作負(fù)載并不是太困難,周舸表示有許多負(fù)載都能在一兩天內(nèi)完成。更重要的一方面在于,AWS自己的很多托管服務(wù)的底層就在用Graviton,用戶自己用了Graviton可能連自己都不知道。
高通如果看到這里可能會發(fā)瘋,當(dāng)年,高通的ARM服務(wù)器如果想替代x86服務(wù)器,必須要解決從x86硬件遷移到ARM服務(wù)器的所有問題,基本是要在整個應(yīng)用生態(tài)上,重走x86多少年來走過的路,其難度可想而知,而AWS充分利用了云服務(wù)的天然優(yōu)勢,高通只能大呼羨慕。
高通的ARM服務(wù)器好比在大冬天里讓用戶從暖和的被窩爬出來,鉆到另外一個冰涼的被窩,而AWS的做法則是在被窩的一頭又放了一個被窩,用戶不用克服任何障礙就能走到另一頭,因為,Graviton用成本優(yōu)勢正吸引著用戶自愿走向另一頭。
從2018年發(fā)布以來,AWS的Graviton處理器已經(jīng)度過了為期四年的考驗期,實踐證明,這么一折騰,居然還挺成功的。
Graviton的應(yīng)用生態(tài)還在成長,AWS用各種方式鼓勵開發(fā)者把工作負(fù)載遷移到Graviton實例上,包括VMware等知名企業(yè)都參與其中,Linux生態(tài)也都響應(yīng)了Graviton生態(tài),此外,AWS也有一些面向合作伙伴認(rèn)證也在推行當(dāng)中。