最近,AMD正式發(fā)布了其Instinct MI200系列GPGPU加速卡,進(jìn)一步進(jìn)軍GPGPU市場(chǎng)。
與傳統(tǒng)的GPU不同,MI200系列主要針對(duì)的并不是游戲和渲染應(yīng)用,而是高性能計(jì)算(如人工智能,科學(xué)計(jì)算)應(yīng)用,即GPGPU(general-purpose GPU)。這樣的定位顯然與Nvidia主推的基于CUDA生態(tài)的GPGPU(如A100)相同,因此可能在GPGPU市場(chǎng)的競(jìng)爭(zhēng)格局產(chǎn)生影響。當(dāng)然,MI200并非AMD的第一款GPGPU。在這之前,AMD也推出過MI50和MI100系列GPGPU,雖然在整個(gè)市場(chǎng)上聲勢(shì)并不大,但是也積累了不少設(shè)計(jì)和軟件方面的經(jīng)驗(yàn)。這次推出的MI200系列的性能可謂不俗,在科學(xué)計(jì)算常用的64位浮點(diǎn)數(shù)(FP64)性能可達(dá)Nvidia最新款GPGPU A100的近5倍,而在人工智能常用的16位浮點(diǎn)數(shù)(FP16)方面也可達(dá)到A100的1.2倍,搭配的內(nèi)存方面內(nèi)存大小可達(dá)A100的1.6倍,內(nèi)存帶寬也是A100的1.6倍。與Nvidia全力投入人工智能常用的低精度FP16不同,MI200仍然兼顧了科學(xué)計(jì)算常用的FP64,這可能也是想在某種程度上與Nvidia實(shí)現(xiàn)差異化競(jìng)爭(zhēng)。
在架構(gòu)方面,AMD在MI200中也使用了其引以為豪的chiplet高級(jí)封裝技術(shù),而這也使MI200成為首款使用chiplet技術(shù)的多晶片(multi-die)GPU。具體來說,MI200的基本chiplet單元稱為CDNA-2晶片,每個(gè)CDNA-2晶片擁有290億個(gè)晶體管,包含有112個(gè)計(jì)算單元(CU),并且搭載了4個(gè)HBM2E內(nèi)存接口,以及8個(gè)用于封裝內(nèi)互聯(lián)的Infinity Fabric Link。每個(gè)MI200 GPU則是把兩個(gè)這樣的CDNA-2 chiplet使用2.5D封裝技術(shù)封裝在一起。另外,一個(gè)容易被忽略的細(xì)節(jié)是,MI200擁有CPU和GPU之間支持內(nèi)存一致性(coherency)的互聯(lián),這使得MI200配合AMD的CPU有機(jī)會(huì)實(shí)現(xiàn)CPU和GPU共享內(nèi)存空間,這樣就能減少CPU到GPU內(nèi)存復(fù)制造成的額外開銷。
總體來說,AMD MI200的硬件性能可以與Nvidia A100相媲美,在一些高性能科學(xué)計(jì)算領(lǐng)域甚至比起A100更強(qiáng)??紤]到明年Nvidia可能會(huì)發(fā)布A100的下一代GPU并且預(yù)計(jì)有大幅性能提升,AMD的MI200暫時(shí)還不太可能直接取代Nvidia占據(jù)GPGPU性能最強(qiáng)的寶座,但是這樣的性能已經(jīng)足以使得AMD的GPGPU成為Nvidia GPU一個(gè)有力的替代性方案,尤其全球半導(dǎo)體持續(xù)缺貨的形勢(shì)也使得許多云端高性能計(jì)算的大客戶有考慮Nvidia替代型解決方案的動(dòng)力。
AMD的GPGPU生態(tài)逐漸進(jìn)入主流
事實(shí)上,Nvidia能占領(lǐng)GPGPU和AI加速芯片領(lǐng)跑地位不僅僅是依靠其強(qiáng)大的芯片性能,圍繞芯片性能的CUDA軟件生態(tài)也是Nvidia的一個(gè)重要護(hù)城河。具體來說,如何能給開發(fā)者提供一個(gè)易用的軟件接口,能與上游主流生態(tài)框架(例如人工智能領(lǐng)域的PyTorch,TensorFlow等)相集成,并且能較為簡(jiǎn)單地就能充分利用芯片的性能,是一個(gè)需要長(zhǎng)期積累的過程,同時(shí)一旦成功則會(huì)形成一個(gè)很高的護(hù)城河。
在這方面,AMD的軟件生態(tài)相對(duì)于Nvidia的CUDA而言,處于后發(fā)地位,這也是阻礙AMD真正進(jìn)入GPGPU主流市場(chǎng)的重要瓶頸。然而,隨著AMD多年來在這方面的投入,AMD的相關(guān)生態(tài)也在逐漸成為主流可選項(xiàng)之一。
最初,在GPGPU加速人工智能剛剛進(jìn)入主流視野中時(shí)(2012-2015年),就在Nvidia已經(jīng)大局投入CUDA生態(tài)時(shí),AMD卻沒有官方動(dòng)作,想要在AMD的GPU上做高性能計(jì)算還需要借助第三方OpenCL,開發(fā)并不容易。AMD從2015年底開始真正由官方推出一套能支持人工智能等高性能計(jì)算的生態(tài)環(huán)境(ROCm),相比Nvidia的CUDA(2007年推出)落后了整整八年的時(shí)間。雖然在ROCm推出之初并沒有得到業(yè)界大規(guī)模應(yīng)用,但是好在AMD并沒有放棄這項(xiàng)投資。在經(jīng)過五年多的努力之后,今天ROCm相對(duì)于剛推出時(shí)的狀態(tài)而言,其成熟程度已經(jīng)接近了主流選項(xiàng)之一。舉例來說,目前ROCm已經(jīng)完成了和主流人工智能框架TensorFlow和PyTorch的整合,在PyTorch中甚至絕大多數(shù)接口都和CUDA版本完全一致,這就大大降低了開發(fā)難度。
公平地說,目前AMD的一套軟件開發(fā)生態(tài)已經(jīng)達(dá)到了“可用”的狀態(tài),但是相較于CUDA生態(tài)還有一些距離。首先,在訓(xùn)練方面,ROCm做單卡訓(xùn)練已經(jīng)不成問題,性能也不錯(cuò),但是分布式訓(xùn)練仍然需要一些額外的支持。另一方面,在推理方面,AMD仍然缺乏對(duì)應(yīng)Nvidia TensorRT這樣的高性能推理工具鏈,因此如果想要在AMD的GPU上做高性能人工智能推理還需要做大量的工作。這或許也是AMD在這次發(fā)布MI200的時(shí)候,仍然把重點(diǎn)放在了環(huán)境較為簡(jiǎn)單的科學(xué)計(jì)算,而對(duì)人工智能只是兼顧。
由于目前AMD的ROCm已經(jīng)到達(dá)了可用的狀態(tài),我們預(yù)計(jì)下一步AMD會(huì)繼續(xù)和對(duì)于云端計(jì)算有大量需求的互聯(lián)網(wǎng)巨頭合作,一起進(jìn)一步共同開發(fā)ROCm生態(tài)環(huán)境。對(duì)于互聯(lián)網(wǎng)巨頭來說,他們有足夠的技術(shù)團(tuán)隊(duì)來支持和開發(fā)基于AMD平臺(tái)的人工智能訓(xùn)練和部署軟件,同時(shí)他們也有動(dòng)力去做這件事情,因?yàn)閾碛蠥MD和Nvidia兩個(gè)供貨商,比起只有Nvidia一個(gè)選項(xiàng)來說,無論是從芯片供應(yīng)穩(wěn)定性還是芯片售價(jià)來說,都會(huì)好很多。而AMD也可以借助這樣的合作共同開發(fā)來進(jìn)一步打磨軟件生態(tài)以及芯片架構(gòu),預(yù)計(jì)會(huì)在未來三到五年內(nèi)會(huì)真正成為Nvidia在GPGPU領(lǐng)域真正的競(jìng)爭(zhēng)對(duì)手。
AMD的服務(wù)器市場(chǎng)勢(shì)頭強(qiáng)勁
這次AMD發(fā)布MI200進(jìn)一步增強(qiáng)了其在云端服務(wù)器市場(chǎng)的地位。這個(gè)月早些時(shí)候,AMD剛剛公布了和Facebook(現(xiàn)名Meta)的合作計(jì)劃,其CPU將正式進(jìn)入Facebook的云端服務(wù)器中心。而在這之前,AMD還公布了和谷歌的合作計(jì)劃,可見目前AMD的CPU在云端服務(wù)器市場(chǎng)正在逐漸蠶食Intel的份額。而在云端人工智能加速卡領(lǐng)域,MI200的發(fā)布也將成為一個(gè)重要的里程碑,雖然它不能直接取代Nvidia的GPU,但是我們認(rèn)為AMD距離成為主流GPGPU供貨商僅僅一步之遙。更重要的是,云端的CPU和GPU之間存在很強(qiáng)的協(xié)同效應(yīng),一旦AMD的CPU和GPGPU同時(shí)成為云端服務(wù)器中心的主流選項(xiàng),那么兩者之間的協(xié)同效應(yīng)將使得AMD在這個(gè)市場(chǎng)擁有更強(qiáng)的話語權(quán)(這也是Nvidia一直在尋求收購(gòu)ARM的主要原因,因?yàn)镹vidia也希望能在CPU領(lǐng)域擁有更強(qiáng)的自研能力)。同時(shí),由于AMD同時(shí)在CPU和GPU方面有積累,其之前已經(jīng)投入多年的共享內(nèi)存空間技術(shù)也可望隨著AMD的CPU和GPU成為服務(wù)器領(lǐng)域的主流選項(xiàng)而獲得更多應(yīng)用,從而進(jìn)一步提升AMD的該市場(chǎng)的技術(shù)實(shí)力。我們認(rèn)為,未來AMD在服務(wù)器領(lǐng)域的與機(jī)會(huì)獲得更多的市場(chǎng)份額和話語權(quán),同時(shí)這個(gè)市場(chǎng)的競(jìng)爭(zhēng)格局也將隨之發(fā)生改變。