最近,人工智能領(lǐng)域權(quán)威跑分榜單MLPerf更新了1.1版,主要針對(duì)云端和邊緣端的推理性能。
MLPerf是由ML Commons推出的性能測(cè)試榜單。在人工智能技術(shù)發(fā)展迅速的今天,不同的針對(duì)人工智能加速的芯片也是層出不窮,于是如何能有一個(gè)較好的標(biāo)準(zhǔn)跑分(benchmark)平臺(tái)就很重要,有了這樣的平臺(tái),用戶才能以較為公平和合理的方式去比較不同芯片的人工智能性能。具體來(lái)說(shuō),MLPerf對(duì)于不同的測(cè)試組別(訓(xùn)練,服務(wù)器推理,終端推理等)提供了一系列標(biāo)準(zhǔn)的測(cè)試網(wǎng)絡(luò),并且由各個(gè)硬件公司上傳可驗(yàn)證的跑分結(jié)果,這些結(jié)果在經(jīng)過(guò)驗(yàn)證后,就由ML Commons總結(jié)整理并上傳到MLPerf的榜單上。
這次公布的MLPerf 1.1榜單中,基本可以分為幾大勢(shì)力:首先,是以Nvidia的GPU為核心加速卡的方案,由各種不同的廠商(包括Nvidia自己,以及超微、聯(lián)想、戴爾、HP等整機(jī)廠商)實(shí)現(xiàn)的整機(jī)去跑分;其次是高通的云端加速卡方案,由高通自己提交跑分結(jié)果;第三類是Intel的CPU方案;第四類則是一些初創(chuàng)公司的方案。因此,在MLPerf 1.1的結(jié)果中,我們認(rèn)為最值得關(guān)注的,就是高通與Nvidia之間的競(jìng)爭(zhēng)。事實(shí)上,在一些測(cè)評(píng)項(xiàng)目中,高通的方案已經(jīng)實(shí)現(xiàn)了比Nvidia更高的結(jié)果,這也說(shuō)明在服務(wù)器推理市場(chǎng),Nvidia遇到了一個(gè)強(qiáng)力的競(jìng)爭(zhēng)對(duì)手,未來(lái)無(wú)法再高枕無(wú)憂。
MLPerf:高通與Nvidia的競(jìng)爭(zhēng)
目前,Nvidia這一代的主要人工智能加速方案包括A100和A30。其中,A100是Nvidia的旗艦級(jí)GPU,同時(shí)針對(duì)推理和訓(xùn)練市場(chǎng),算力高達(dá)600 TOPS (INT8精度),其功耗則根據(jù)使用內(nèi)存的區(qū)別從250W-400W不等。
另一方面,A30則是Nvidia主要針對(duì)推理市場(chǎng)的GPU產(chǎn)品,其INT8峰值算力可達(dá)330 TOPS,約為A100的一半,而Nvidia在其官方資料中稱A30在運(yùn)行機(jī)器學(xué)習(xí)算法時(shí)的實(shí)際性能約為A100的三分之二。功耗方面,A30的最大功耗約為165W。
在高通方面,Cloud AI 100芯片于今年上半年正式發(fā)貨,其INT8最大算力可達(dá)400 TOPS,最大功耗(PCIe版本)則75W。根據(jù)高通公布的資料,其設(shè)計(jì)采用了多核架構(gòu),每個(gè)AI Core上擁有8MB的SRAM,最多在芯片上可以集成16個(gè)AI Core,并且這些AI Core會(huì)共享LPDDR4X DRAM,以及PCIe接口。值得注意的是,高通的Cloud AI 100并沒(méi)有像Nvidia一樣使用HBM2內(nèi)存接口,而是使用了功耗和帶寬都更低的LPDDR4X接口,這意味著高通需要能更好地管理內(nèi)存才能擺脫其在內(nèi)存帶寬方面的劣勢(shì)。
高通Cloud AI 100架構(gòu)
在MLPerf 1.1中,高通的表現(xiàn)可圈可點(diǎn)。在推理分類下的各項(xiàng)目中,高通提交了ResNet 50(用于圖像分類),SSD(用于物體檢測(cè))以及BERT(用于自然語(yǔ)言處理任務(wù))的結(jié)果。在ResNet 50的結(jié)果中,高通裝有16塊75W Cloud AI 100 加速卡的主機(jī)可以實(shí)現(xiàn)每秒342011次推理,而Nvidia提交的DGX主機(jī)結(jié)果中(包含8塊400W的A100 GPU),ResNet 50的推理吞吐量為每秒313516次推理,因此高通不僅推理吞吐量比Nvidia的旗艦GPU A100結(jié)果高了10%,而且總功耗僅為Nvidia方案的三分之一左右。在和Nvidia A30的對(duì)比中,高通的Cloud AI 100同樣可以以A30一半左右的功耗實(shí)現(xiàn)比A30高10%左右的ResNet 50推理吞吐量。
另一方面,在目標(biāo)檢測(cè)SSD方面,高通16X Cloud AI 100的性能則比Nvidia 8X A100低了10%左右。而在自然語(yǔ)言BERT項(xiàng)目中,高通16X Cloud AI 100的性能則大約是Nvidia 8X A100的一半。這些結(jié)果表明,在主流機(jī)器視覺(jué)任務(wù)中,高通的16X Cloud AI 100已經(jīng)能實(shí)現(xiàn)和Nvidia 8X A100基本相同甚至更好的性能,而在BERT等自然語(yǔ)言處理任務(wù)中,Cloud AI 100則仍然距離A100有相當(dāng)?shù)牟罹?。這其實(shí)從高通Cloud AI 100的設(shè)計(jì)中也可以看出端倪,它使用8MB每核心的片上內(nèi)存搭配LPDDR4X內(nèi)存接口,在模型較小的機(jī)器視覺(jué)任務(wù)(例如ResNet-50和SSD)中已經(jīng)夠用,內(nèi)存不會(huì)成為其瓶頸;然而對(duì)于模型較大的自然語(yǔ)言處理模型如BERT中,LPDDR4X接口仍然成為了高通AI Cloud 100的瓶頸,而使用HBM2系列接口的Nvidia A100則有優(yōu)勢(shì)。
推理市場(chǎng)中,高通對(duì)Nvidia會(huì)造成威脅嗎
如前所述,高通的Cloud AI 100在機(jī)器視覺(jué)任務(wù)中都能以更低的功耗實(shí)現(xiàn)和Nvidia A100方案接近,或比A30更高的性能。雖然Cloud AI 100在自然語(yǔ)言處理方面離Nvidia A100方案的性能有一些差距(能效比上仍然是Cloud AI 100更好),但是目前在推理方面,事實(shí)上機(jī)器視覺(jué)已經(jīng)是一塊巨大的市場(chǎng),因此高通在這個(gè)領(lǐng)域有可能會(huì)成為強(qiáng)而有力的競(jìng)爭(zhēng)者。
如果我們細(xì)數(shù)機(jī)器視覺(jué)領(lǐng)域?qū)τ谕评硇阅苡休^強(qiáng)需求的領(lǐng)域,首當(dāng)其沖的可能就是自動(dòng)和輔助駕駛領(lǐng)域。在自動(dòng)和輔助駕駛領(lǐng)域,需要大量的目標(biāo)檢測(cè),這就需要大量的機(jī)器視覺(jué)算力支持。高通的Cloud AI 100擁有更好的能效比和相當(dāng)?shù)男阅?,加上其成本預(yù)計(jì)會(huì)遠(yuǎn)遠(yuǎn)低于基于HBM2內(nèi)存的A100 GPU,因此可能會(huì)與Nvidia在這個(gè)領(lǐng)域有激烈的競(jìng)爭(zhēng)。自動(dòng)駕駛領(lǐng)域擁有較高的質(zhì)控和渠道壁壘,而高通作為在半導(dǎo)體供應(yīng)鏈中已經(jīng)有非常深厚積累的巨頭,在這個(gè)領(lǐng)域顯然要比其他做自動(dòng)駕駛芯片的初創(chuàng)公司更有競(jìng)爭(zhēng)力,因此可能會(huì)給這個(gè)領(lǐng)域帶來(lái)新的市場(chǎng)格局。當(dāng)然,在自動(dòng)駕駛領(lǐng)域高通即使能戰(zhàn)勝Nvidia,也不代表高通能占領(lǐng)整個(gè)自動(dòng)駕駛市場(chǎng):隨著目前各大智能駕駛公司都紛紛開(kāi)始自研芯片,未來(lái)自動(dòng)駕駛市場(chǎng)中究竟是第三方芯片方案還是第一方芯片方案更是主流,仍然有待觀察。
除了智能駕駛之外,另一個(gè)重要的推理市場(chǎng)是智能終端,例如工業(yè)機(jī)器人和智能攝像頭。這些領(lǐng)域?qū)τ诠暮湍苄П榷加休^強(qiáng)的需求。高通顯然在設(shè)計(jì)芯片的時(shí)候?qū)⑦@些市場(chǎng)納入了考慮,因此Cloud AI 100除了功耗75W,400TOPS算力的PCIe版本之外,還有功耗15W,算力70 TOPS和功耗25W,算力200 TOPS的低功耗版本,這些版本非常適合工業(yè)機(jī)器人和智能攝像頭應(yīng)用。而Nvidia同樣針對(duì)該市場(chǎng)的Xavier系列芯片的能效比則遠(yuǎn)遜于Cloud AI 100,因此高通在這個(gè)領(lǐng)域也有優(yōu)勢(shì)。
當(dāng)然,高通即使能在競(jìng)爭(zhēng)中勝過(guò)Nvidia,也未必能真正主導(dǎo)這個(gè)市場(chǎng)。人工智能推理的一大市場(chǎng),即中國(guó)市場(chǎng),在國(guó)際形勢(shì)和國(guó)內(nèi)對(duì)于半導(dǎo)體產(chǎn)業(yè)大力扶持的背景下,究竟會(huì)使用外國(guó)公司的方案,還是使用國(guó)內(nèi)公司的方案,對(duì)于高通究竟能在這個(gè)市場(chǎng)中占有多大份額也有很大影響。
訓(xùn)練市場(chǎng)如何戰(zhàn)勝Nvidia
在人工智能訓(xùn)練市場(chǎng),從MLPerf早些公布的訓(xùn)練跑分結(jié)果我們可以看到,Nvidia的單卡性能仍然遠(yuǎn)遠(yuǎn)領(lǐng)先Graphcore,Habana等競(jìng)爭(zhēng)對(duì)手。另外,高通似乎目前尚沒(méi)有公布在這個(gè)領(lǐng)域的計(jì)劃。然而,在分布式訓(xùn)練結(jié)果中,我們可以看到Nvidia的訓(xùn)練跑分結(jié)果和谷歌的TPU類似。分布式訓(xùn)練結(jié)果主要考慮如何通過(guò)大規(guī)模的分布式計(jì)算來(lái)實(shí)現(xiàn)訓(xùn)練速度的提升,它一個(gè)系統(tǒng)工程,需要軟件、網(wǎng)絡(luò)通訊和加速卡芯片的協(xié)同設(shè)計(jì)才能實(shí)現(xiàn)最佳性能。雖然Nvidia的單卡性能仍然很強(qiáng),但是在訓(xùn)練領(lǐng)域,分布式訓(xùn)練性能事實(shí)上甚至比單卡性能更有意義,因此需要很強(qiáng)的系統(tǒng)工程能力才能實(shí)現(xiàn)超越。
當(dāng)然,從另一個(gè)角度來(lái)說(shuō),由于這是一個(gè)系統(tǒng)工程,因此如果公司在系統(tǒng)中的其他組件有優(yōu)勢(shì)的話,可以彌補(bǔ)芯片方面的短板。例如,谷歌的芯片部門(mén)雖然成立時(shí)間遠(yuǎn)少于Nvidia,但是憑借其在系統(tǒng)工程領(lǐng)域的深厚積累,可以在分布式訓(xùn)練領(lǐng)域?qū)崿F(xiàn)和Nvidia接近的結(jié)果。此外,來(lái)自北大和鵬城實(shí)驗(yàn)室基于華為Kunpeng CPU+Ascend加速卡+mindspore軟件框架的分布式訓(xùn)練結(jié)果也值得肯定,在自然語(yǔ)言處理領(lǐng)域,BERT訓(xùn)練結(jié)果的跑分華為Ascend 128卡的結(jié)果與介于64卡Nvidia A100和64卡TPU之間,而在機(jī)器視覺(jué)領(lǐng)域,Ascend 1024卡的結(jié)果與A100 1024卡的結(jié)果接近。因此,在可使用的芯片工藝收到限制的情況下,中國(guó)芯片公司考慮從系統(tǒng)工程的角度(例如,通過(guò)與該領(lǐng)域有深厚積累的各大IT公司合作)來(lái)實(shí)現(xiàn)對(duì)于Nvidia GPU在訓(xùn)練領(lǐng)域的趕超或許是一個(gè)可行的思路。