在英偉達(dá)于2000年收購3DFX,以及AMD在2006年收購ATI之后,桌面GPU這個市場本來就已經(jīng)塵埃落定。
英偉達(dá)是GPU市場當(dāng)之無愧的巨頭,AMD的GPU則掙扎前行,而Intel則依靠其CPU的號召力,在集成顯卡市場擁有絕對的號召力,但在獨(dú)立顯卡市場,無論是之前的Intel 740還是后續(xù)的Larrabee都無疾而終。
但在Alex Krizhevsky使用英偉達(dá)GPU成功訓(xùn)練出了深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet,并憑借該網(wǎng)絡(luò)在圖像分類識別領(lǐng)域大幅提升了性能之后。人工智能新時(shí)代正式開啟。也正是從這個時(shí)候開始,GPU市場開始進(jìn)入了一個新階段。英偉達(dá)則成為這個時(shí)代當(dāng)之無愧的大贏家。
英偉達(dá)從2012年到現(xiàn)在的股價(jià)走勢
英偉達(dá)叱咤AI時(shí)代的兩大利器
回看圖形處理器的發(fā)展史,據(jù)相關(guān)資料顯示,MIT在1951年制造的Whirlwind也許是世界上第一個3D圖形系統(tǒng),但這不是現(xiàn)代GPU的基礎(chǔ)。據(jù)報(bào)道,現(xiàn)在的GPU雛形是基于上世紀(jì)70年代中期的所謂視頻移位器(video shifters)和視頻地址生成器(video address generators)組成的。
在歷經(jīng)大型系統(tǒng)、小型工作站的發(fā)展后,圖像處理器在90年代中后期于PC上的3D游戲而發(fā)揚(yáng)光大,在此期間,不少公司涌入其中,英偉達(dá)也是其中的一家。據(jù)英偉達(dá)官網(wǎng)介紹,在他們成立的1993年,全球有超過二十家的圖形芯片公司,到1997年,這個數(shù)字猛增至70家。但到2006年,英偉達(dá)是唯一仍在運(yùn)營的獨(dú)立公司,他們也成為最后的贏家。被其沖上沙灘的前浪包括了ATI、S3 Graphics和3DFx等競爭對手。
和其他玩家一樣,英偉達(dá)最初成立的時(shí)候也只是聚焦于顯卡市場,最初推出的兩款產(chǎn)品NV1和NV2也市場反響平平平。但英偉達(dá)不氣餒,投入大量的經(jīng)歷去研發(fā)NV3,并在1997年推出。作為全球首個128位3D處理器,NV3在推出四個月后的出貨就突破一百萬。因?yàn)镹V3能對OpenGL的良好支持,英偉達(dá)自NV3開始,逐漸打敗了當(dāng)時(shí)市場占比高達(dá)85%的3DFx,成為了顯卡市場的霸主。
值得一提的是,英偉達(dá)表示,他們在1999年發(fā)明了GPU( 這是NVIDIA首創(chuàng)的詞匯,GPU即是Graphics Processing Unit的縮寫),而當(dāng)年推出GeForce 256就是全世界第一款GPU。
如果英偉達(dá)接下來,還是只盯著圖形市場,那么他們的充其量就就只是下一個3DFx,但黃仁勛有更大的野心,那就是把GPU推到通用市場,這就是大家所熟悉的GPGPU。
據(jù)半導(dǎo)體行業(yè)觀察之前的報(bào)道:“在2000年左右,學(xué)術(shù)界對于使用GPU做通用計(jì)算(GPGPU)產(chǎn)生了興趣。當(dāng)時(shí),主要面向執(zhí)行通用算法的CPU是執(zhí)行科學(xué)計(jì)算的主力,但是CPU為了能在通用算法上都有較好的性能,因此很多芯片面積事實(shí)上用在了片上內(nèi)存和分支預(yù)測等控制邏輯,而真正用于計(jì)算的單元并不多。相反,GPU架構(gòu)中的控制邏輯較為簡單,絕大多數(shù)芯片面積都用于渲染、多邊形等計(jì)算。學(xué)術(shù)界發(fā)現(xiàn),科學(xué)運(yùn)算中的矩陣等計(jì)算可以很簡單地映射到GPU的處理單元,因此能實(shí)現(xiàn)非常高的計(jì)算性能?!?/p>
報(bào)道進(jìn)一步指出,當(dāng)時(shí),GPGPU最主要的瓶頸在于難以使用。由于GPU是面向圖像應(yīng)用而開發(fā),因此要在其編程模型中支持通用高性能計(jì)算并不容易,需要許多手工調(diào)試和編碼,因此造成了很高的門檻,能熟練使用的人并不多。
為了讓GPU從軟硬件都走向通用,英偉達(dá)在2006年推出了Tesla架構(gòu),一改之前使用矢量計(jì)算單元做渲染的做法,而是把一個矢量計(jì)算單元拆成了多個標(biāo)量計(jì)算渲染單元。這就使得基于這個架構(gòu)的GPU除了渲染能力強(qiáng)以外,還適合做通用計(jì)算。
也就是在這一年,英偉達(dá)推出了CUDA。按照他們的說法,這是一種用于通用GPU計(jì)算的革命性架構(gòu)。CUDA將使科學(xué)家和研究人員能夠利用GPU的并行處理能力來應(yīng)對其最復(fù)雜的計(jì)算挑戰(zhàn)。
正是得益于這兩個方向的布局,英偉達(dá)在AI時(shí)代如魚得水。
據(jù)行業(yè)專家所說,現(xiàn)在的云端AI芯片市場,除了谷歌自用的TPU外,其他絕大多數(shù)的廠商都是使用英偉達(dá)的GPU來做相關(guān)的模型訓(xùn)練,這讓英偉達(dá)在云端AI芯片的市場居高不下。這也讓英偉達(dá)的業(yè)績在過去幾年屢創(chuàng)新高。根據(jù)賽迪顧文的預(yù)測數(shù)據(jù)顯示,光是國內(nèi)的云端AI芯片市場,在2019年到2021年間的累計(jì)增長將高達(dá)152%,麥肯錫也預(yù)測,在未來幾年,訓(xùn)練市場將成長迅猛,且在未來十年,這還將是英偉達(dá)GPU的天下。
看到這個數(shù)據(jù)需求和預(yù)測,國外就涌現(xiàn)出了類似Graphcore IPU和Google TPU等ASIC產(chǎn)品,計(jì)劃在訓(xùn)練市場挑戰(zhàn)英偉達(dá)。Intel和AMD則希望在GPU硬扛英偉達(dá)。
AMD和Intel的蠢蠢欲動
其實(shí)早在英偉達(dá)進(jìn)軍GPGPU的前后,AMD也有了相應(yīng)的計(jì)劃。但和英偉達(dá)屬在過去多年里大力投入推行CUDA開發(fā)環(huán)境不一樣,AMD將雞蛋都放在了“OpenCL”這個籃子里面,這就導(dǎo)致即使他們在2017年發(fā)布了ROCm平臺來提供深度學(xué)習(xí)支持,但也改變不了他們GPU在AI時(shí)代幾無所獲的結(jié)局。
但AMD不甘心。為了與Nvidia競爭,AMD在今年三月份推出了新的CDNA架構(gòu)。據(jù)介紹,這是AMD針對數(shù)據(jù)中心和其他用途的,專注于計(jì)算的GPU體系結(jié)構(gòu)。AMD針對CDNA的目標(biāo)既簡單又直接:構(gòu)建一個大型的,功能強(qiáng)大的GPU系列,這些GPU針對一般的計(jì)算和數(shù)據(jù)中心使用進(jìn)行了優(yōu)化。
據(jù)介紹,新架構(gòu)中很大一部分的性能提升將會體現(xiàn)在機(jī)器學(xué)習(xí)方面,這意味著支持更快地執(zhí)行較小數(shù)據(jù)類型(例如INT4 / INT8 / FP16),而AMD在介紹新架構(gòu)的時(shí)候也明確提到了張量運(yùn)算。此外,新架構(gòu)可以通過Infinity Fabric互連總線靈活設(shè)計(jì)性能,并支持增強(qiáng)的企業(yè)級RAS特性、安全、虛擬化技術(shù),還將提供更高的能效比,從而降低企業(yè)TCO成本。
基于這個架構(gòu),AMD在本月中發(fā)布了新一代的Instinct MI100計(jì)算卡。數(shù)據(jù)顯示,新的架構(gòu)可提供高達(dá)11.5 TFLOPS的FP64峰值吞吐量,這使其成為第一個在FP64中突破10 TFLOPS的GPU。與上一代MI50相比,新加速卡的性能提高了3倍。它還在FP32工作負(fù)載中擁有23.1 TFLOPS的峰值吞吐量。數(shù)據(jù)顯示,AMD的新加速卡在這兩個類別中都擊敗了Nvidia的A100 GPU。
Instinct MI100還支持AMD的新Matrix Core技術(shù),該技術(shù)可提高FP32,F(xiàn)P16,bFloat 16,INT8和INT4等單精度和混合精度矩陣運(yùn)算的性能,還可將FP32性能提高到46.1 TFLOPS。
為了更好地與英偉達(dá)競爭,AMD還表示,其開源ROCm 4.0開發(fā)人員軟件現(xiàn)在具有開源編譯器,并統(tǒng)一支持OpenMP 5.0,HIP,PyTorch和Tensorflow。
除了AMD外,Intel在最近幾年也加大在其GPU的投入,想在AI這個市場分一杯羹。
據(jù)英特爾介紹,公司的Xe架構(gòu)GPU將覆蓋從集成顯卡到高性能計(jì)算的所有范圍。其中代號為Ponte Vecchio的獨(dú)立GPU則是公司面對HPC建模和仿真以及AI訓(xùn)練而推出的設(shè)計(jì)。Ponte Vecchio將采用英特爾的7納米技術(shù)制造,并將成為英特爾首款針對HPC和AI工作負(fù)載進(jìn)行了優(yōu)化的基于Xe的GPU。但直到目前為止,尚未看到Intel的這款新品。
此外,為了更好地在包括AI在內(nèi)的應(yīng)用市場中發(fā)揮其包括CPU、GPU、FPGA和AISC在內(nèi)的芯片的為例,方便開發(fā)者編程,Intel還推出了擁有遠(yuǎn)達(dá)理想的OneAPI。在開發(fā)者看來,這是一個不錯的規(guī)劃,但同時(shí)也是一個極具挑戰(zhàn)的任務(wù)。
中國廠商加速入局
在GPU重要性日益凸顯的今日,國內(nèi)越來越多的廠商開始投入到這個市場中去。這些廠商中除了有之前一直在這個市場布局的景嘉微、兆芯和航錦外,還有一些新進(jìn)入這個領(lǐng)域的企業(yè)。當(dāng)中尤其以壁仭、沐曦、海飛科、芯瞳最為知名。
首先看壁仞科技,據(jù)官網(wǎng)介紹,該公司創(chuàng)立于2019年,團(tuán)隊(duì)由國內(nèi)外芯片和云計(jì)算領(lǐng)域核心專業(yè)人員、研發(fā)人員組成,在GPU、DSA(專用加速器)和計(jì)算機(jī)體系結(jié)構(gòu)等領(lǐng)域具有深厚的技術(shù)積累和獨(dú)到的行業(yè)洞見。
在產(chǎn)品方面,壁仞科技致力于開發(fā)原創(chuàng)性的通用計(jì)算體系,建立高效的軟硬件平臺,同時(shí)在智能計(jì)算領(lǐng)域提供一體化的解決方案。從發(fā)展路徑上,壁仞科技將首先聚焦云端通用智能計(jì)算,逐步在人工智能訓(xùn)練和推理、圖形渲染、高性能通用計(jì)算等多個領(lǐng)域趕超現(xiàn)有解決方案,實(shí)現(xiàn)國產(chǎn)高端通用智能計(jì)算芯片的突破。
再看沐曦,則是由AMD前高管離職創(chuàng)立的公司。據(jù)介紹,沐曦集成電路成立于2020年9月,核心團(tuán)隊(duì)來自世界一流的GPU芯片公司,平均擁有15年以上高性能GPU芯片設(shè)計(jì)經(jīng)驗(yàn)和豐富的5nm流片和7nm芯片量產(chǎn)經(jīng)驗(yàn)。公司致力于研發(fā)生產(chǎn)擁有自主知識產(chǎn)權(quán)的、安全可靠的高性能GPU芯片,服務(wù)數(shù)據(jù)中心、云游戲、人工智能等需要高算力的諸多重要領(lǐng)域,填補(bǔ)國內(nèi)高性能GPU芯片自主可控的空白。
海飛科(Hexaflake)則成立于2019年,是一家高科技初創(chuàng)公司,致力于AI高性能處理器芯片和軟硬件全棧系統(tǒng)解決方案的研發(fā),是能夠在該領(lǐng)域與國際巨頭并駕齊驅(qū)的頭部AI通用型處理器公司。主要創(chuàng)始人及核心團(tuán)隊(duì)匯聚中美各地多位國際頂級資深專家;專長涵蓋并行計(jì)算與AI處理器體系架構(gòu)、GPU等超大規(guī)模SoC芯片以及處理器系統(tǒng)軟件的研發(fā);并曾在國際領(lǐng)先企業(yè)核心研發(fā)部門長期任職,成功研制多款芯片和系統(tǒng)產(chǎn)品。他們公司成立的目的是共同打造新一代通用型AI處理器芯片及其軟硬件生態(tài)環(huán)境。
芯瞳半導(dǎo)體成立于2018年。在接受媒體采訪的時(shí)候,他們表示公司的GPU瞄準(zhǔn)的應(yīng)用領(lǐng)域有三個方面:嵌入式、辦公PC和云游戲。此外,還有授權(quán)了Imagination IP的芯動、繼承了相關(guān)GPU專利的兆芯以及一直做國產(chǎn)CPU的龍芯也是GPU市場的玩家。
考慮到國內(nèi)的GPU現(xiàn)狀和中美之間的貿(mào)易狀況,上述GPU廠商除了有看中AI市場的玩家外,也有希望在圖形GPU市場有突破的創(chuàng)業(yè)者。
不過正如行業(yè)專家告訴筆者,無論是在圖形還是通用計(jì)算市場,對于GPU而言,更重要的是軟件和開發(fā)者生態(tài)。只有做好了這個,才是GPU能夠商用的前提。國內(nèi)廠商中何時(shí)會有廠商能夠真正突圍成功的?這值得我們觀望。