英偉達(dá)、AMD將斷供中國高性能GPU芯片,卡脖子又有了新的花樣?
今日一早,有媒體報(bào)道英偉達(dá)發(fā)布公告,表示之后向中國(包括香港)和俄羅斯的客戶出口兩款高端GPU芯片A100和H100需要新的出口許可。一紙公告引發(fā)人工智能和芯片半導(dǎo)體兩個(gè)行業(yè)的雙重地震。
事實(shí)上,我國高端GPU芯片進(jìn)口從2019年以來就一直有被限制,只是之前主要針對(duì)的廠商是AMD;而在應(yīng)用場景上又以超算中心為主,所以企業(yè)和消費(fèi)者在產(chǎn)品端的感知并不強(qiáng)。
而這一次范圍擴(kuò)大之后,許多互聯(lián)網(wǎng)大廠也就受到了影響。因?yàn)橐訟100芯片為例,其主要應(yīng)用場景除了超算中心之外,還包括云計(jì)算服務(wù)器、數(shù)據(jù)中心、AI訓(xùn)練等場景。
實(shí)際上,隨著國內(nèi)云計(jì)算、以及互聯(lián)網(wǎng)企業(yè)在云端儲(chǔ)存,數(shù)據(jù)處理等方面需要的數(shù)據(jù)量越來越多。各大互聯(lián)網(wǎng)企業(yè)、云廠商最近幾年在AI芯片領(lǐng)域也都早有布局。
但國內(nèi)大廠的AI芯片主要都是專用芯片,雖然在特定領(lǐng)域能夠?qū)崿F(xiàn)對(duì)英偉達(dá)的部分替代,但從產(chǎn)業(yè)全局來看,高端場景短期仍然很難擺脫對(duì)英偉達(dá)芯片的依賴。
當(dāng)然,這也并不意味著國內(nèi)云廠商和互聯(lián)網(wǎng)大廠配置的英偉達(dá)服務(wù)器就要宕機(jī),芯謀研究分析師商君曼對(duì)科創(chuàng)板日?qǐng)?bào)表示,本次被限制的芯片處于一個(gè)很高端的位置,對(duì)國內(nèi)企業(yè)的影響有限。
而在一些更普遍的應(yīng)用場景,除了已經(jīng)擁有的部分國產(chǎn)GPU芯片可以替代之外,英偉達(dá)的一些低端產(chǎn)品并不在限制范圍內(nèi)。國內(nèi)大廠其實(shí)還有相當(dāng)?shù)臅r(shí)間可以輾轉(zhuǎn)騰挪。
GPU為何卡脖子?
首先要講清楚的是,這次針對(duì)英偉達(dá)被限制的GPU并不是常規(guī)意義上的顯卡,而是非常高端的商用芯片,即A100和H100。這兩款芯片都是專門針對(duì) AI、數(shù)據(jù)分析和 HPC 應(yīng)用場景研發(fā)的。
其中,A100芯片是2020年5月英偉達(dá)在GTC2020上發(fā)布的產(chǎn)品。A100是一塊 3D 堆疊芯片,采用安培(Ampere)架構(gòu),應(yīng)用了當(dāng)時(shí)臺(tái)積電最先進(jìn)的7nm工藝,擁有 540 億個(gè)晶體管,GPU 的最大功率達(dá)到了 400W,算力比上一代采用 Volta 架構(gòu)的Tesla V100提升了20倍,號(hào)稱當(dāng)時(shí)全球最大的7nm芯片。
H100則是一款針對(duì)大模型專門優(yōu)化的產(chǎn)品,在今年3月份在GTC大會(huì)上才發(fā)布,采用了最新的Hopper構(gòu)架,應(yīng)用的也是臺(tái)積電最先進(jìn)的4nm工藝,擁有800億個(gè)晶體管,GPU最大功率800W。
除此之外,H100還加入了全新的Transformer Engine和可擴(kuò)展性更高的Nvidia NVLink互連功能,用于提升大型AI語言模型、深度推薦系統(tǒng)等等。當(dāng)然,目前H100還未正式進(jìn)入商用。
圖片來源:anandtech
目前,國內(nèi)GPU高端場景的GPU應(yīng)用基本上都由英偉達(dá)的A100覆蓋,甚至今年3月份H100發(fā)布時(shí),國內(nèi)主流廠商也都已經(jīng)預(yù)定。
比如,英偉達(dá)A100發(fā)布時(shí),首批應(yīng)用的OEM廠商包括浪潮、聯(lián)想等企業(yè);云服務(wù)公司也有阿里、騰訊、百度等主流廠商;而H100發(fā)布時(shí),阿里云、百度云和騰訊云等廠商也都計(jì)劃提供基于H100的實(shí)例。8月底,英偉達(dá)在第三財(cái)季展望上提到,這一塊業(yè)務(wù)預(yù)計(jì)在中國有4億美元的潛在銷售。
這個(gè)情況在國外也是如此,包括AWS、Google Cloud、微軟Azure、Oracle Cloud;或者思科、惠普等國際大廠采用的也都是英偉達(dá)的產(chǎn)品。目前,英偉達(dá)在數(shù)據(jù)中心 GPU 市場占比超過 80%,在云端訓(xùn)練市場上占比 90%,云端推理市場上占比 60%。
簡單來說,就如同高通驍龍系列對(duì)于智能手機(jī)性能的決定性一樣,英偉達(dá)的高端GPU芯片決定了云服務(wù)的性能和性價(jià)比,因此被國內(nèi)外云廠商廣泛采用。
當(dāng)然,被廣泛采用的另一個(gè)潛臺(tái)詞,其實(shí)是沒有可替代的產(chǎn)品(同等性能上)。
比如在高性能計(jì)算方面,借助HBM2e每秒超過2TB的帶寬和大容量內(nèi)存,科研人員可以在A100上將原本要花費(fèi)10小時(shí)的雙精度模擬過程縮短到4小時(shí)之內(nèi)。但在國內(nèi),目前沒有芯片公司能夠?qū)崿F(xiàn)FP64的技術(shù)能力。
顯然這一次美國對(duì)先進(jìn)GPU的出口限制也將對(duì)中國的云廠商帶來非常重大的影響。但從另一方面來說,這對(duì)中國自主GPU的發(fā)展也未嘗不是一件好事。
大廠造芯能否自給自足?
雖然這次限制突如其來,但國內(nèi)相關(guān)的云廠商和互聯(lián)網(wǎng)大廠也并非全無準(zhǔn)備。
早在幾年前,隨著國內(nèi)云計(jì)算、以及互聯(lián)網(wǎng)企業(yè)在云端儲(chǔ)存,數(shù)據(jù)處理等方面需要的數(shù)據(jù)量越來越多。各大互聯(lián)網(wǎng)企業(yè)、云廠商就已經(jīng)在AI芯片領(lǐng)域開始布局了。
比如阿里在2019年發(fā)布了AI芯片含光800,百度在2020年量產(chǎn)了第一代AI芯片昆侖;稍微慢一點(diǎn)的騰訊也在2021年發(fā)布了視頻處理芯片“滄?!焙虯I芯片“紫霄”。今年7月份,字節(jié)在“2022 火山引擎原動(dòng)力大會(huì)”上也正式確認(rèn)了其在自主造芯方面的布局。目前,字節(jié)的芯片研發(fā)已經(jīng)涉足視頻平臺(tái)、信息和娛樂應(yīng)用等。
雖然各大廠商進(jìn)入芯片領(lǐng)域的時(shí)間有先后,但在具體的方向和應(yīng)用場景上,大家的動(dòng)作反而是出奇一致的。目前為止,國內(nèi)互聯(lián)網(wǎng)大廠研發(fā)的芯片,或者方向都集中在云計(jì)算,視頻圖像處理等方面的專用或者通用芯片上。
當(dāng)然,大廠造芯除了解決技術(shù)自主問題之外,更重要的還在于成本和效率。
比如2019年阿里拍立淘商品庫每天新增 10 億商品圖片,使用傳統(tǒng) GPU 算力識(shí)別需要 1 小時(shí),但阿里同年推出的AI芯片“含光800”應(yīng)用之后,這一時(shí)間被縮短到5分鐘。
同時(shí),自研芯片還能極大程度節(jié)省云服務(wù)器的成本。
比如過去十年在云服務(wù)市場一直保持領(lǐng)先的亞馬遜就因?yàn)橥ㄟ^自研服務(wù)器芯片Graviton替換英偉達(dá)來持續(xù)降低價(jià)格。據(jù)The Information報(bào)道,亞馬遜的客戶表示,他們通過租用Graviton服務(wù)器節(jié)省了10%~40%的計(jì)算成本。
事實(shí)上,不僅是阿里和亞馬遜,如今的互聯(lián)網(wǎng)大廠其實(shí)都面臨著數(shù)據(jù)爆炸來帶的處理效率、能耗以及成本的問題。對(duì)外提供云服務(wù)的企業(yè)更需要面對(duì)市場的競爭,不對(duì)外提供云服務(wù)企業(yè)也要考慮自身效率的提升。
比如現(xiàn)在的抖音,主屏已經(jīng)從過去的底部4欄,頂部兩欄擴(kuò)充到底部4欄,頂部4欄等多個(gè)類目。而復(fù)雜的內(nèi)容背后,往往意味著龐大的數(shù)據(jù)處理。
有數(shù)據(jù)顯示,2017年抖音租借的服務(wù)器僅3萬臺(tái),但到了2020就達(dá)到了42萬臺(tái)。除此之外,這一年字節(jié)在美國弗吉尼亞租還有一個(gè)可容納10萬臺(tái)服務(wù)器的數(shù)據(jù)中心。
字節(jié)跳動(dòng)主管火山引擎、數(shù)據(jù)中臺(tái)的副總裁楊震原表示,如今字節(jié) 95% 的業(yè)務(wù)已經(jīng)跑在自己的數(shù)據(jù)中心上。龐大的數(shù)據(jù)處理成為推動(dòng)字節(jié)自研芯片的核心動(dòng)力。
除了滿足內(nèi)部需要之外,以阿里、百度為代表的大廠其實(shí)也在將自研芯片向外進(jìn)行“售賣”。比如阿里“含光800”雖然不對(duì)外售賣,但張建峰也提到:“含光 800 將通過阿里云對(duì)外輸出 AI 算力,未來企業(yè)可以通過阿里云獲取含光 800 的算力?!?/p>
基于云的芯片通過云走向市場。這其實(shí)也是為什么各大廠商的芯片主要都是自用的原因。當(dāng)然,這種自用也并不是絕對(duì)的,畢竟現(xiàn)在各大廠商其實(shí)都在通過云服務(wù)的方式,將自身的能力分享給其他玩家。
比如張建峰也提到:“含光 800 將通過阿里云對(duì)外輸出 AI 算力,未來企業(yè)可以通過阿里云獲取含光 800 的算力?;诤?800 的阿里云性價(jià)比提升了 100%。”
據(jù)調(diào)研機(jī)構(gòu)Canalys發(fā)布的2022年一季度中國云計(jì)算市場報(bào)告顯示,中國云市場總體規(guī)模達(dá)到73億美元,同比增長21%。阿里云以36.7%的市場份額保持領(lǐng)先位置,華為云、騰訊云、百度智能云分別以18.0%、15.7%、8.4%的市場份額位居第二至第四位。
從云服務(wù)分類來看,目前IaaS的市場份額最大,2021年占比超過62.14%。但如今,IaaS產(chǎn)品的競爭其實(shí)也趨向于同質(zhì)化,在這樣的背景下,價(jià)格戰(zhàn)成為IaaS產(chǎn)品競爭的主要方式。2020年6月,字節(jié)的火山引擎上市后就喊出了“極致性價(jià)比”的口號(hào)。
要打價(jià)格戰(zhàn),對(duì)于廠商來說,前提就是要降低成本。而自研芯片就是降低成本的成本的最好方式。
在國外,如亞馬遜、谷歌等大廠,率先開始了通過芯片自研來降低成本。比如,自2015年亞馬遜收購Annapurna開啟芯片自研之路以來,AWS就先后歷經(jīng)了百余次降價(jià)。在國內(nèi),火山引擎總經(jīng)理譚待也曾表示,實(shí)現(xiàn)極致性價(jià)比的方式就是“全棧自研、軟硬一體”。
舉個(gè)簡單的例子,對(duì)于龐大的云服務(wù)器而言,電費(fèi)其實(shí)占了日常運(yùn)營成本的很大一部分,而決定電費(fèi)的關(guān)鍵因素又在于服務(wù)器運(yùn)行的功耗。
針對(duì)這個(gè)問題,阿里推出的首款通用型CPU“倚天710”采用的就是以低功耗為特點(diǎn)的ARM構(gòu)架,并在設(shè)計(jì)上也采用了多核互聯(lián)網(wǎng)和芯片間互聯(lián)等低功耗技術(shù)。從阿里公布的數(shù)據(jù)來看,“倚天710”的能效比要比業(yè)界標(biāo)桿提升50%以上。
去年底騰訊云與智慧事業(yè)群 CEO 湯道生在接受《中國企業(yè)家》采訪時(shí)稱,騰訊造芯的核心思路是基于自身需求,要么降低成本,要么更高效地使用基礎(chǔ)設(shè)施。
整體而言,業(yè)內(nèi)造芯的主要目的就是為了降本增效,盡管自研芯片的前期研發(fā)投入比較高,但在規(guī)?;懂a(chǎn)后,單片成本一定比集中采購低?!币晃煌瑢倩ヂ?lián)網(wǎng)大廠芯片從業(yè)者向虎嗅解釋。
來源:周天財(cái)經(jīng)
是危險(xiǎn),也是機(jī)遇
除了大廠自研AI芯片之外,最近幾年隨著國內(nèi)芯片半導(dǎo)體產(chǎn)業(yè)的蓬勃發(fā)展,也隨之崛起了一大批的GPU芯片企業(yè),比如芯原微電子、燧原科技、摩爾線程、壁仞科技等等。其中如老牌CPU廠商龍芯、海光更是都已經(jīng)實(shí)現(xiàn)了上市。
不過,雖然業(yè)內(nèi)人士也指出,計(jì)算芯片最大的門檻其實(shí)不是硬件,而是軟件。如果一個(gè)芯片沒有與之配套的軟件生態(tài),則很難真的形成大面積的應(yīng)用。而這其實(shí)也是許多國內(nèi)GPU公司的產(chǎn)品很難獲得客戶認(rèn)可的原因。
但這兩年,國內(nèi)許多GPU芯片公司其實(shí)也在飛速成長,海光DCU8系列Z100產(chǎn)品數(shù)據(jù)接近英偉達(dá)的MI100產(chǎn)品,同時(shí)兼容CUDA生態(tài)而被市場廣泛看好。
除此之外,國產(chǎn)GPU還面臨更多挑戰(zhàn)。比如之前產(chǎn)量的問題,雖然海光的芯片性能獲得了市場的認(rèn)可,但由于其出貨量不足,以及其主要產(chǎn)能又供給給國家的超算中心,以至于市場上能拿到海光的芯片其實(shí)并不多。
另一方面也在于市場,在之前海外高端GPU芯片購買暢通的時(shí)候,國內(nèi)芯片其實(shí)很難受到客戶的認(rèn)可,大家普遍的選擇都是購買最先進(jìn)、穩(wěn)定的產(chǎn)品。而這一次國外先進(jìn)的GPU受到限制之后,其實(shí)也在提醒國內(nèi)的客戶重新考慮外部的實(shí)際情況,從而也是給國產(chǎn)GPU企業(yè)進(jìn)入客戶供應(yīng)鏈提供了一次機(jī)會(huì)。
認(rèn)證為百度資深系統(tǒng)工程師的答主lychee在知乎提到,“之前有 30% 的性能提升可能都不會(huì)考慮(生態(tài)不行),現(xiàn)在有 30% 的性能差距可能都不是問題了,畢竟刀架在脖子上,先用上再說?!?/p>
除此之外,在摩爾定律“失效”的大背景下,世界芯片半導(dǎo)體亟需建立一套新的規(guī)則,這是中國芯片半導(dǎo)體前所未有的機(jī)會(huì)。
目前英偉達(dá)被限制的A100芯片采用的是7nm制程,之前華登國際合伙人王林在于光錐智能的交流中就提到:“未來5nm、3nm的制程工藝可能還存在一些困難,但7nm制程工藝突破只是時(shí)間問題?!?/p>
而超過7nm之后,制程工藝提升所帶來的能效提升與為了達(dá)到這個(gè)制程所付出的成本就開始不成正比了。邊際效益遞減,企業(yè)投入重金研發(fā)先進(jìn)制程的動(dòng)力也開始不足。
早在2018年,國際芯片巨頭格羅方德就宣布放棄7nm的研發(fā),原因就是成本上升到無法承受的地步。而作為國際芯片代工巨頭的臺(tái)積電,最近也在3nm制程上也遇到了困難。
按照臺(tái)積電的規(guī)劃,3nm工藝的節(jié)點(diǎn)共有 N3、N3E、N3P、N3X 四種工藝。而目前市場卻有消息,稱因?yàn)槌杀咎?,臺(tái)積電也計(jì)劃放棄第一代3nm工藝,轉(zhuǎn)而投入到N3E的研發(fā)中。
與國外芯片半導(dǎo)體執(zhí)著于更先進(jìn)的制程不同,國內(nèi)卻已經(jīng)開始在其他方面另辟蹊徑,比如更先進(jìn)的封裝工藝,異構(gòu)芯片等領(lǐng)域。而在這些方面,中國其實(shí)是有彎道超車的機(jī)會(huì)的,因?yàn)榇蠹叶荚谝粋€(gè)起跑線上。
在國內(nèi),壁仞科技的GPU芯片是率先采用Chiplet技術(shù)的芯片。
8月初,壁仞科技在上海發(fā)布了首款通用GPU BR100,該芯片集成了770億個(gè)晶體管,其16位(半精度,英偉達(dá)最先進(jìn)的芯片達(dá)到64位,雙精度)浮點(diǎn)算力能達(dá)到1000T以上、8位定點(diǎn)算力能達(dá)到2000T以上,單芯片峰值算力達(dá)到了每秒千萬次計(jì)算(PFLOPS)的級(jí)別。
雖然這款芯片只有半精度級(jí)別,但作為對(duì)比同樣7nm制程的英偉達(dá)A100芯片在8位和16位定點(diǎn)的算力水平,壁仞科技的BR100已經(jīng)超過了英偉達(dá)。
壁仞科技聯(lián)合創(chuàng)始人、總裁徐凌杰表示,BR100系列芯片以及相應(yīng)硬件計(jì)算產(chǎn)品將于今年年底量產(chǎn)。同時(shí),壁仞科技也與包括浪潮信息在內(nèi)的多家服務(wù)器廠商達(dá)成了合作。
所以說,雖然對(duì)我們來說,外部環(huán)境越來越嚴(yán)苛,但中國在芯片領(lǐng)域仍然在穩(wěn)定的進(jìn)步。給國內(nèi)的企業(yè)一些時(shí)間,相信絕大部分問題都能夠逐步有序的被解決。
更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<<