《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 電子元件 > 業(yè)界動(dòng)態(tài) > 科技巨頭加速入場(chǎng)算力戰(zhàn)局,究竟是什么在推動(dòng)「外行」自研芯片

科技巨頭加速入場(chǎng)算力戰(zhàn)局,究竟是什么在推動(dòng)「外行」自研芯片

2021-03-26
來(lái)源:機(jī)器之心

  上周,字節(jié)跳動(dòng)開(kāi)始自研云端 AI 芯片和 Arm 服務(wù)器芯片的消息引人關(guān)注。新興科技巨頭,是否已經(jīng)到了全面自研芯片的時(shí)代?背后最主要的原因又是什么?

  據(jù)外國(guó)媒體報(bào)道,互聯(lián)網(wǎng)科技巨頭亞馬遜正開(kāi)始探索 RISC-V,以考慮替代 Arm 處理器的方案,因?yàn)楹笳哒诒挥ミ_(dá)收購(gòu)。

  此前,亞馬遜已經(jīng)擁有了自己專屬的 AWS 數(shù)據(jù)中心芯片、人工智能芯片以及各類移動(dòng)智能設(shè)備上的 Arm 芯片。

  像亞馬遜一樣,國(guó)內(nèi)外很多此前只涉及軟件和互聯(lián)網(wǎng)的科技巨頭都擁有了自主研發(fā)的芯片,并且取得了經(jīng)市場(chǎng)驗(yàn)證的良好效果。

  谷歌的 TPU 和自身的 TensorFlow、算力平臺(tái)共同組成了全世界最好的人工智能技術(shù)生態(tài);亞馬遜的 Inferentia 集群比英偉達(dá) T4 降低了 25% 延遲和 30% 成本。

  其他互聯(lián)網(wǎng)巨頭也正在加速入場(chǎng),微軟去年12月份表示正在研發(fā)Arm芯片;字節(jié)跳動(dòng)近期也開(kāi)始芯片人才的招聘,探索Arm芯片。字節(jié)跳動(dòng)的相關(guān)負(fù)責(zé)人回應(yīng)媒體詢問(wèn)時(shí)證實(shí),「是在組建相關(guān)團(tuán)隊(duì),在AI芯片領(lǐng)域做一些探索?!?/p>

微信圖片_20210326171004.jpg

  字節(jié)跳動(dòng)官網(wǎng)上芯片工程師的招聘信息。

  在外界看來(lái),互聯(lián)網(wǎng)巨頭自研芯片已經(jīng)成為必然,這勢(shì)必會(huì)對(duì)原本以芯片為主業(yè)的半導(dǎo)體巨頭和芯片創(chuàng)業(yè)公司產(chǎn)生較大影響。

  在這個(gè)過(guò)程中,需要搞明白一個(gè)最核心的問(wèn)題——互聯(lián)網(wǎng)巨頭為什么要自己造芯片,以及在何種情況下才會(huì)選擇自研芯片。

  業(yè)務(wù)邊界的持續(xù)擴(kuò)展,數(shù)據(jù)量的激增,人工智能技術(shù)的發(fā)展,讓互聯(lián)網(wǎng)巨頭對(duì)芯片的需求持續(xù)增加。

  同時(shí),外部的芯片設(shè)計(jì)工具和 IP 服務(wù)也逐漸變強(qiáng),芯片產(chǎn)業(yè)鏈的完善為巨頭自主做芯片提供了成熟的產(chǎn)業(yè)基礎(chǔ)。博通每年都會(huì)給客戶提供大量定制芯片;蘋果引人關(guān)注的 M1 背后,其實(shí)也有很多其他公司的身影。這種產(chǎn)業(yè)鏈協(xié)同和合作幫助互聯(lián)網(wǎng)巨頭降低了研發(fā)芯片的門檻。

  對(duì)計(jì)算需求的增加和制造門檻的降低只是提供了一個(gè)必要背景,在應(yīng)用層面上,同一個(gè)任務(wù)會(huì)有無(wú)數(shù)種硬件解決方案,互聯(lián)網(wǎng)巨頭們的工作就是選擇哪種硬件方案以及是否需要自己做,自研芯片只是眾多選擇中的一項(xiàng)。他們真正關(guān)心的是最具性價(jià)比的解決計(jì)算任務(wù),而非必須要有自己的芯片。

  而決策的唯一依據(jù)就是不同方案的成本與收益對(duì)比,也就是找到 ROI 最大的方案。

  自主研發(fā)芯片有著非常高的整體研發(fā)成本,包括購(gòu)買 IP、人員成本、實(shí)驗(yàn)和流片等?;ヂ?lián)網(wǎng)巨頭們大部分的成功經(jīng)驗(yàn)都集中在軟件和互聯(lián)網(wǎng)領(lǐng)域,他們進(jìn)入芯片領(lǐng)域也是從零開(kāi)始,沒(méi)有太多可以節(jié)省的成本。

  灣區(qū)一位芯片專家介紹說(shuō),谷歌開(kāi)始做芯片時(shí),從博通挖了很多 ASCI 業(yè)務(wù)的人,從上到下組建一個(gè)全新領(lǐng)域的專業(yè)團(tuán)隊(duì)和運(yùn)營(yíng)體系,而這種體系與公司此前所擅長(zhǎng)的是完全不同的,這又帶來(lái)在企業(yè)文化和管理上的額外成本和風(fēng)險(xiǎn)。

  自主研發(fā)芯片的高投入決定了它只適用于可以帶來(lái)更高收益的應(yīng)用場(chǎng)景——芯片能和公司自身業(yè)務(wù)系統(tǒng)、網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練框架等緊密結(jié)合,實(shí)現(xiàn)計(jì)算成本的顯著下降,產(chǎn)品性能和和用戶體驗(yàn)的顯著增長(zhǎng)。

  只有這樣,自研芯片才能獲得最高的 ROI,企業(yè)選擇自研方案才有意義。下面以 Arm 芯片、訓(xùn)練芯片、Codec 和 Smart NIC 等四種芯片為例。

  眾所周知,摩爾定律的速度已經(jīng)開(kāi)始變緩,數(shù)據(jù)中心同構(gòu)體系下基于 x86 的硬件成本沒(méi)辦法繼續(xù)下降。想要實(shí)現(xiàn)計(jì)算成本的下降,只能將負(fù)載拆分,然后用不同架構(gòu)和處理器來(lái)分別處理,很多負(fù)載又是和企業(yè)自身網(wǎng)絡(luò)結(jié)構(gòu)強(qiáng)相關(guān)的,那企業(yè)就需要針對(duì)這些任務(wù)去定制芯片,在這種情況下,企業(yè)自主研發(fā) Arm 芯片就是有助于節(jié)省成本的。

  除了與網(wǎng)絡(luò)結(jié)構(gòu)強(qiáng)相關(guān),與訓(xùn)練框架強(qiáng)相關(guān)也會(huì)促使公司自主研發(fā)芯片。比如有 TensorFlow 的谷歌就一定要去做 TPU,因?yàn)楣雀枋峭ㄟ^(guò)公有云為用戶提供算力租賃和模型訓(xùn)練服務(wù),而一個(gè)模型在其平臺(tái)訓(xùn)練完成所需要的時(shí)間和費(fèi)用是用戶決定是否使用該平臺(tái)的最主要因素。谷歌 TPU 與 TensorFlow、云計(jì)算的強(qiáng)協(xié)同,會(huì)帶來(lái)遠(yuǎn)超通用訓(xùn)練工具的效果,以及更低的成本。

  在去年的 MLPerf 基準(zhǔn)測(cè)試結(jié)果中,谷歌的 TPU 集群打破了 8 項(xiàng)測(cè)試紀(jì)錄中的 6 項(xiàng)。在 4096 塊 TPU 的加持下,谷歌的超級(jí)計(jì)算機(jī)可以在 33 秒內(nèi)訓(xùn)練 ResNet-50、BERT、Transformer、SSD 等模型。在使用 TensorFlow 框架時(shí),BERT 的訓(xùn)練時(shí)間縮短到 23 秒。

微信圖片_20210326171236.jpg

  在一個(gè)圖像分類任務(wù)中,用 ImageNet 數(shù)據(jù)集訓(xùn)練 ResNet-50 v1.5 達(dá)到 75.90% 的準(zhǔn)確率,256 個(gè)第四代 TPUs 可以在 1.82 分鐘內(nèi)完成,這幾乎相當(dāng)于 768 個(gè)英偉達(dá) A100 顯卡和 192 個(gè) AMD Epyc 7742 CPU 內(nèi)核(1.06 分鐘)的速度。

  單從芯片架構(gòu)上來(lái)說(shuō),TPU 和 GPU 不會(huì)產(chǎn)生如此大差異。谷歌 TPU 集群比 A100 快這么多的原因是,用于訓(xùn)練的芯片與公司自身的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練框架強(qiáng)相關(guān),TPU 不僅支持自身的網(wǎng)絡(luò)結(jié)構(gòu),還向上支持自己的訓(xùn)練框架,谷歌知道 TensorFlow 如何去做加速,所以效果肯定會(huì)優(yōu)于通用的 GPU。那最后帶來(lái)的結(jié)果就是,用戶在谷歌的平臺(tái)上獲得了更高性價(jià)比的服務(wù),谷歌更好的建立人工智能技術(shù)生態(tài)。所以,谷歌自主研發(fā) TPU 就是有意義的。

  華為也是此類情況,他們擁有升騰 910、MindSpore 和云計(jì)算,因此,華為的人工智能技術(shù)平臺(tái)就擁有了競(jìng)爭(zhēng)力。徐直軍曾表示,昇騰 910、MindSpore 的推出,標(biāo)志著華為已完成全棧全場(chǎng)景AI解決方案(Portfolio)的構(gòu)建,也標(biāo)志著華為 AI 戰(zhàn)略的執(zhí)行進(jìn)入了新的階段。

  對(duì)于其他類型的定制芯片也是如此,比如 Facebook 做自己的 Codec,這是因?yàn)樵?Facebook 自身的業(yè)務(wù)和軟件體系下,上行下行的編解碼處理非常重要。比起使用通用 CPU ,F(xiàn)acebook 選擇自己開(kāi)發(fā) Codec 就更劃算。

  還有智能網(wǎng)卡 Smart NIC,幾乎所有的互聯(lián)網(wǎng)巨頭都會(huì)自主研發(fā),尤其是提供公有云服務(wù)的企業(yè)。因?yàn)楣性粕婕褒嫶蟮木W(wǎng)絡(luò)結(jié)構(gòu),企業(yè)需要去匹配負(fù)載和網(wǎng)卡,所以每家企業(yè)對(duì) Smart NIC 的需求都是個(gè)性化的,不具有通用性,需要定制化,這也是英偉達(dá)的 DPU 在市場(chǎng)中表現(xiàn)并不好的原因。

  還有一個(gè)重要因素是互聯(lián)網(wǎng)巨頭都具有規(guī)模效應(yīng),他們擁有最龐大的機(jī)房,為數(shù)以千萬(wàn)計(jì)的用戶提供服務(wù),只要性能有微小提升,或者價(jià)格有微小下降,就會(huì)為用戶帶來(lái)巨大價(jià)值。

  總結(jié)來(lái)說(shuō),對(duì)于互聯(lián)網(wǎng)巨頭,如果芯片的應(yīng)用場(chǎng)景和自身業(yè)務(wù)及軟件強(qiáng)相關(guān),自身對(duì)此有個(gè)性化需求,最終能通過(guò)規(guī)模效應(yīng)最大化收益,那他們就會(huì)選擇自主研發(fā)。

  在其他場(chǎng)景下,當(dāng)巨頭的芯片需求不是個(gè)性化的,所需芯片和自身業(yè)務(wù)、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和軟件體系沒(méi)有強(qiáng)相關(guān)性,或者說(shuō)他們需要的是通用芯片時(shí),那巨頭們就無(wú)法通過(guò)定制來(lái)降低成本,也就沒(méi)有必要為了一個(gè)非定制需求去承擔(dān)通用芯片的全部研發(fā)成本。

  更加合理的方式應(yīng)該是向其他半導(dǎo)體公司購(gòu)買,或者戰(zhàn)略投資芯片創(chuàng)業(yè)公司進(jìn)行布局,以與其他客戶或投資機(jī)構(gòu)共同分?jǐn)傃邪l(fā)成本。x86 CPU 和推理芯片就是屬于這個(gè)范疇。

  很多公司是沒(méi)辦法通過(guò)優(yōu)化自身的拓?fù)浣Y(jié)構(gòu)和軟件體系來(lái)實(shí)現(xiàn) x86 CPU 性價(jià)比的大幅提升的,所以最佳選擇就是直接向英特爾購(gòu)買。

  推理芯片也是如此,它在人工智能領(lǐng)域的通用性很強(qiáng),需要根據(jù)算法來(lái)進(jìn)行調(diào)整和演進(jìn),需要較好的可編程性,那這類芯片就和巨頭自身的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和訓(xùn)練框架并沒(méi)有那么直接的關(guān)系,大企業(yè)也就無(wú)法通過(guò)深度定制和自主研發(fā)大幅降低成本或提升性能,最好的選擇也是購(gòu)買及投資。

  亞馬遜在自主研發(fā)與業(yè)務(wù)相關(guān)芯片的同時(shí),也投資了通用人工智能芯片初創(chuàng)公司 Syntiant。字節(jié)跳動(dòng)一方面探索自主研發(fā) Arm 芯片,另一方面,他們投資的一家芯片公司的主要產(chǎn)品也是云端推理芯片。

  微信圖片_20210326171349.jpg

  Syntiant 的深度學(xué)習(xí)處理器

  互聯(lián)網(wǎng)巨頭不同的芯片策略和行動(dòng)為他們實(shí)現(xiàn)了最大化收益,同時(shí)也使得他們?cè)诎雽?dǎo)體領(lǐng)域的角色開(kāi)始變得多樣。

  他們是最大的芯片客戶,有著最豐富的計(jì)算場(chǎng)景和異常龐大的業(yè)務(wù)負(fù)載,每年為幾家大型半導(dǎo)體公司和新興芯片創(chuàng)業(yè)公司帶來(lái)海量訂單;同時(shí),他們已經(jīng)開(kāi)始定制芯片或自主研發(fā)芯片,在某種程度上成為這些半導(dǎo)體大公司和創(chuàng)業(yè)公司的潛在競(jìng)爭(zhēng)對(duì)手,或者給他們帶來(lái)產(chǎn)品替代風(fēng)險(xiǎn);最后,他們還是資本巨頭,可以借助資本杠桿,通過(guò)投資和并購(gòu)來(lái)完善自己的技術(shù)生態(tài)。

  這些讓互聯(lián)網(wǎng)巨頭、半導(dǎo)體巨頭和芯片創(chuàng)業(yè)公司之間的關(guān)系微妙且復(fù)雜,從而也讓市場(chǎng)格局和產(chǎn)業(yè)發(fā)展趨勢(shì)也更加不明確。

  但如果我們對(duì)以上互聯(lián)網(wǎng)巨頭已有策略、行為和結(jié)果進(jìn)行分析,那就很容易發(fā)現(xiàn)他們自己在市場(chǎng)中的定位,在一定程度上就可以避免和他們直接競(jìng)爭(zhēng),同時(shí)還可以圍繞著他們的需求發(fā)現(xiàn)更多機(jī)會(huì)。

  比如,根據(jù)谷歌的行動(dòng),我們就可以判斷訓(xùn)練芯片可能就更加適合已經(jīng)有成熟訓(xùn)練框架和算力的巨頭去做,谷歌已經(jīng)證明了,通過(guò)芯片、訓(xùn)練框架和算力的強(qiáng)綁定可以獲得比 GPU 更好的效果。

  如果創(chuàng)業(yè)公司只做一個(gè)訓(xùn)練芯片,沒(méi)有自己的訓(xùn)練框架,也無(wú)法與不同客戶的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和軟件系統(tǒng)產(chǎn)生強(qiáng)耦合關(guān)系,那是很難與英偉達(dá)去競(jìng)爭(zhēng)的,同時(shí)也面臨谷歌的競(jìng)爭(zhēng)。

  而以推理芯片為代表的人工智能通用芯片就會(huì)存在更大機(jī)會(huì),它是獨(dú)立的,考慮的是可編程性和靈活性,與客戶的網(wǎng)絡(luò)及軟件沒(méi)有強(qiáng)相關(guān)性。

  互聯(lián)網(wǎng)巨頭對(duì)此沒(méi)有定制化開(kāi)發(fā)的需求,反而因?yàn)樽陨淼男枨蠹俺杀臼找娴目紤],會(huì)更傾向于戰(zhàn)略投資這個(gè)方向的創(chuàng)業(yè)公司,或直接購(gòu)買這類芯片。

  同時(shí),一個(gè)領(lǐng)域?qū)S玫耐评硇酒彩强梢栽谛詢r(jià)比方面超過(guò) GPU 的。GPU 的應(yīng)用領(lǐng)域較廣,包括 Graph、人工智能和高性能計(jì)算等,人工智能又包含推理和訓(xùn)練。GPU 巨頭很難去選一個(gè)細(xì)分領(lǐng)域,為一個(gè)小市場(chǎng)去重新設(shè)計(jì)一套架構(gòu),他們依然是以一個(gè)市場(chǎng)領(lǐng)導(dǎo)者的角色去關(guān)注最通用、最廣泛的市場(chǎng)。

  而創(chuàng)業(yè)公司完全可以選擇一個(gè)最細(xì)分的方向,比如說(shuō)云端推理芯片,然后專注于架構(gòu)和性能提升上,且花費(fèi)更低的成本,從而在這個(gè)細(xì)分市場(chǎng)上取得成功。

 

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。