《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 業(yè)界動(dòng)態(tài) > 姚頌萬字長(zhǎng)文:Hot Chips不容錯(cuò)過,史上最大芯片&摩爾定律

姚頌萬字長(zhǎng)文:Hot Chips不容錯(cuò)過,史上最大芯片&摩爾定律

2019-09-02
關(guān)鍵詞: HotChips 芯片 摩爾定律

  2019 年 8 月 19 日到 21 日,第 31 屆 Hot Chips 大會(huì)在斯坦福大學(xué)成功舉辦。從 2016 年開始,這是我參加的第四屆 Hot Chips。在之前的三屆 Hot Chips,有兩次我作為演講者參與(2016 年與 2018 年),有一年作為展商參與(2017 年),這一次是第一次沒有任何任務(wù)來參加 Hot Chips,終于可以安心地聽取報(bào)告、進(jìn)行學(xué)習(xí)。

  而在之前 Hot Chips TPC meeting 剛結(jié)束時(shí),已經(jīng)從幾位技術(shù)委員會(huì)的成員那里聽說今年的競(jìng)爭(zhēng)異常激烈,Xilinx 的同事 Ralph Wittig 更是評(píng)論,這一屆 Hot Chips 的論文質(zhì)量是他覺得過去十年中最好的,讓人不由得對(duì)本次 Hot Chips 充滿期待。

16.webp.jpg

  本次大會(huì)確實(shí)是有非常多非常扎實(shí)的工作,也展現(xiàn)了整個(gè)處理器與高性能芯片領(lǐng)域行業(yè)的趨勢(shì)與變化。本系列文章將介紹我在 Hot Chips 大會(huì)上的幾點(diǎn)觀察與思考,涵蓋以下幾點(diǎn)內(nèi)容:

  Cerebras 其實(shí)是在幫大家追求心中的夢(mèng)想,祝福,但也存在挑戰(zhàn);

  AI 仍是主角,但 AI 芯片設(shè)計(jì)已經(jīng)不是主角,從一個(gè)新穎的話題變?yōu)榱顺墒斓墓こ蹋?/p>

  異構(gòu)是大勢(shì)所趨,無論賽靈思還是英偉達(dá),都在持續(xù)前進(jìn);

  安全是一個(gè)越來越重要的話題;

  FPGA 在各種不同應(yīng)用中扮演著重要角色;

  集成電路工藝演進(jìn):未來越來越難,但一定會(huì)有突破。

  文章也將介紹一些 Hot Chips 會(huì)議上發(fā)生的趣事。未經(jīng)特別說明,圖片均來自于本人在 Hot Chips 拍攝的照片。

15.webp.jpg

  本文作者姚頌是賽靈思 AI 業(yè)務(wù)高級(jí)總監(jiān)、原深鑒科技聯(lián)合創(chuàng)始人

  No.1  Cerebras: 會(huì)議最大熱點(diǎn)

  本屆 Hot Chips 最大的亮點(diǎn),毫無疑問是 Cerebras 的 wafer-scale engine (WSE)。我們通常的芯片,一片 wafer 可以切出幾十到上萬片不等的芯片,而為了追求極致的性能、最大的片上存儲(chǔ),Cerebras 選擇了一條極端的路線,讓整片 wafer 就是一片芯片。當(dāng) Cerebras 的聯(lián)合創(chuàng)始人 Sean Lie 拿出樣品實(shí)物的時(shí)候,會(huì)場(chǎng)里響起了掌聲,這也是本次大會(huì)唯一一次不是在報(bào)告開始與結(jié)束時(shí)候禮節(jié)性的掌聲。

14.webp.jpg13.webp.jpg

  WSE 芯片,由 12x7=84 個(gè) die 組成,共有 40 萬個(gè)為深度學(xué)習(xí)優(yōu)化的計(jì)算核,片上存儲(chǔ)達(dá)到了驚人的 18GB,超過了很多電腦的內(nèi)存大小。這樣一顆芯片,在我眼里是有特殊的美感的:如同看到長(zhǎng)城和金字塔,這樣在技術(shù)水平極其低下時(shí),似乎人類無法實(shí)現(xiàn)的杰作;也如同看到了蒸汽朋克電影中的龐然大物,復(fù)古而雄偉;又如同最為精密和復(fù)雜的機(jī)械表,無數(shù)精巧的結(jié)構(gòu)讓人感嘆。這是在大的范式?jīng)]有改變的情況,當(dāng)前工程技術(shù)可以做到的極限了。

  Cerebras 的報(bào)告是極少數(shù)全篇沒有任何性能數(shù)字的報(bào)告,只有一句話 “It’s working”。這樣一篇論文能夠被 Hot Chips 錄用來進(jìn)行報(bào)告,足見其受到的關(guān)注和重視。而我個(gè)人有一個(gè)習(xí)慣,除了認(rèn)真聽別人說做了什么,更會(huì)去想他們沒說什么。而在這次,他們只說了 “It’s working”,而并沒有說 “It’s working well”,也許就是在暗示些什么。

  Cerebras 的 WSE 芯片仍然是有非常多待解決的問題的:

  (1) 這樣一片芯片,盡管做了很多的容錯(cuò)設(shè)計(jì),其良品率怎樣,仍然是一個(gè)疑問;

  (2) 傳說中 15kw 甚至 50kw 的功耗,怎樣去實(shí)現(xiàn)良好的散熱;

  (3) 整個(gè)芯片由 12x7 個(gè) die 組成,die 之間的通信是與臺(tái)積電聯(lián)合研發(fā)的新型工藝,其效果如何;

  這樣許許多多的問題,都值得追問下去,而在報(bào)告現(xiàn)場(chǎng),盡管 PPT 上有相關(guān)的頁來闡述是用怎樣的思路來解決,但是 Sean 基本上是一帶而過,沒有介紹任何細(xì)節(jié),這也不由得不讓人猜測(cè),在這些地方,可能仍然存在著非常多的技術(shù)問題需要解決。

  對(duì)于我個(gè)人來說,我非常佩服 Cerebras 的 CEO Andrew Feldman 這樣一位有魄力、有遠(yuǎn)見的成功的連續(xù)創(chuàng)業(yè)者:他曾經(jīng)做過四個(gè)公司,都以上市或者并購成功退出。我也非常佩服包括 Sean Lie 在內(nèi)的 Cerebras 的工程師,勇于挑戰(zhàn)最極致的技術(shù)路線。任何一條技術(shù)路線走通都非常不容易,希望 Cerebras 能夠一個(gè)一個(gè)解決路上的技術(shù)難題,這不僅僅是 Cerebras 一家公司的事情,也是所有有技術(shù)信仰的芯片行業(yè)工程師與研究者的共同心聲 —— 大家沒有機(jī)會(huì)和財(cái)力去做這樣一件激動(dòng)人心的事情,希望你們能做好!

  No.2  AI 芯片從火熱到理性

  Cerebras 是本次報(bào)告最大的亮點(diǎn),也是被大家關(guān)注最多的 “AI 芯片” 的代表。然而,實(shí)際上本次大會(huì),AI 芯片的設(shè)計(jì)本身,已經(jīng)不是被大家關(guān)注的重點(diǎn)了 —— 更進(jìn)一步說,實(shí)際上從 2017 年到現(xiàn)在的兩年間,純數(shù)字電路的 AI 芯片的發(fā)展已經(jīng)幾乎停滯了,除了 sparsity 和 low-bit(比如 1bit 網(wǎng)絡(luò),或者 tenary 網(wǎng)絡(luò)),在 AI 芯片,很少聽到新的題材了。

12.webp.jpg

11.jpg

  本次大會(huì)特斯拉的報(bào)告,也充分體現(xiàn)了這一點(diǎn):許多人最開始對(duì)于特斯拉的報(bào)告 “Compute and redundancy solution for Tesla’s Full Self driving computer” 充滿期待,因?yàn)檫@是少有的可能能介紹完整自動(dòng)駕駛系統(tǒng)設(shè)計(jì)的報(bào)告,而結(jié)果卻令人失望:整個(gè)報(bào)告花了 80% 的時(shí)間,在介紹底層架構(gòu)怎樣設(shè)計(jì),卷積計(jì)算的流程如何,指令集如何設(shè)計(jì),pooling 單元如何設(shè)計(jì),而在介紹這些設(shè)計(jì)的時(shí)候,許多抬頭聽報(bào)告的人,都將視線轉(zhuǎn)向了筆記本電腦或者手機(jī)。另一個(gè)更直觀的體現(xiàn)是,在報(bào)告結(jié)束后的 Q&A 環(huán)節(jié),提問者的問題都在關(guān)注在自動(dòng)駕駛系統(tǒng)中,兩片特斯拉自動(dòng)駕駛芯片是如何配合的,如果真的發(fā)生了錯(cuò)誤,是如何進(jìn)行糾錯(cuò)的,而沒有人再去拘泥于底層架構(gòu)設(shè)計(jì)。

  此次 Hot Chips 仍然有不少 “AI 芯片” 的報(bào)告,阿里,華為,Cerebras,Habana(一家以色列不錯(cuò)的創(chuàng)業(yè)公司),Tesla,nVidia,Xilinx,Intel,Princeton,然而,每一項(xiàng)工作都是在底層架構(gòu)設(shè)計(jì)之外,還有更大的亮點(diǎn):

  阿里實(shí)現(xiàn)的應(yīng)用是少見的 text-to-speech,從文本到聲音合成,而不是傳統(tǒng)的 CNN 和 LSTM 加速;華為的達(dá)芬奇芯片做了 logic die 與 HBM 的直接堆疊,而不是傳統(tǒng)高帶寬芯片的 2.5D interposer 的模式,Cerebras 芯片是最極端的 wafer-scale 芯片,Tesla 是帶有冗余設(shè)計(jì)的自動(dòng)駕駛系統(tǒng),nVidia 是 NoC+NoP 的可擴(kuò)展架構(gòu),Xilinx 是全新的 Versal 芯片與擁有更多可編程性的 AI engine 一起,Princeton 的研究工作是用 SRAM 做 in-memory computing。

  此次 Hot Chips 大會(huì)的情況也充分說明,AI 芯片的技術(shù)噱頭時(shí)代已經(jīng)過去,越來越多的人在考慮,怎樣去改變當(dāng)前的范式,用更新的底層技術(shù)去實(shí)現(xiàn)更好的性能;是否能夠真的做出可量產(chǎn)的芯片,之后怎樣去和應(yīng)用更好的融合,實(shí)現(xiàn)一個(gè)整體好用的系統(tǒng)。在單純數(shù)字芯片模式下,單純新的體系結(jié)構(gòu)的創(chuàng)新,已經(jīng)無法帶來任何新的機(jī)會(huì)了 —— 我們必須進(jìn)一步向前看。

  No.3  異構(gòu)計(jì)算:大勢(shì)所趨

  異構(gòu)計(jì)算,Heterogeneous Computing, 不是一個(gè)新鮮的話題,然而真正出現(xiàn)大量使用的異構(gòu)計(jì)算平臺(tái),卻是從近幾年的事情了。異構(gòu)最重要的涵義,是系統(tǒng)由多種不同功能的部分組成,讓每個(gè)部分做它最擅長(zhǎng)的事情,而不是用統(tǒng)一的平臺(tái)來做所有的事情。

10.webp.jpg

  異構(gòu)計(jì)算的興起,與 AI 芯片的興起,本質(zhì)上都有一個(gè)核心原因,摩爾定律的放緩甚至結(jié)束(摩爾定律的話題也是一個(gè)稍有爭(zhēng)議的話題,在 Philip Wong 教授的 Keynote 中,他認(rèn)為摩爾定律 “well live”,這一點(diǎn)我們?cè)谙聜€(gè)部分中再討論)。

  在過去幾十年,芯片性能的增長(zhǎng),過半是由于制造工藝的進(jìn)步帶來的。在上圖 AMD CEO Lisa Su 的報(bào)告中,也可以看到對(duì)于 GPU,過去十年性能進(jìn)步最重要的因素,也還是制造工藝的進(jìn)步,占到了 40%。而隨著摩爾定律的放緩,由制造工藝帶來的進(jìn)步越來越小,我們必須更多地依賴微架構(gòu)(也即圖中占比 17% 的 Microarchitecture 部分)和系統(tǒng)層面的進(jìn)步來實(shí)現(xiàn)整體的進(jìn)步。而這其中,最直接的方式,就是設(shè)計(jì) Domain-specific architecture(DSA),放棄一部分通用性,來獲得更大的性能提升。通常而言,越專用,通用性越差,越容易取得更好的性能。

9.webp.jpg

  也正因?yàn)榇?,我們看到?GPU 在圖像渲染上碾壓 CPU,我們看到了在不同通用性層次支持深度學(xué)習(xí)的各類 DPU/NPU/NNP/MLU/DLA/VPU。比如,我們可以選擇支持各類機(jī)器學(xué)習(xí)算法、而不僅僅是深度學(xué)習(xí)的 MLU,也可以選擇只支持深度學(xué)習(xí)推理的 DPU,而如今又出現(xiàn)了不少專注在深度學(xué)習(xí)訓(xùn)練的專用芯片。

8.webp.jpg

 ?。ㄔ?2017 年 3 月 GTIC 會(huì)議報(bào)告的 PPT 截圖)

  2018 年 3 月份在智東西組織的 GTIC 大會(huì)上,我曾經(jīng)講過一個(gè)和 nVidia VP of BD,Jeff Herbst 的小故事。在 2017 年 Hot Chips 期間,我約著去拜訪了 Jeff,也一起吃了個(gè)晚餐。在聊到對(duì)于 AI 芯片未來產(chǎn)品時(shí)候,我說 “I bet that you will sell a chip with no GPU in two years”,我打賭英偉達(dá)會(huì)在兩年內(nèi)賣一顆沒有 GPU 的芯片。但是沒想到其實(shí)英偉達(dá)的新產(chǎn)品來得如此之快:在 2018 年 2 月的 CES,英偉達(dá) CEO 黃仁勛就公布了面向自動(dòng)駕駛的 Drive Xavier 芯片,號(hào)稱 30T 算力,30W 功耗。但是當(dāng)我們認(rèn)真的看 PPT 上的數(shù)字時(shí)候會(huì)發(fā)現(xiàn),這 30T 算力,有 10TOPS INT8 來自于 DLA,有 20TOPS 來自于 Tensor Core,都不是傳統(tǒng)的 GPU。GPU 部分只有 512 個(gè) CUDA core,只有 1.3 CUDA TFLOPS。也就是說,這個(gè) GPU 的算力幾乎可以忽略不計(jì),可能只是用來做大屏幕顯示的。在我和 Jeff 見面僅僅半年之后,遠(yuǎn)沒有到兩年,nVidia 就已經(jīng)開始推出幾乎沒有 GPU 的芯片了,而似乎許多人沒有注意到 —— 這也充分說明了軟件接口的重要性,當(dāng) nVidia 把所有的都做成兼容 CUDA,再加上上層的 Library 和各類 Framework 進(jìn)行封裝,大家已經(jīng)關(guān)注不到底層的改變了。


 ?。℉ot Chips 31 現(xiàn)場(chǎng) nVidia 的報(bào)告)

  在這次 Hot Chips 大會(huì)上介紹的 Turing GPU,雖然還掛著 GPU 的名字,其實(shí)也已經(jīng)是一顆異構(gòu)計(jì)算芯片,不僅僅是傳統(tǒng)那些 SIMD 單元,總共由 Turing SM, RT Core,與 Tensor Core 三個(gè)部分組成。報(bào)告人 John Burgess 介紹,傳統(tǒng)做光線追蹤,對(duì)于每一條光線,要反復(fù)花費(fèi)數(shù)千個(gè)時(shí)鐘周期,才能正確計(jì)算和物體的交界點(diǎn)在哪里,而一次渲染會(huì)有非常多條光線要計(jì)算,因此他們才想要設(shè)計(jì) RT Core 來專門解決光線追蹤的問題。這就是典型的異構(gòu)與 DSA 解決問題的方式:為一個(gè)計(jì)算復(fù)雜的任務(wù)設(shè)計(jì)專用加速器,用異構(gòu)的系統(tǒng)來做整體的計(jì)算。

7.webp.jpg

 ?。℉ot Chips 31 現(xiàn)場(chǎng) Xilinx 的報(bào)告)

  而異構(gòu)計(jì)算一個(gè)特別極致的案例就是 Xilinx 本次介紹的 Versal,Xilinx 的第一款 ACAP 產(chǎn)品。Versal 上同時(shí)有兩個(gè) arm A72 核,兩個(gè) arm R5 核,可編程邏輯也即 FPGA,還有 AI Engine 與 DSP Engine!這樣一顆芯片,可以將應(yīng)用做非常細(xì)致的拆分,AI 部分在 AI Engine 上,信號(hào)處理部分在 DSP Engine 上,主控和通用計(jì)算部分在兩個(gè)不同的 CPU,其他需要加速但不能很好利用 AI Engine 與 DSP Engine 的部分在中間的可編程邏輯上。這種感覺就很 “分而治之”,又很像經(jīng)濟(jì)學(xué)上的 “價(jià)格歧視”—— 同樣的產(chǎn)品,為不同購買力的人群分別制訂他們能接受的最高價(jià)格,整體獲得的收益會(huì)更大。在這里,我們是,同樣一顆芯片,但是為不同應(yīng)用分別劃出專用的一塊區(qū)域,去實(shí)現(xiàn)最好的性能。

  毫無疑問,越來越異構(gòu)化的芯片會(huì)是大勢(shì)所趨。但是,實(shí)際上,背后依然有非常多的問題,比如,系統(tǒng)與應(yīng)用層面的考慮,比如,軟件編程的問題。當(dāng) DSA 越來越專用,必須去考慮整個(gè)芯片是否合適于使用的應(yīng)用,必須有更多和行業(yè)結(jié)合的軟件,而不僅僅只是像原來一樣提供一個(gè)通用的平臺(tái)而已。而復(fù)雜異構(gòu)系統(tǒng)的編程開發(fā),在業(yè)界依舊是一個(gè)沒有完全解決好的問題。對(duì)于這樣一顆異構(gòu)芯片,我怎么去找到每個(gè)部分是否適合某個(gè)任務(wù),是手動(dòng)地劃分任務(wù)、為不同部分單獨(dú)編程再拼到一起,還是統(tǒng)一的軟件界面去編程、之后自動(dòng)映射?還有很多問題需要去解決。

  No.4  安全,是一個(gè)越來越重要的話題

  在 2018 年初,CPU 行業(yè)曝出了兩個(gè)巨大的安全漏洞,“Spectre” 和 “Meltdown”,其核心原因是因?yàn)闉榱俗非蟾玫男阅?,CPU 做了很多的優(yōu)化工作,比如分支跳轉(zhuǎn)預(yù)測(cè),和亂序執(zhí)行,而不是順序的一條一條執(zhí)行指令,執(zhí)行到了再去內(nèi)存里讀取數(shù)據(jù)。而近幾年也有一個(gè)很大的趨勢(shì),就是原來僅僅用在支付等場(chǎng)景的 https 協(xié)議,開始被越來越多的使用,大部分主流網(wǎng)站,比如常用的百度,微博,等等,已經(jīng)全站都是 https 化了。哪怕我不是一個(gè)安全方面的專家,但是我也能感受到,各方面的因素,讓 “安全” 這兩個(gè)詞變得越來越重要:我們希望在云計(jì)算上運(yùn)行的任務(wù)是安全的,我們希望存儲(chǔ)在云端的數(shù)據(jù)是安全,我們希望與服務(wù)器的通信是安全的。

6.webp.jpg

 ?。℉ot Chips 31 Tutorial 來自微軟 Azure 團(tuán)隊(duì)的報(bào)告)

5.webp.jpg

 ?。℉ot Chips 31 Tutorial 來自 AWS 團(tuán)隊(duì)的報(bào)告)

  在本次 Hot Chips 大會(huì),我們明顯也看出了各家互聯(lián)網(wǎng)公司與芯片公司對(duì)于安全的重視,并且把加密變成了產(chǎn)品流程中的重要一環(huán)。如上兩圖,在微軟的 tutorial 中,微軟介紹了自己正在開發(fā)了 Corsica 芯片,將文件的壓縮解壓縮與加解密做到了一起。AWS 的 Nitro 項(xiàng)目中,也開發(fā)了自己的安全芯片。而在 Intel 的 Optane 項(xiàng)目中,加解密也已經(jīng)融合到了存儲(chǔ)一體。

  可以想象,未來的存儲(chǔ)一定是和加解密融合到一體的。我們也可以猜想,平頭哥是不是也會(huì)做阿里自己的安全芯片?

  No.5  兩個(gè)彩蛋

  在 Hot Chips 會(huì)場(chǎng)拍攝的兩張照片,總計(jì)將四位大咖拍攝進(jìn)去了,大家都認(rèn)出來了嗎?

4.webp.jpg

3.webp.jpg

  No.6  黃漢森報(bào)告回顧:摩爾定律沒有終結(jié)

  “在互聯(lián)網(wǎng)領(lǐng)域,阿里、騰訊像兩座大山橫貫在路上,利用其強(qiáng)大的資金、技術(shù)與產(chǎn)品能力、渠道、用戶等等優(yōu)勢(shì)阻擋住了無數(shù)的創(chuàng)業(yè)公司。許多成長(zhǎng)起來的后起之秀,都是找到自己的途徑去規(guī)避巨頭的最強(qiáng)點(diǎn):京東自建物流,拼多多充分發(fā)掘下沉市場(chǎng),今日頭條用推薦引擎取代搜索引擎。在 AI 芯片領(lǐng)域,我們終于也有了類似的感受,但許多企業(yè)還做著想正面直接挑戰(zhàn)巨頭的計(jì)劃。而先進(jìn)工藝下芯片的制造成本,也成了創(chuàng)業(yè)公司很難邁過去的一道坎?!?/p>

  在 Hot Chips 31 大會(huì)觀察與思考系列文章的最后部分,我想結(jié)合 Philip Wong 老師的 Keynote,一起討論一下集成電路制造工藝演進(jìn)的問題,也想談一下我自己關(guān)于制造工藝對(duì)于 AI 芯片創(chuàng)業(yè)企業(yè)的影響。

  在去年 8 月,斯坦福大學(xué)著名教授 Philip Wong(黃漢森,以下簡(jiǎn)稱黃教授)確認(rèn)加入臺(tái)積電,擔(dān)任研究副總裁,在業(yè)界傳為佳話,讓大家覺得又是一例產(chǎn)學(xué)研結(jié)合的典型案例。黃教授多年來在存儲(chǔ)領(lǐng)域有非常深的建樹,也在碳納米管器件領(lǐng)域有著深入的研究,他的加盟毫無疑問說明 TSMC 會(huì)在存儲(chǔ)方面更下功夫。

2.webp.jpg

  黃教授一上來便拋出了他最重要的主題,他說:

  “Moore’s law is not dead, is not slowing, is even not ill. It’s well alive!”

 ?。柖蓻]有終結(jié),也沒有放緩,更沒有生病。摩爾定律活得好好的?。?/p>

  在之后,他介紹了臺(tái)積電在工藝節(jié)點(diǎn)演進(jìn)上的路線圖與展望,并且闡述了三條他認(rèn)為可以繼續(xù)延續(xù)摩爾定律的技術(shù)路徑:

  1. 系統(tǒng)集成的方式,如用 interposer 的方式將 SoC 與 DRAM 可以集成在一起,如 SiP,如 Chiplet;

  2. 更進(jìn)一步存儲(chǔ)與計(jì)算的集成,比如直接將存儲(chǔ)與計(jì)算部分在垂直方向上進(jìn)行堆疊,采用更細(xì)致和極致的堆疊方案 N3XT;

  3. 新的底層材料和技術(shù),比如碳納米管。

  特別地,他強(qiáng)調(diào)了半導(dǎo)體技術(shù)的演進(jìn),總是被不斷變化的應(yīng)用需求所引領(lǐng)的,如上個(gè)世紀(jì) 80 年代到 2000 年的 PC / 互聯(lián)網(wǎng),到 21 世紀(jì)至今的移動(dòng)互聯(lián)網(wǎng),在新的時(shí)代我們也會(huì)更多的去關(guān)注 AI 與 5G 的底層需求。

  No.7  制造工藝之于 AI 芯片

  黃老師有理有據(jù)地闡述了他的觀點(diǎn):摩爾定律很健康!然而俗話說 “屁股決定腦袋” ,他這樣說,我們就無從知道,有多少比例的原因是他正在臺(tái)積電擔(dān)任集團(tuán)研究副總裁。

1.webp.jpg

  如在 AMD CEO Lisa Su 的報(bào)告中,就已經(jīng)畫出來了工藝演進(jìn)的曲線,可以看到 10nm 與 7nm 工藝的發(fā)展速度已經(jīng)很大程度上偏離了原來的 projection。雖然系統(tǒng)級(jí)封裝,利用 Interposer 方式將 HBM 與計(jì)算部分集成到一起,大大提升了存儲(chǔ)帶寬,但是這并不是集成密度的提升。

  而芯片制造工藝對(duì)于行業(yè)影響最大的,并不只是放緩,其制造成本也有非常大的影響:對(duì)于晶圓廠和 Fabless 設(shè)計(jì)公司均是這樣。

  對(duì)于晶圓廠來說,7nm 等先進(jìn)工藝生產(chǎn)線動(dòng)輒數(shù)十億美金的投資是一筆巨大的負(fù)擔(dān)。于是我們看到,在 2018 年 8 月,第二梯隊(duì)的晶圓廠聯(lián)電、Global Foundries 先后宣布放棄 7nm 工藝。在整個(gè)市場(chǎng)上,擁有最先進(jìn)生產(chǎn)工藝的代工廠,只剩下了臺(tái)積電、Intel 和三星。

  對(duì)于 Fabless 的芯片設(shè)計(jì)公司,問題同樣巨大。對(duì)于臺(tái)積電 28nm、16nm、7nm 的芯片來說,要完成一顆芯片的量產(chǎn),其 IP 購買、MPW、量產(chǎn)的成本在數(shù)百萬美金,千萬美金,億美金以上 —— 如果考慮人員成本、設(shè)備成本等等的,這個(gè)數(shù)字還會(huì)高上不少。這就導(dǎo)致只有出貨量極大、收入極高的幾家大廠能夠負(fù)擔(dān)得起最先進(jìn)工藝。比如大家耳熟能詳?shù)穆?lián)發(fā)科,如今也只能先使用著臺(tái)積電的 12nm,而不能像高通和海思一樣使用 7nm 工藝。

  先進(jìn)制造工藝的成本問題,對(duì)于 AI 芯片創(chuàng)業(yè)公司也有很大影響。一般的 AI 芯片創(chuàng)業(yè)公司,可能只能負(fù)擔(dān)得起 28nm 工藝,或者說最開始只敢用 28nm 工藝進(jìn)行嘗試。融資足夠多的 AI 創(chuàng)業(yè)企業(yè)才能嘗試得起 16nm 工藝的生產(chǎn)費(fèi)用。在全球數(shù)十家 AI 芯片創(chuàng)業(yè)公司當(dāng)中,我只聽說過有一家敢于去使用 7nm。

  如地平線在周五發(fā)布的征程二代芯片,就是使用的臺(tái)積電 28nm 工藝(雖然 28nm HPC + 是多次改進(jìn)的版本,不展開詳細(xì)介紹),這也是大部分嵌入式 / 終端 AI 芯片目前選擇的制造工藝;在 Hot Chips 上吸引了眾多眼球的 Cerebras 與 Habana,均采用的 16nm 工藝 —— 而這也是迫不得已,因?yàn)樗麄兊膽?yīng)用場(chǎng)景在云端,必須追求極限的高性能,所以必須使用能負(fù)擔(dān)得起的最好的工藝,也必須選擇 HBM 或者更加極端的存儲(chǔ)方案(如 Cerebras 使用的 Wafer-scale engine,采用 18GB SRAM,單片成本據(jù)說在 100 萬美金左右)。

  這就導(dǎo)致一個(gè)巨大的問題:CPU 與 GPU 的競(jìng)爭(zhēng)中,CPU 并不能憑借制造工藝的優(yōu)勢(shì),來彌補(bǔ)通用性帶來的性能不足,因?yàn)槎卟o制造工藝上的代差,對(duì)于特定應(yīng)用,性能差距本來也很大;而大公司與 AI 芯片創(chuàng)業(yè)公司之間財(cái)力的差距,導(dǎo)致大公司的芯片可以選擇更先進(jìn)的制造工藝,而 AI 芯片創(chuàng)業(yè)公司卻只能負(fù)擔(dān)得起相對(duì)成熟的工藝。這樣的話,即便在體系結(jié)構(gòu)設(shè)計(jì)上,AI 芯片創(chuàng)業(yè)公司的芯片在特定任務(wù)上有數(shù)倍的優(yōu)勢(shì),也可能被制造工藝的差別給抹平。大公司可以通過制造工藝的碾壓,獲得更好的性能,再通過其通用性和原有的渠道、用戶生態(tài)的優(yōu)勢(shì),賣出更多的芯片來收回成本。

  在互聯(lián)網(wǎng)領(lǐng)域,阿里、騰訊像兩座大山橫貫在路上,利用其強(qiáng)大的資金、技術(shù)與產(chǎn)品能力、渠道、用戶等等優(yōu)勢(shì)阻擋住了無數(shù)的創(chuàng)業(yè)公司。許多成長(zhǎng)起來的后起之秀,都是找到自己的途徑去規(guī)避巨頭的最強(qiáng)點(diǎn):京東自建物流,拼多多充分發(fā)掘下沉市場(chǎng),今日頭條用推薦引擎取代搜索引擎。在 AI 芯片領(lǐng)域,我們終于也有了類似的感受,但許多企業(yè)還做著想正面直接挑戰(zhàn)巨頭的計(jì)劃。而先進(jìn)工藝下芯片的制造成本,也成了創(chuàng)業(yè)公司很難邁過去的一道坎。

  沒有機(jī)會(huì)了嗎?也不是。發(fā)掘巨頭沒有覆蓋到,但是有潛力的新市場(chǎng),也許機(jī)會(huì)正在打開,如拼多多一般;用新的底層技術(shù),如存內(nèi)計(jì)算,去獲得數(shù)量級(jí)的提升,而不是在原來傳統(tǒng)數(shù)字芯片上硬拼,就好像抖音用短視頻取代了長(zhǎng)視頻與圖片文字的社區(qū);在具體的領(lǐng)域,去做整個(gè)系統(tǒng)與產(chǎn)品層面的優(yōu)化,而不只是做芯片,提供更好的服務(wù),就如昨晚在朋友圈刷屏的 ZAO,從 DeepFake 單個(gè)算法出發(fā),做成了細(xì)節(jié)考慮充分的完整應(yīng)用;利用好不同地區(qū)之間的政策與文化的差異性,就好像滴滴在中國(guó)擊敗了 Uber。

  誰能夠跨過這道門檻,真正和巨頭們掰一掰呢?我個(gè)人看好華為與阿里平頭哥。前者有足夠多的資源,也可以排在世界前幾的的研發(fā)實(shí)力與工程能力,軟硬件都非常強(qiáng),有機(jī)會(huì)在市場(chǎng)終于被做大之后進(jìn)場(chǎng)收割;后者,在有足夠多的資源和很強(qiáng)的技術(shù)能力外,還有明確的應(yīng)用以及長(zhǎng)期的集團(tuán)戰(zhàn)略,也能在其看重的領(lǐng)域掀起波浪。而對(duì)于創(chuàng)業(yè)企業(yè),找到與巨頭的差異性,無論是細(xì)分市場(chǎng)、系統(tǒng)集成度、地區(qū)政策差異、還是底層技術(shù)變革,強(qiáng)化優(yōu)勢(shì),再拿到足夠多的資源,我相信也希望能夠跑出幾家在各自領(lǐng)域擁有相當(dāng)?shù)匚坏墓尽?/p>

  劉慈欣在《流浪地球》里寫過一個(gè)著名的謎語:“你在平原上走著走著,突然迎面遇到一堵墻,這墻向上無限高,向下無限深,向左無限遠(yuǎn),向右無限遠(yuǎn),這墻是什么?”

  對(duì)于 AI 芯片創(chuàng)業(yè)企業(yè)來說,眼前這墻真的很大,但也不是無限大。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。