在之前的演講介紹中,臺積電曾多次談到了萬億晶體管的路線圖。今天,在IEEE網(wǎng)站上,發(fā)表了一篇署名為《How We’ll Reach a 1 Trillion Transistor GPU》的文章,講述了臺積電是如何達成萬億晶體管芯片的目標(biāo)。
值得一提的是,本文署名作者MARK LIU(劉德音)和H.-S. PHILIP WONG,其中劉德音是臺積電董事長。H.-S Philip Wong則是斯坦福大學(xué)工程學(xué)院教授、臺積電首席科學(xué)家。
以下為文章正文:
1997 年,IBM 深藍(lán)超級計算機擊敗了國際象棋世界冠軍Garry Kasparov。這是超級計算機技術(shù)的突破性演示,也是對高性能計算有一天可能超越人類智能水平的首次展示。在接下來的10年里,我們開始將人工智能用于許多實際任務(wù),例如面部識別、語言翻譯以及推薦電影和商品。
再過十五年,人工智能已經(jīng)發(fā)展到可以“合成知識”(synthesize knowledge)的地步。生成式人工智能,如ChatGPT和Stable Diffusion,可以創(chuàng)作詩歌、創(chuàng)作藝術(shù)品、診斷疾病、編寫總結(jié)報告和計算機代碼,甚至可以設(shè)計與人類制造的集成電路相媲美的集成電路。
人工智能成為所有人類事業(yè)的數(shù)字助手,面臨著巨大的機遇。ChatGPT是人工智能如何使高性能計算的使用民主化、為社會中的每個人帶來好處的一個很好的例子。
所有這些奇妙的人工智能應(yīng)用都?xì)w功于三個因素:高效機器學(xué)習(xí)算法的創(chuàng)新、訓(xùn)練神經(jīng)網(wǎng)絡(luò)的大量數(shù)據(jù)的可用性,以及通過半導(dǎo)體技術(shù)的進步實現(xiàn)節(jié)能計算的進步。盡管它無處不在,但對生成式人工智能革命的最后貢獻卻沒有得到應(yīng)有的認(rèn)可。
在過去的三十年里,人工智能的重大里程碑都是由當(dāng)時領(lǐng)先的半導(dǎo)體技術(shù)實現(xiàn)的,沒有它就不可能實現(xiàn)。Deep Blue 采用 0.6 微米和 0.35 微米節(jié)點芯片制造技術(shù)的混合實現(xiàn);贏得 ImageNet 競賽的深度神經(jīng)網(wǎng)絡(luò)并開啟了當(dāng)前機器學(xué)習(xí)時代的設(shè)備使了用 40 納米技術(shù)打造的芯片;AlphaGo 使用 28 納米技術(shù)征服了圍棋游戲;ChatGPT 的初始版本是在采用 5 納米技術(shù)構(gòu)建的計算機上進行訓(xùn)練的。;ChatGPT 的最新版本由使用更先進的4 納米技術(shù)的服務(wù)器提供支持。所涉及的計算機系統(tǒng)的每一層,從軟件和算法到架構(gòu)、電路設(shè)計和設(shè)備技術(shù),都充當(dāng)人工智能性能的乘數(shù)。但可以公平地說,基礎(chǔ)晶體管器件技術(shù)推動了上面各層的進步。
如果人工智能革命要以目前的速度繼續(xù)下去,它將需要半導(dǎo)體行業(yè)做出更多貢獻。十年內(nèi),它將需要一個 1 萬億晶體管的 GPU,也就是說,GPU 的設(shè)備數(shù)量是當(dāng)今典型設(shè)備數(shù)量的 10 倍。
AI 模型大小的不斷增長,讓人工智能訓(xùn)練所需的計算和內(nèi)存訪問在過去五年中增加了幾個數(shù)量級。例如,訓(xùn)練GPT-3需要相當(dāng)于一整天每秒超過 50 億次的計算操作(即 5,000 petaflops /天),以及 3 萬億字節(jié) (3 TB) 的內(nèi)存容量。
新的生成式人工智能應(yīng)用程序所需的計算能力和內(nèi)存訪問都在持續(xù)快速增長。我們現(xiàn)在需要回答一個緊迫的問題:半導(dǎo)體技術(shù)如何跟上步伐?
從集成器件到集成小芯片
自集成電路發(fā)明以來,半導(dǎo)體技術(shù)一直致力于縮小特征尺寸,以便我們可以將更多晶體管塞進縮略圖大小的芯片中。如今,集成度已經(jīng)上升了一個層次;我們正在超越 2D 縮放進入3D 系統(tǒng)集成。我們現(xiàn)在正在將許多芯片組合成一個緊密集成、大規(guī)?;ミB的系統(tǒng)。這是半導(dǎo)體技術(shù)集成的范式轉(zhuǎn)變。
在人工智能時代,系統(tǒng)的能力與系統(tǒng)中集成的晶體管數(shù)量成正比。主要限制之一是光刻芯片制造工具被設(shè)計用于制造不超過約 800 平方毫米的 IC,即所謂的光罩限制(reticle limit)。但我們現(xiàn)在可以將集成系統(tǒng)的尺寸擴展到光刻掩模版極限之外。通過將多個芯片連接到更大的中介層(一塊內(nèi)置互連的硅片)上,我們可以集成一個系統(tǒng),該系統(tǒng)包含的設(shè)備數(shù)量比單個芯片上可能包含的設(shè)備數(shù)量要多得多。例如,臺積電的CoWoS(chip-on-wafer-on-substrate )技術(shù)就可以容納多達六個掩模版區(qū)域的計算芯片,以及十幾個高帶寬內(nèi)存(HBM)芯片。
CoWoS是臺積電的硅晶圓上芯片先進封裝技術(shù),目前已在產(chǎn)品中得到應(yīng)用。示例包括 Nvidia Ampere 和 Hopper GPU。當(dāng)中每一個都由一個 GPU 芯片和六個高帶寬內(nèi)存立方體組成,全部位于硅中介層上。計算 GPU 芯片的尺寸大約是芯片制造工具當(dāng)前允許的尺寸。Ampere有540億個晶體管,Hopper有800億個。從 7 納米技術(shù)到更密集的 4 納米技術(shù)的轉(zhuǎn)變使得在基本相同的面積上封裝的晶體管數(shù)量增加了 50%。Ampere 和 Hopper 是當(dāng)今大型語言模型 ( LLM ) 訓(xùn)練的主力。訓(xùn)練 ChatGPT 需要數(shù)萬個這樣的處理器。
HBM 是對 AI 日益重要的另一項關(guān)鍵半導(dǎo)體技術(shù)的一個例子:通過將芯片堆疊在一起來集成系統(tǒng)的能力,我們在臺積電稱之為SoIC (system-on-integrated-chips) 。HBM 由控制邏輯 IC頂部的一堆垂直互連的 DRAM 芯片組成。它使用稱為硅通孔 (TSV) 的垂直互連來讓信號通過每個芯片和焊料凸點以形成存儲芯片之間的連接。如今,高性能 GPU廣泛使用 HBM 。
展望未來,3D SoIC 技術(shù)可以為當(dāng)今的傳統(tǒng) HBM 技術(shù)提供“無凸塊替代方案”(bumpless alternative),在堆疊芯片之間提供更密集的垂直互連。最近的進展表明,HBM 測試結(jié)構(gòu)采用混合鍵合技術(shù)堆疊了 12 層芯片,這種銅對銅連接的密度高于焊料凸塊所能提供的密度。該存儲系統(tǒng)在低溫下粘合在較大的基礎(chǔ)邏輯芯片之上,總厚度僅為 600 μm。
對于由大量運行大型人工智能模型的芯片組成的高性能計算系統(tǒng),高速有線通信可能會很快限制計算速度。如今,光學(xué)互連已被用于連接數(shù)據(jù)中心的服務(wù)器機架。我們很快就會需要基于硅光子學(xué)的光學(xué)接口,并與 GPU 和 CPU 封裝在一起。這將允許擴大能源效率和面積效率的帶寬,以實現(xiàn)直接的光學(xué) GPU 到 GPU 通信,這樣數(shù)百臺服務(wù)器就可以充當(dāng)具有統(tǒng)一內(nèi)存的單個巨型 GPU。
由于人工智能應(yīng)用的需求,硅光子將成為半導(dǎo)體行業(yè)最重要的使能技術(shù)之一。
邁向萬億晶體管 GPU
如前所述,用于 AI 訓(xùn)練的典型 GPU 芯片已經(jīng)達到了標(biāo)線區(qū)域極限(reticle field limit)。他們的晶體管數(shù)量約為1000億個。晶體管數(shù)量增加趨勢的持續(xù)將需要多個芯片通過 2.5D 或 3D 集成互連來執(zhí)行計算。通過 CoWoS 或 SoIC 以及相關(guān)的先進封裝技術(shù)集成多個芯片,可以使每個系統(tǒng)的晶體管總數(shù)比壓縮到單個芯片中的晶體管總數(shù)大得多。如AMD MI 300A 就是采用這樣的技術(shù)制造的。
AMD MI300A 加速處理器單元不僅利用了CoWoS,還利用了臺積電的 3D 技術(shù)SoIC。MI300A結(jié)合了 GPU 和 CPU內(nèi)核,旨在處理最大的人工智能工作負(fù)載。GPU為AI執(zhí)行密集的矩陣乘法運算,而CPU控制整個系統(tǒng)的運算,高帶寬存儲器(HBM)統(tǒng)一為兩者服務(wù)。采用 5 納米技術(shù)構(gòu)建的 9 個計算芯片堆疊在 4 個 6 納米技術(shù)基礎(chǔ)芯片之上,這些芯片專用于緩存和 I/O 流量。基礎(chǔ)芯片和 HBM 位于硅中介層之上。處理器的計算部分由 1500 億個晶體管組成。
我們預(yù)測,十年內(nèi),多芯片 GPU 將擁有超過 1 萬億個晶體管。
我們需要在 3D 堆棧中將所有這些小芯片連接在一起,但幸運的是,業(yè)界已經(jīng)能夠快速縮小垂直互連的間距,從而增加連接密度。而且還有足夠的空間容納更多。我們認(rèn)為互連密度沒有理由不能增長一個數(shù)量級,甚至更高。
GPU 的節(jié)能性能趨勢
那么,所有這些創(chuàng)新的硬件技術(shù)如何提高系統(tǒng)的性能呢?
如果我們觀察一個稱為節(jié)能性能的指標(biāo)的穩(wěn)步改進,我們就可以看到服務(wù)器 GPU 中已經(jīng)存在的趨勢。EEP 是系統(tǒng)能源效率和速度(the energy efficiency and speed of a system)的綜合衡量標(biāo)準(zhǔn)。過去 15 年來,半導(dǎo)體行業(yè)的能效性能每兩年就提高了三倍左右。我們相信這一趨勢將以歷史速度持續(xù)下去。它將受到多方面創(chuàng)新的推動,包括新材料、器件和集成技術(shù)、極紫外(EUV)光刻、電路設(shè)計、系統(tǒng)架構(gòu)設(shè)計以及所有這些技術(shù)元素的共同優(yōu)化等。
特別是,EEP 的增加將通過我們在此討論的先進封裝技術(shù)來實現(xiàn)。此外,系統(tǒng)技術(shù)協(xié)同優(yōu)化 (STCO:system-technology co-optimization)等概念將變得越來越重要,其中 GPU 的不同功能部分被分離到各自的小芯片上,并使用性能最佳和最經(jīng)濟的技術(shù)來構(gòu)建每個部分。
3D 集成電路的Mead-Conway時刻
1978年,加州理工學(xué)院教授Carver Mead和施樂帕洛阿爾托研究中心的Lynn Conway發(fā)明了集成電路的計算機輔助設(shè)計方法。他們使用一組設(shè)計規(guī)則來描述芯片縮放,以便工程師可以輕松設(shè)計超大規(guī)模集成(VLSI)電路,而無需了解太多工藝技術(shù)。
3D 芯片設(shè)計也需要同樣的功能。如今,設(shè)計人員需要了解芯片設(shè)計、系統(tǒng)架構(gòu)設(shè)計以及硬件和軟件優(yōu)化。制造商需要了解芯片技術(shù)、3D IC技術(shù)和先進封裝技術(shù)。正如我們在 1978 年所做的那樣,我們再次需要一種通用語言,以電子設(shè)計工具可以理解的方式描述這些技術(shù)。這種硬件描述語言使設(shè)計人員可以自由地進行 3D IC 系統(tǒng)設(shè)計,而無需考慮底層技術(shù)。它正在路上:一種名為3Dblox 的開源標(biāo)準(zhǔn)已被當(dāng)今大多數(shù)技術(shù)公司和電子設(shè)計自動化 (EDA) 公司所接受。
隧道之外的未來
在人工智能時代,半導(dǎo)體技術(shù)是人工智能新能力和應(yīng)用的關(guān)鍵推動者。新的 GPU 不再受過去的標(biāo)準(zhǔn)尺寸和外形尺寸的限制。新的半導(dǎo)體技術(shù)不再局限于在二維平面上縮小下一代晶體管。集成人工智能系統(tǒng)可以由盡可能多的節(jié)能晶體管、用于專門計算工作負(fù)載的高效系統(tǒng)架構(gòu)以及軟件和硬件之間的優(yōu)化關(guān)系組成。
過去 50 年來,半導(dǎo)體技術(shù)的發(fā)展就像走在隧道里一樣。前面的路很清晰,因為有一條明確的道路。每個人都知道需要做什么:縮小晶體管。
現(xiàn)在,我們已經(jīng)到達隧道的盡頭。從這里開始,半導(dǎo)體技術(shù)將變得更加難以發(fā)展。然而,在隧道之外,還有更多的可能性。我們不再受過去的束縛。