今年國際固態(tài)半導(dǎo)體電路會(huì)議(ISSCC)剛剛落下帷幕。ISSCC一向是半導(dǎo)體工業(yè)界巨頭展示最新研發(fā)成果的平臺(tái)之一,在今年的會(huì)議上也是如此,我們從不少巨頭發(fā)布的研究成果中看到了他們下一步的投入方向,從中也可以看到整體半導(dǎo)體行業(yè)的未來發(fā)展動(dòng)向。
韓國半導(dǎo)體巨頭:注重前瞻性人工智能芯片的產(chǎn)業(yè)化
在本屆ISSCC上,除了DRAM等傳統(tǒng)強(qiáng)項(xiàng)之外,韓國半導(dǎo)體巨頭三星和SK Hynix最引人注目的方向可以說是人工智能相關(guān)芯片。雖然說人工智能芯片目前已經(jīng)有許多大公司在積極投入,但是大多數(shù)大公司的做法往往是要么在自己已有的相關(guān)IP上做進(jìn)一步迭代更新以滿足人工智能的需求(例如高通將Hexagon DSP進(jìn)一步拓展適配人工智能算法,Cadence將Tensilica迭代加速機(jī)器學(xué)習(xí)算法等),這么做往往是針對(duì)于這一代人工智能算法的需求做產(chǎn)品,而沒有太多前瞻性;要么是和高校一起做研發(fā),這樣通常比較偏科研性質(zhì)。而三星和SK Hynix的主要不同在于,在本屆ISSCC上發(fā)表的人工智能芯片都是自主研發(fā),并且有明確的產(chǎn)品化方案(或者已經(jīng)在進(jìn)行產(chǎn)品化),這樣兼顧下一代技術(shù)探索同時(shí)又有明確產(chǎn)品化可以說是三星在人工智能芯片的獨(dú)特之處。
在今年的ISSCC上,三星發(fā)表了一篇是關(guān)于移動(dòng)端NPU的論文,目前已經(jīng)使用在其4nm Exynos SoC中;而SK Hynix則發(fā)表了關(guān)于基于GDDR-6的DRAM存內(nèi)計(jì)算的論文,并且官方宣布將會(huì)和韓國的AI芯片公司Sapeon合作進(jìn)一步推廣GDDR存內(nèi)計(jì)算生態(tài)。
三星的NPU論文的主要關(guān)注點(diǎn)在于進(jìn)一步優(yōu)化數(shù)據(jù)流以提升計(jì)算單元利用率、優(yōu)化計(jì)算單元以覆蓋不同的計(jì)算精度、提供不同的工作模式以滿足不同功耗和性能的需求。其中第一點(diǎn)是幾乎所有NPU都要解決的問題,而在計(jì)算單元優(yōu)化方面,三星的NPU可以覆蓋INT4、INT8和FP16幾種精度,這些計(jì)算精度基本上能覆蓋移動(dòng)端人工智能算法所有的需求(例如INT4針對(duì)較為簡單的網(wǎng)絡(luò),而FP16針對(duì)較為復(fù)雜對(duì)于精度要求更高的網(wǎng)絡(luò))。另一方面,該NPU有高性能模式和低功耗模式兩種工作模式,從而滿足移動(dòng)端不同應(yīng)用場景之間的切換。從這兩點(diǎn)來看,可以說該NPU的設(shè)計(jì)確實(shí)是在覆蓋手機(jī)芯片在日常應(yīng)用中的痛點(diǎn),其優(yōu)化的方向有非常明確的實(shí)際應(yīng)用場景,可以說已經(jīng)是經(jīng)過許多實(shí)戰(zhàn)的打磨。我們認(rèn)為,三星的論文標(biāo)志著它的NPU技術(shù)說明它在產(chǎn)業(yè)化上已經(jīng)有了很深厚的積累。
韓國的另一個(gè)半導(dǎo)體巨頭SK Hynix則在今年的ISSCC上發(fā)表了基于GDDR接口的DRAM存內(nèi)計(jì)算。在人工智能應(yīng)用中,內(nèi)存訪問決定了許多模型的運(yùn)行速度,因此越來越多公司和機(jī)構(gòu)在探索存內(nèi)計(jì)算,即將計(jì)算直接在存儲(chǔ)器中運(yùn)行,這樣就省去了內(nèi)存訪問的開銷?;贒RAM的存內(nèi)計(jì)算則非常尤其適合云端和邊緣端的人工智能算法,而這次SK Hynix發(fā)表在ISSCC 2022的DRAM存內(nèi)計(jì)算(Accelerator in Memory, AiM)研究中,使用了將計(jì)算單元集成在DRAM存儲(chǔ)芯片中的架構(gòu)并完成了4Gb AiM芯片,通過DRAM控制器,該DRAM既可以做存內(nèi)計(jì)算,又可以當(dāng)作正常的DRAM來使用。論文測量結(jié)果顯示,AiM相對(duì)傳統(tǒng)的GPU+HBM2在常用機(jī)器學(xué)習(xí)模型中可以實(shí)現(xiàn)高達(dá)10倍的性能提升。我們認(rèn)為,DRAM中的存內(nèi)計(jì)算有可能會(huì)成為DRAM行業(yè)下一步的新方向,有可能會(huì)成為一個(gè)新的DRAM品類——值得注意的是,DRAM巨頭三星在去年也發(fā)布了類似的DRAM存內(nèi)計(jì)算研究和計(jì)劃,我們預(yù)計(jì)該方向?qū)?huì)在未來獲得更多的關(guān)注和投入。
臺(tái)積電:SRAM/下一代存儲(chǔ)器存內(nèi)計(jì)算成亮點(diǎn)
臺(tái)積電在人工智能方面的投入也很可觀。作為全球最大的代工廠,臺(tái)積電在人工智能領(lǐng)域的投入在本屆ISSCC上主要體現(xiàn)為帶有存內(nèi)計(jì)算的片上存儲(chǔ)器IP,包括SRAM和下一代存儲(chǔ)器(RRAM,STT-MRAM)等。在本屆ISSCC上,臺(tái)積電共合作發(fā)表了六篇關(guān)于存內(nèi)計(jì)算存儲(chǔ)器IP的論文,其中有一篇的作者全部來自臺(tái)積電,其余五篇?jiǎng)t是臺(tái)積電和臺(tái)清大和佐治亞理工等高校合作。
臺(tái)積電對(duì)于基于SRAM和下一代片上存儲(chǔ)器存內(nèi)計(jì)算研發(fā)投入的邏輯在于,基于芯片上存儲(chǔ)器的存內(nèi)計(jì)算正在目前的人工智能應(yīng)用,尤其是低功耗物聯(lián)網(wǎng)人工智能應(yīng)用中得到越來越多的關(guān)注。如前面我們分析過的,內(nèi)存訪問是人工智能模型運(yùn)行速度和能效比的決定因素,物聯(lián)網(wǎng)應(yīng)用對(duì)于能效比非常敏感,物聯(lián)網(wǎng)人工智能模型通常較小有機(jī)會(huì)可以放入SRAM和下一代片上存儲(chǔ)中,因此存內(nèi)計(jì)算非常適合這些應(yīng)用(相對(duì)而言,DRAM存內(nèi)計(jì)算更適合需要運(yùn)行大人工智能模型的云端應(yīng)用)。SRAM一向是半導(dǎo)體工藝的一個(gè)重要基準(zhǔn)(通常SRAM密度是衡量半導(dǎo)體工藝的一個(gè)重要參數(shù)),因此臺(tái)積電抓住下一代SRAM IP將對(duì)于鞏固其代工廠龍頭地位有重要作用。除此之外,RRAM這樣的下一代新興存儲(chǔ)器也在繼續(xù)發(fā)展壯大,因此對(duì)于臺(tái)積電來說也希望能抓住這樣的機(jī)會(huì)。帶有存內(nèi)計(jì)算的SRAM和下一代存儲(chǔ)器也就成為了臺(tái)積電能提供帶有差異化IP的一個(gè)重要機(jī)會(huì),因此我們看到臺(tái)積電在ISSCC上的眾多相關(guān)研究發(fā)表——這些發(fā)表的論文背后都是臺(tái)積電真金白銀的投入。
回到技術(shù)方面,本次由臺(tái)積電作為唯一作者機(jī)構(gòu)在ISSCC上發(fā)表的SRAM論文是基于其5nm工藝,其64kb的IP可以實(shí)現(xiàn)在不同計(jì)算精度(INT4 – INT8)下實(shí)現(xiàn)非常高的計(jì)算密度(55.3-221.2 TOPS/mm2)和能效比(70 – 254 TOPS/W),這也證明了臺(tái)積電在SRAM存內(nèi)計(jì)算領(lǐng)域的深厚積累(與此相對(duì)的是,三星的人工智能芯片領(lǐng)域的領(lǐng)先領(lǐng)域主要在NPU和DDR存內(nèi)計(jì)算)。而在下一代存儲(chǔ)器方面,臺(tái)積電也在和臺(tái)清大、佐治亞理工等高校合作發(fā)表了多項(xiàng)新技術(shù),涉及RRAM、STT-MRAM、相變存儲(chǔ)器等多種新存儲(chǔ)器,可見臺(tái)積電也是在多個(gè)新存儲(chǔ)器領(lǐng)域做了投入,希望能覆蓋到未來真正的主流下一代存儲(chǔ)器。
量子計(jì)算:下一代計(jì)算新范式
除了傳統(tǒng)應(yīng)用芯片之外,量子計(jì)算也是本屆ISSCC的一個(gè)亮點(diǎn)。谷歌和IBM作為在量子計(jì)算領(lǐng)域投入最多的巨頭,也在本屆ISSCC上發(fā)表了相應(yīng)的研究,其中IBM發(fā)表了一篇綜述研究,以及一篇用于量子計(jì)算控制的芯片;而谷歌則發(fā)表了一款關(guān)于其Sycamore量子計(jì)算芯片的綜述。
量子計(jì)算機(jī)到底應(yīng)用在哪里?IBM在ISSCC上發(fā)表的研究中指出,量子計(jì)算的主要目的并不是取代傳統(tǒng)通用計(jì)算機(jī),而是在一些專門的問題中(如質(zhì)因數(shù)分解,化學(xué)相關(guān)模擬計(jì)算、優(yōu)化問題)等獲得遠(yuǎn)高于傳統(tǒng)計(jì)算機(jī)算法的處理速度,這是由于量子計(jì)算的獨(dú)特特性所決定的。
量子計(jì)算和集成電路芯片有什么關(guān)系?目前看來,量子計(jì)算的核心量子位(QuBit)可以使用基于可調(diào)頻率的諧振電路,這些量子位可以使用特殊半導(dǎo)體工藝在超低溫下實(shí)現(xiàn);除此之外,另一個(gè)容易被忽略的和半導(dǎo)體芯片相關(guān)的部分是量子計(jì)算處理器的控制和讀出芯片。量子位的控制需要能產(chǎn)生高頻率的調(diào)制射頻信號(hào),而在讀出部分則需要將相關(guān)信號(hào)以較高的采樣率讀出。事實(shí)上,這些控制和讀出都和目前已有的射頻電路由較為相似的結(jié)構(gòu)(如正交變頻和可變?cè)鲆娴龋┖托枨螅ɡ绺咝旁氡龋哽`敏度等等)。谷歌在其論文中指出,控制和讀出芯片將會(huì)是量子計(jì)算機(jī)跨向下一步(即進(jìn)一步增加量子位數(shù))的關(guān)鍵,也可以說當(dāng)量子計(jì)算機(jī)成為主流時(shí),相關(guān)的控制和讀出芯片也可望會(huì)成為一個(gè)新的芯片品類市場。