全球產(chǎn)業(yè)數(shù)位化,數(shù)位資料規(guī)模攀升,加上AI技術(shù)興起,全球?qū)Y料處理、大數(shù)據(jù)分析與AI應(yīng)用的需求快速增長,間接提高對支援高效能運(yùn)算(HPC)與AI運(yùn)算的硬體裝置及芯片要求。以云端資料中心伺服器來說,HPC與AI運(yùn)算需求下,需要搭配升級的芯片包含作為運(yùn)算核心的中央處理器(CPU)與圖形處理器(GPU)、伺服器基板管理芯片(BMC)、電源管理芯片(PMIC)、高速傳輸芯片,以及存儲等。
其中,存儲除用于長期儲存資料、屬于非揮發(fā)性存儲的NAND Flash固態(tài)硬盤(SSD),也包含用于即時(shí)高速運(yùn)算暫存資料、屬于揮發(fā)性存儲的靜態(tài)隨機(jī)存取存儲(SRAM)與動(dòng)態(tài)隨機(jī)存取存儲(DRAM)。
存儲在芯片運(yùn)算過程中的主要作用,是暫存運(yùn)算過程中的中間值或參數(shù)。傳統(tǒng)的暫存用存儲可區(qū)分為芯片內(nèi)部的快閃(Cache)存儲與外部連接的DRAM。隨著運(yùn)算效能持續(xù)提升,芯片對內(nèi)部與外部存儲的容量與資料存取速率要求提高,特別是內(nèi)部Cache存儲。在封裝的空間尺寸有限下,將小芯片(Chiplet)透過先進(jìn)封裝在單一芯片內(nèi)形成更高密度的堆疊整合,成為提高芯片內(nèi)部存儲容量的重要選項(xiàng)。
先進(jìn)封裝技術(shù)發(fā)展針對芯片運(yùn)算效能與功能持續(xù)提升的需求,透過中介層、矽穿孔與微凸塊等技術(shù)達(dá)成2.5D/3D的小芯片堆疊,使業(yè)者能在更小空間內(nèi)達(dá)成更多運(yùn)算單元與芯片功能整合。超微(AMD)的Ryzen 7 5800X3D芯片就是存儲小芯片與CPU堆疊整合的例子:透過在CPU上方堆疊64MB的SRAM存儲小芯片,將CPU原本32MB的Cache存儲擴(kuò)充為96MB,使CPU運(yùn)算效能提升15%。
不過,用于HPC或AI運(yùn)算的高階GPU芯片,如英偉達(dá)(NVIDIA)的H100與超微的MI300,其主要運(yùn)算架構(gòu)是以GPU運(yùn)算核心搭配可快速大量存取傳輸資料的高頻寬存儲( HBM ),二者透過先進(jìn)封裝技術(shù),也就是臺積電的CoWoS 2.5D封裝技術(shù)在中介層上整合連接。
HBM是超微與存儲大廠SK海力士、聯(lián)電、日月光等伙伴合作開發(fā),SK海力士在2015年量產(chǎn)第一代HBM(HBM1),導(dǎo)入超微Radeon Rx300 GPU芯片。隨后南韓與存儲大廠Samsung Electronics與Micron Technology也投入HBM開發(fā)。其主要結(jié)構(gòu)是由多層DRAM存儲小芯片形成的高容量存儲垂直堆疊,最下層是HBM的控制芯片。堆疊中上一層DRAM與下一層DRAM間的訊號透過微凸塊連接,而上一層DRAM的訊號可穿過下一層DRAM的矽穿孔與更下層的DRAM甚至最下層的控制芯片連接,再向下傳遞至基板。垂直堆疊的短距離確保層與層間的訊號傳輸快速且耗能低,間接提升運(yùn)算效能。
在CoWoS架構(gòu)下,GPU運(yùn)算核心可搭配多個(gè)HBM堆疊。目前全球已發(fā)展到HBM3的最新規(guī)格,在HBM堆疊數(shù)、垂直堆疊層數(shù)及層間訊號連接通道數(shù)都有增加;如從HBM2到HBM3,堆疊數(shù)可從八個(gè)增至16個(gè),有效提升存儲的資料容量與存取傳輸速率。
HBM主要是搭配GPU這類高運(yùn)算效能芯片,本身主要結(jié)構(gòu)采用3D堆疊的先進(jìn)封裝制作,再以CoWoS先進(jìn)封裝與GPU運(yùn)算核心整合,形成完整的GPU芯片。若非GPU采用7奈米以下先進(jìn)制程制作,是屬于高單價(jià)產(chǎn)品,要以先進(jìn)封裝整合HBM的芯片生產(chǎn)成本是難以承受。在超微Ryzen 7 5800X3D芯片的例子中,CPU上方堆疊SRAM小芯片,為提高存儲容量,也需以先進(jìn)制程制作SRAM,成本高昂。
針對智能物聯(lián)網(wǎng)(AIoT)應(yīng)用所需中等算力需求,有半導(dǎo)體業(yè)者提出非先進(jìn)制程運(yùn)算芯片搭配客制化DRAM存儲的解決方案,將存儲與運(yùn)算芯片以3D封裝垂直堆疊。所謂的客制化DRAM存儲,是根據(jù)運(yùn)算芯片的電路與內(nèi)連線的接觸電極分布,設(shè)計(jì)出DRAM芯片的電路與資料存取傳輸通道位置,使運(yùn)算芯片與垂直堆疊的DRAM小芯片之間能有高效率的資料存取傳輸,以提升運(yùn)算效能。運(yùn)算芯片是以AIoT應(yīng)用所需的單芯片(SoC)或特殊應(yīng)用芯片(ASIC)為主,而DRAM高于SRAM的存儲密度,讓DRAM小芯片在不采用先進(jìn)制程下可擁有相當(dāng)于SRAM小芯片的容量,也是成本優(yōu)勢。
有存儲業(yè)者與晶圓代工業(yè)者、封測業(yè)者、IC設(shè)計(jì)業(yè)者合作,構(gòu)建解決方案平臺,依照應(yīng)用需求,完成ASIC、DRAM以及二者封裝連接與散熱等需求的完整設(shè)計(jì)。無論是ASIC與DRAM都采用成熟制程制作,相較HBM、SRAM與先進(jìn)制程運(yùn)算芯片的組合,成本降低,可因應(yīng)應(yīng)用開發(fā)業(yè)者對成本結(jié)構(gòu)的要求。
因應(yīng)日漸增加的AI應(yīng)用,存儲以小芯片或HBM等不同的樣態(tài),可透過先進(jìn)封裝技術(shù)與運(yùn)算芯片形成單一芯片封裝,支持不同類型的運(yùn)算需求,也促成半導(dǎo)體產(chǎn)業(yè)鏈跨領(lǐng)域多元整合的生態(tài)體系發(fā)展。