用一片12吋晶圓產(chǎn)出一顆芯片,這簡直就是暴殄天物。要知道一片12吋晶圓目前大客戶的合約單價(jià)也能達(dá)到100美元以上,興建一條12吋晶圓產(chǎn)線更是需要超過200億元人民幣。也有業(yè)內(nèi)人士這樣點(diǎn)評:最大芯片是怎么來的?它的尺寸是因?yàn)楝F(xiàn)在量產(chǎn)晶圓最大就這么大,晶體管數(shù)量是因?yàn)?6nm只能夠放進(jìn)去這么多。
難道,史上最大的芯片就是博眾人眼球的作品。然而,當(dāng)你知道這個每邊長大約9英寸的芯片能夠?qū)崿F(xiàn)什么的時候,可能你又會覺得這樣做也不是不可以。
史上最大芯片誕生
根據(jù)外媒的報(bào)道,這顆大芯片采用臺積電16nm制程制造,面積42225 平方毫米,擁有1.2萬億個晶體管,400000 個核心,片上內(nèi)存18 Gigabytes,內(nèi)存帶寬19 PByte/s,fabric帶寬100 Pbit/s。它就是近幾天火爆網(wǎng)絡(luò)的史上最大芯片Cerebras Wafer Scale Engine(以下簡稱:Cerebras WSE)。
Cerebras WSE由人工智能初創(chuàng)公司Cerebras Systems(以下簡稱:Cerebras)推出,該公司成立于2016年,并在當(dāng)年拿到了來自于Benchmark的2500萬美元的A輪投資。值得一提的是,有機(jī)構(gòu)在2017年全球五大值得關(guān)注的AI芯片公司榜單中就列舉了Cerebras。
Cerebras的創(chuàng)始人是芯片業(yè)界的老兵——50歲的Andrew Feldman,他也是這家公司的CEO。瀏覽他的過往履歷會發(fā)現(xiàn),他還曾參與創(chuàng)立小型服務(wù)器公司SeaMicro,同樣出任CEO,后來這個公司賣給了AMD,作價(jià)3.34億美元。此后,Andrew Feldman在AMD做了兩年半的副總裁。
準(zhǔn)確地說,Cerebras帶有一定的光環(huán),但并不耀眼,如果不是這個史上最大芯片的出現(xiàn)甚至可以說有一點(diǎn)名不見經(jīng)傳。但是,隨著Cerebras WSE發(fā)布之后,全球芯片界都在關(guān)注這顆芯片、這家公司,甚至是這家公司的員工。
和我們過往習(xí)慣的“摩爾定律”相反,這顆芯片走向了另一個“極端”,試想如果晶圓尺寸允許,可能它的邊長甚至?xí)^9英寸。當(dāng)然這只是設(shè)想。
如此巨大的芯片能夠干什么呢?
首先是算力的大幅度提升。讓我們重溫一下這些恐怖的數(shù)字:1.2 萬億個晶體管和400000 個核心。如果以純數(shù)字論來說,前一個數(shù)字并不是目前最高的,三星在實(shí)現(xiàn)閃存芯片eUFS時做到了2萬億個的數(shù)量。區(qū)別在于Cerebras WSE專為流程加工而設(shè)計(jì),以能夠讓400000個核心高性能運(yùn)轉(zhuǎn),它就是一個超級計(jì)算機(jī)。讓人吃驚的一點(diǎn)是,Cerebras不僅給了Cerebras WSE更多的AI核心,并且在計(jì)算方式上也高人一籌,芯片內(nèi)部采用的稀疏線性代數(shù)核(Sparse Linear Algebra Cores, SLAC),永遠(yuǎn)不會乘以零,這讓算力得到了更充分的利用。Feldman表示,Cerebras WSE訓(xùn)練AI系統(tǒng)的速度可以比現(xiàn)有硬件快100到1000倍。
當(dāng)然,Cerebras WSE不僅是算的更快,而且其存儲性能也是和算力匹配的,高于目前主流GPU內(nèi)存性能的3000倍。片上內(nèi)存18 Gigabytes的威力可見一斑。再配備以19 PByte/s的內(nèi)存帶寬,這讓該芯片不僅存的夠多,也存的夠快。
針對目前AI行業(yè)飽受詬病的延遲問題,這顆芯片也給出更優(yōu)解。Cerebras WSE通過Swarm通信結(jié)構(gòu)連接在一個帶有100 Pb/s帶寬的2D網(wǎng)格中。對于每個神經(jīng)網(wǎng)絡(luò),Swarm提供獨(dú)特且優(yōu)化的通信路徑。因此,該芯片也具備更出色的高帶寬和低延遲性能。
對于史上最大芯片的發(fā)布,國內(nèi)外科技愛好者都是一片叫好。
Linley Group首席分析師Linley Gwennap表示:“Cerebras憑借其晶圓級技術(shù)實(shí)現(xiàn)了巨大的飛躍,在單片硅上實(shí)現(xiàn)了比任何人想象的更多的處理性能?!?/p>
Tirias Research首席分析師兼創(chuàng)始人Jim McGregor講到:“隨著人工智能的發(fā)展,硅和平臺解決方案也在不斷發(fā)展。Cerebras WSE是半導(dǎo)體和平臺設(shè)計(jì)領(lǐng)域令人驚嘆的工程成就,可在單晶圓級解決方案中提供超級計(jì)算機(jī)的計(jì)算,高性能存儲器和帶寬?!?/p>
專用處理器和SoC架構(gòu)師唐杉興奮地說:“膜拜一下Cerebras的巨型芯片,每邊大約9英寸,22cm。我記得我之前寫文章還畫過一個類似的對比圖。[機(jī)智]Wired的文章,看來Cerebras要走到前臺了?!?/p>
……
大芯片并不是突發(fā)奇想
將芯片做大并不是Cerebras的首創(chuàng),早在上世紀(jì)七八十年代就已經(jīng)有人開始做這方面的嘗試了。
1980年成立的Trilogy當(dāng)時拿著2.3億美元的資金做超大芯片,不過由于難度過大,該項(xiàng)目僅僅持續(xù)了5年時間。
近一兩年,半導(dǎo)體產(chǎn)業(yè)信賴的“摩爾定律”進(jìn)展遲緩之后,先進(jìn)封裝工藝和超大芯片都開始被重點(diǎn)關(guān)注,且都取得了一定的成果。
大家一定對一年半以前的英偉達(dá)GTC(GPU Technology Conference)大會記憶猶新,因?yàn)榫褪沁@場盛會,讓我們有幸見證了史上最大、最貴GPU的誕生。這款GPU的名字是Nvidia DGX-2。
DGX-2雙板總計(jì)16塊GPU,總計(jì)512GB HBM2 存儲,具有12個NVSwitch。DGX-2 的算力可達(dá) 2 千萬億次浮點(diǎn)運(yùn)算,功耗 10 千瓦。當(dāng)然,這樣做的成本也是高昂的,這個最大的GPU售價(jià)達(dá)到了39.9萬美元。
對于英偉達(dá)DGX-2的發(fā)布,英偉達(dá)CEO黃仁勛表示:“人生完整了?!?/p>
顯然,市場對于英偉達(dá)發(fā)布的最大GPU并不買賬,發(fā)布會之后英偉達(dá)股價(jià)跌幅達(dá)到了6.64%。
說完最大的GPU,我們看一下最大的FPGA。就在幾天前,各大FPGA粉絲群里面有一個新聞刷屏了,那就是賽靈思推出了史上最大的FPGA芯片“Virtex UltraScale+ VU19P”。該芯片擁有多達(dá)350億個晶體管,密度在同類產(chǎn)品中也是最大的,相比上代Virtex UltraScale VU440增大了1.6倍,而功耗降低了60%。從晶體管數(shù)量來看,超過了AMD 64核心的二代霄龍和英偉達(dá)GV100。
馬克杯口大小的FPGA,汽車后備箱大小、重大300斤的GPU,還有就是一片晶圓一顆芯片的Cerebras WSE。到底是什么在驅(qū)動芯片越做越大?
尋覓通用人工智能的硬件最優(yōu)解
不管是各界人士的評論里,還是產(chǎn)品的介紹里,最大芯片們都有一個共同的標(biāo)簽,那就是人工智能。
是的,人工智能出來了許多年,也火了許多年。但是,現(xiàn)在的人工智能讓很多地方政府和投資機(jī)構(gòu)覺得像“雞肋”,實(shí)在是食之無味,棄之可惜。造成這一局面的一個很重要的原因在于,當(dāng)算法在不斷精進(jìn)的過程中,芯片性能開始滯后,應(yīng)對單一領(lǐng)域計(jì)算已經(jīng)乏力,更不要說什么通用人工智能了。
當(dāng)前的AI芯片的設(shè)計(jì)思想主要有三大類。分別是專用于機(jī)器學(xué)習(xí)的加速芯片;類腦仿生芯片;可高效計(jì)算各類人工智能算法的通用AI芯片。
GPU和FPGA性能的不斷提升,以及TPU、NPU和ASIC的出現(xiàn)讓機(jī)器學(xué)習(xí)方面應(yīng)用有了快速發(fā)展,已經(jīng)實(shí)現(xiàn)了部分落地場景。而在類腦芯片和通用AI芯片方面遲遲沒有動靜,因此,Cerebras WSE的出現(xiàn)確實(shí)讓人們看到了曙光。
理想的AI芯片需要具備高度并行的處理能力,能夠支持各種數(shù)據(jù)長度的按位、固定和浮點(diǎn)計(jì)算,芯片本身具有高端帶、低延遲,在核心計(jì)算單元和內(nèi)存之間有豐富的鏈接,在實(shí)現(xiàn)高性能運(yùn)算的情況下兼?zhèn)涞凸牡奶攸c(diǎn)。并且,這樣的芯片還要低成本。
在Cerebras WSE出現(xiàn)之前,雖然英偉達(dá)推出了大型GPU這樣的產(chǎn)品,但是大家對于實(shí)現(xiàn)通用AI更為認(rèn)可的方式是可重構(gòu)架構(gòu)設(shè)計(jì)。通過這種架構(gòu)設(shè)計(jì)的可重構(gòu)芯片具備軟件、硬件雙編程的特性,硬件架構(gòu)和功能隨軟件變化而實(shí)時動態(tài)變化,因而又被稱為軟件定義芯片??芍貥?gòu)芯片的基礎(chǔ)思路是通過找到數(shù)據(jù)間的依賴關(guān)系,然后通過這種關(guān)系進(jìn)行實(shí)踐切割,然后對計(jì)算進(jìn)行分配,最終實(shí)現(xiàn)資源的復(fù)用。
可重構(gòu)芯片的基礎(chǔ)架構(gòu)
目前,可重構(gòu)芯片應(yīng)用到的技術(shù)主要有計(jì)算陣列重構(gòu)、存儲帶寬重構(gòu)和數(shù)據(jù)位寬重構(gòu)。通過采用上述技術(shù),軟件定義的層面不僅僅局限于功能這一層面,算法的計(jì)算精度、性能和能效等都可以納入軟件定義的范疇。
在可重構(gòu)芯片領(lǐng)域,目前主要玩家包括傳統(tǒng)芯片公司英特爾和賽靈思,還有初創(chuàng)公司Cerebras、Wave computing、寒武紀(jì)、比特大陸等。
是的,你沒有看錯,Cerebras同樣是可重構(gòu)芯片的玩家之一。不過,Cerebras WSE的價(jià)值絕不僅僅是可重構(gòu),其在芯片設(shè)計(jì)和芯片制造方面都有里程碑的意義。
在芯片設(shè)計(jì)方面,Cerebras WSE絕對算是一次大膽且成功的嘗試。單一芯片上做大規(guī)模的計(jì)算核心集成,節(jié)省了芯片之間傳輸?shù)臅r間和功耗,這樣的方式比傳統(tǒng)在數(shù)據(jù)中心做訓(xùn)練明顯更經(jīng)濟(jì)實(shí)惠,不僅大大提升了訓(xùn)練的效率,成本也有望降低。另外,其內(nèi)部核心不做乘零運(yùn)算,給予當(dāng)前的AI芯片以提示,大大縮減了模型訓(xùn)練的時間,這對于當(dāng)前的人工智能產(chǎn)業(yè)而言價(jià)值非凡。
在芯片制造方面,臺積電在這顆史上最大芯片面世過程中同樣居功至偉。臺積電高級副總裁Brad Paulsen表示,臺積電調(diào)整其設(shè)備以進(jìn)行一次連續(xù)設(shè)計(jì),而不是多個獨(dú)立設(shè)計(jì)的網(wǎng)格,從而從300毫米的晶圓上,切割下來一個最大的正方形來做芯片。是的,有了臺積電的鼎力支持才會有這顆史上最大芯片,同時也掀開了晶圓代工的新篇章。
Cerebras用最大芯片給通用AI芯片設(shè)計(jì)提供了一個全新的思路,當(dāng)材料和設(shè)備的物理極限難以突破時,放大芯片的尺寸在大規(guī)模運(yùn)算中不失為一種好方法。不過,就算有可重構(gòu)的計(jì)算方法,Cerebras WSE也僅僅是作為多種算法的兼容,并不能讓基于一種數(shù)據(jù)經(jīng)過訓(xùn)練后得到的模型同時適應(yīng)多種應(yīng)用場景,這還需要算法上面做攻關(guān)。
當(dāng)然,Cerebras WSE肯定不是完美的。首先第一個要解決的問題就是散熱問題,不管是芯片做高,還是芯片做大,散熱都是共同的難題;其次是生態(tài)問題,打破常規(guī)的芯片就需要打破常規(guī)的系統(tǒng)和機(jī)器;第三是算力分配問題,當(dāng)年聯(lián)發(fā)科“一核有難,多核圍觀”的窘境相信很多人都還記得,40萬個內(nèi)核如何協(xié)調(diào)工作是個大問題;最后是時序問題,如此巨大的芯片如何能夠做到信號傳輸不延遲。
總結(jié)
誠然,我們對于Cerebras WSE的商用還有諸多疑問,它的散熱、生態(tài)、時序等等。但是,我們不得不說,這顆芯片是超越摩爾定律路線上濃墨重彩的一筆,在AI大數(shù)據(jù)并行的應(yīng)用場景中也獨(dú)具優(yōu)勢。我們期待有一個通用的AI芯片有朝一日能夠像CPU一樣通用,搭載著更先進(jìn)的算法跑在我們身邊的智能設(shè)備中。
無論如何,Cerebras WSE都將成為世界芯片發(fā)展史上的一座里程碑。