幾乎就在Cerebras系統(tǒng)公司宣布采用最大的單個計算機芯片建造計算機的同時,這家硅谷創(chuàng)業(yè)公司也表達出了打造更強大處理器的意愿。2021年4月,該公司發(fā)布了新一代芯片Wafer Scale Engine 2(WSE-2),這款芯片將于今年第三季度上市。WSE-2的物理尺寸與其前一代芯片相同,但含有的各種組件數(shù)量都大幅增加。其目標是在機器學習使用的神經(jīng)網(wǎng)絡(luò)不斷增大的情況下保持領(lǐng)先。
該公司的工程和業(yè)務(wù)拓展副總裁迪拉杰?馬利克(Dhiraj Mallick)在一次聲明中說:“在人工智能計算中,大芯片為王,它們處理信息的速度更快,可在更短的時間內(nèi)得出答案,時間是人工智能進步的敵人?!?/p>
Cerebras一直在致力于將解決機器學習問題的邏輯方案發(fā)揮到極致。訓練神經(jīng)網(wǎng)絡(luò)耗時太長,2016年安德魯?費爾德曼(Andrew Feldman)創(chuàng)辦該公司時,大型神經(jīng)網(wǎng)絡(luò)的訓練需要耗時數(shù)周。其中最大的瓶頸是數(shù)據(jù)必須在處理器和外部動態(tài)隨機存取存儲器(DRAM)內(nèi)存之間來回穿梭,這既耗時又消耗能量。最初Wafer Scale Engine的發(fā)明者認為,解決這一問題的方法是制造足夠大的芯片,就在人工智能處理器核心旁容納全部所需的數(shù)據(jù)。對于自然語言處理、圖像識別和即將出現(xiàn)其他任務(wù)的巨大網(wǎng)絡(luò),我們需要一個非常大的芯片。要多大呢?越大越好,和一整塊硅晶圓(切掉一點圓邊)的尺寸差不多,即46225平方毫米。
晶圓尺寸是WSE-2與WSE相同的少數(shù)幾個數(shù)據(jù)之一,詳情見下頁表格。為了進行對比,表中也包含了英偉達的人工智能榜首芯片A100的數(shù)據(jù)。
2019年Cerebras發(fā)布WSE時,該芯片的制造商臺灣積體電路制造股份有限公司(以下簡稱臺積電,TSMC)使用的是16納米制造工藝,當時這種技術(shù)已經(jīng)有5年的歷史。如今,臺積電制造WSE-2使用的是7納米工藝,據(jù)臺積電的相關(guān)技術(shù)說明,這種工藝轉(zhuǎn)變能使速度提升約40%,功率下降60%。
費爾德曼說:“改變節(jié)點時,總會出現(xiàn)物理設(shè)計的挑戰(zhàn)。所有這一切都與幾何相關(guān)。這非常難,但我們有臺積電這個出色的合作伙伴?!?/p>
采用7納米工藝本身就是一項重大進步,不過費爾德曼還表示,該公司還在增強了人工智能核心的微體系結(jié)構(gòu)。雖然他沒有談到細節(jié),但他表示,經(jīng)過與客戶一年多的合作后,Cerebras取得了一些經(jīng)驗,并將這些經(jīng)驗應(yīng)用到新的核心。
Cerebras公司表示,其客戶在打造新的人工智能芯片方面發(fā)揮了重要的作用。目前,該公司公開的客戶包括美國國家實驗室、制藥公司葛蘭素史克和匹茲堡超級計算中心。
用WSE-2做主機的計算機系統(tǒng)名為CS-2,該系統(tǒng)使用了幾十萬個核心來訓練神經(jīng)網(wǎng)絡(luò)。軟件允許用戶使用PyTorch和TensorFlow等標準框架來編寫自己的機器學習模型。然后,其編譯器會物理連鄰的WSE-2分成不同尺寸的分區(qū),指派到神經(jīng)網(wǎng)絡(luò)的不同層。實現(xiàn)這一過程的方式是解決“布局與路由”的優(yōu)化問題,確保每一層工作都能大致同步完成,信息在網(wǎng)絡(luò)內(nèi)流動不會出現(xiàn)失速。
與前一代系統(tǒng)一樣,CS-2的體積也是標準機柜的1/3,功率約為20千瓦,依靠一個閉環(huán)液體冷卻系統(tǒng),還配備了一些大型冷卻風扇。在開發(fā)WSE的主機系統(tǒng)時,熱量一直是最大的問題。該芯片需要將約2萬安培的電流從100萬個銅接點輸送到晶圓上的玻璃纖維電路板中。當熱量使晶圓和電路板膨脹時,要保持所有組件排列對齊,這需要發(fā)明新材料。開發(fā)耗費了一年多的時間。雖然CS-2需要新的設(shè)計,但費爾德曼表示,這不需要大規(guī)模的新研發(fā)。
期待今年晚些時候能夠在客戶網(wǎng)絡(luò)上看到WSE-2的性能數(shù)據(jù)。