近日,阿里達摩院近日成功研發(fā)新型架構芯片。該芯片是全球首款基于DRAM的3D鍵合堆疊存算一體AI芯片,可突破馮·諾依曼架構的性能瓶頸,滿足人工智能等場景對高帶寬、高容量內存和極致算力的需求。在特定AI場景中,該芯片性能提升10倍以上,能效比提升高達300倍。
所謂“存算一體AI芯片”,是指將傳統(tǒng)以計算為中心的架構轉變?yōu)橐詳?shù)據(jù)為中心的架構,其直接利用存儲器進行數(shù)據(jù)處理,從而把數(shù)據(jù)存儲與計算融合在同一芯片中,極大提高計算并行度與能量效率,特別適用于深度學習神經(jīng)網(wǎng)絡領域,如可穿戴設備、移動設備、智能家居等場景。
這一技術最早可追溯至20世紀60年代,斯坦福研究所的Kautz等人于1969年提出了存算一體計算機概念,后續(xù)研究主要圍繞芯片電路、計算架構、操作系統(tǒng)、系統(tǒng)應用等層面展開,如加州大學伯克利分校Patterson等人成功把處理器集成在DRAM內存芯片當中,實現(xiàn)智能存算一體的計算架構。但受限于芯片設計復雜度與制造成本問題,以及缺少大數(shù)據(jù)應用驅動,早期的存算一體僅停留在研究階段,并未得到實際應用。
此次阿里達摩院研發(fā)的存算一體芯片集成了多個創(chuàng)新型技術,是全球首款使用混合鍵合3D堆疊技術實現(xiàn)存算一體的芯片。該芯片內存單元采用異質集成嵌入式DRAM(SeDRAM),擁有超大帶寬、超大容量等特點;計算單元方面,達摩院研發(fā)設計了流式的定制化加速器架構,對推薦系統(tǒng)進行“端到端”的加速,包括匹配、粗排序、神經(jīng)網(wǎng)絡計算、細排序等任務。
得益于整體架構的創(chuàng)新,達摩院存算一體芯片同時實現(xiàn)了高性能和低系統(tǒng)功耗。在實際推薦系統(tǒng)應用中,相比傳統(tǒng)CPU計算系統(tǒng),存算一體芯片的性能提升10倍以上,能效提升超過300倍。該技術的研究成果已被芯片領域頂級會議ISSCC 2022收錄,未來可應用于VR/AR、無人駕駛、天文數(shù)據(jù)計算、遙感影像數(shù)據(jù)分析等場景。
國內外研究進展如何?
近年來,隨著物聯(lián)網(wǎng)、人工智能等應用領域的興起,技術得到國內外學術界與產(chǎn)業(yè)界的廣泛研究與應用。2016年,美國加州大學圣塔芭芭拉分校(UCSB)的謝源教授團隊提出利用RRAM構建基于存算一體架構的深度學習神經(jīng)網(wǎng)絡(PRIME),受到業(yè)界的廣泛關注。測試結果表明,與基于馮·諾依曼計算架構的傳統(tǒng)方案相比,PRIME可以實現(xiàn)功耗降低約20倍、速度提高約50倍。該方案可以高效地實現(xiàn)向量-矩陣乘法運算,在深度學習神經(jīng)網(wǎng)絡加速器領域具有廣闊的應用前景。此外,杜克大學、普渡大學、斯坦福大學、馬薩諸塞大學、新加坡南洋理工大學、惠普、英特爾、鎂光等國際知名大學及企業(yè)均開展了相關研究工作,并發(fā)布了測試芯片原型。
我國在這方面的研究也取得一系列成果,如中科院微電子所劉明教授團隊、北京大學黃如教授與康晉鋒教授團隊、清華大學楊華中教授與吳華強教授團隊、中科院上海微系統(tǒng)所宋志棠教授團隊、華中科技大學繆向水教授團隊等,相繼發(fā)布相關器件和芯片原型,并通過圖像/語音識別等應用進行了測試驗證。
在當前摩爾定律逐漸放緩的背景下,存算一體成為解決計算機性能瓶頸的關鍵技術。