中科院計(jì)算所與寒武紀(jì)公司提出了國(guó)際上首個(gè)稀疏深度學(xué)習(xí)處理器Cambricon-X,相關(guān)工作于近日被計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域頂級(jí)國(guó)際會(huì)議MICRO 2016(International Symposium on Microarchitecture)接收。該處理器由中國(guó)科大少年班陳云霽、陳天石兄弟開創(chuàng)。
深度學(xué)習(xí)是一類借鑒生物的多層神經(jīng)網(wǎng)絡(luò)處理模式所發(fā)展起來(lái)的智能處理技術(shù)?;谏疃葘W(xué)習(xí)的圍棋程序AlphaGo甚至已經(jīng)達(dá)到了職業(yè)棋手的水平。稀疏深度學(xué)習(xí)可大幅度削減神經(jīng)網(wǎng)絡(luò)中連接數(shù)量,因此被業(yè)界廣泛采用。但其計(jì)算和訪存模式非常不規(guī)則,給相應(yīng)的芯片設(shè)計(jì)帶來(lái)了巨大的挑戰(zhàn)。寒武紀(jì)團(tuán)隊(duì)針對(duì)稀疏深度神經(jīng)網(wǎng)絡(luò)特殊的計(jì)算模式和訪存特性,提出采用一維稀疏表示、專用的數(shù)據(jù)訪問引擎和動(dòng)態(tài)計(jì)算調(diào)度策略來(lái)實(shí)現(xiàn)稀疏深度學(xué)習(xí)的專用處理器Cambricon-X,能高效處理各種類型的稀疏深度神經(jīng)網(wǎng)絡(luò)(包括卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)等)。在TSMC 65nm工藝下,Cambricon-X峰值性能可達(dá)0.5Tops/s,面積開銷僅為6.38平方毫米,稀疏深度學(xué)習(xí)速度相較于主流高端GPU提升性能10倍,能耗僅為其3.4%。相關(guān)工作已于2016年1月申請(qǐng)國(guó)內(nèi)和PCT專利,此后UCSB也參與了Cambricon-X的進(jìn)一步學(xué)術(shù)探索。
此前,中科院計(jì)算所提出了國(guó)際上首個(gè)深度學(xué)習(xí)處理器結(jié)構(gòu)(與法國(guó)Inria合作完成)、國(guó)際上首個(gè)多核深度學(xué)習(xí)處理器結(jié)構(gòu)(與法國(guó)Inria合作完成),研制了國(guó)際上首個(gè)深度學(xué)習(xí)處理器芯片,提出了國(guó)際上首個(gè)深度學(xué)習(xí)指令集,多次獲得計(jì)算機(jī)體系結(jié)構(gòu)頂級(jí)會(huì)議最佳論文獎(jiǎng)。Cambricon-X的工作進(jìn)一步夯實(shí)了中科院與寒武紀(jì)在深度學(xué)習(xí)處理器領(lǐng)域的國(guó)際領(lǐng)導(dǎo)性地位。
背景介紹:MICRO與ISCA、ASPLOS和HPCA并稱計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域最頂級(jí)的四大國(guó)際學(xué)術(shù)會(huì)議。自2014年中科院計(jì)算所的陳云霽博士(寒武紀(jì)公司首席科學(xué)家,中國(guó)科大97少)、陳天石博士(寒武紀(jì)公司創(chuàng)始人和CEO,中國(guó)科大01少)與法國(guó)Inria的Olivier Temam博士(現(xiàn)供職于Google)在ASPLOS 2014共同開創(chuàng)了深度學(xué)習(xí)處理器方向之后,深度學(xué)習(xí)處理器已經(jīng)成為MICRO、ISCA、ASPLOS和HPCA最關(guān)注的研究方向之一。MICRO 2016上有超過(guò)1/7的論文引用寒武紀(jì)團(tuán)隊(duì)成員的工作來(lái)進(jìn)行智能處理器的探索(分別來(lái)自包括Intel、NVIDIA、佐治亞理工、UCSB等頂尖研究機(jī)構(gòu))。