在先進(jìn)工藝和架構(gòu)的協(xié)同下,芯片的性能在過(guò)去幾年獲得了爆發(fā)性的增長(zhǎng),尤其是在最近幾年火熱的人工智能行業(yè),這個(gè)取得的成就是有目共睹的。
據(jù)OpenAI在2018年年中發(fā)表的報(bào)告,自 2012 年以來(lái),人工智能訓(xùn)練任務(wù)中使用的算力正呈指數(shù)級(jí)增長(zhǎng)。人們對(duì)于算力的需求增長(zhǎng)也超過(guò) 300,000 倍。作為對(duì)比,如果是以摩爾定律的速度,這個(gè)數(shù)字只會(huì)是12倍的增長(zhǎng)。在他們看來(lái),正是這些硬件性能的跨越式突破,才成就了現(xiàn)在的AI產(chǎn)業(yè)。
自2012年以來(lái),AI對(duì)算力的要求(source:OpenAI)
Open AI的報(bào)告進(jìn)一步指出,成本考量和物理學(xué)特性等因素將會(huì)壓制傳統(tǒng)AI硬件性能的上升勢(shì)頭。但市場(chǎng)對(duì)AI算力的需求仍然處于增長(zhǎng)期,為此探索新的硬件方案成為了AI芯片供應(yīng)商亟待解決的問(wèn)題。不少?gòu)S商也都另辟蹊徑從多個(gè)方向解決廣為人知的“馮諾依曼瓶頸”。
在鯤云信息科技有限公司創(chuàng)始人牛昕宇博士(以下簡(jiǎn)稱牛博士)看來(lái),一個(gè)不同于過(guò)往的新架構(gòu),是解決當(dāng)前AI問(wèn)題的正確之選。他同時(shí)也指出,目前的AI芯片行業(yè),需要變革的不僅僅是架構(gòu)。
亟待變革的AI芯片架構(gòu)
對(duì)AI芯片行業(yè)有所了解的讀者都應(yīng)該知道,現(xiàn)在統(tǒng)治人工智能芯片市場(chǎng)的廠商主要是英偉達(dá),依靠GPU優(yōu)秀的并行計(jì)算能力和CUDA生態(tài),這家本來(lái)只是做顯卡的廠商在人工智能時(shí)代大放異彩。
除了英偉達(dá)之外,擁有龐大部署量的英特爾至強(qiáng)處理器和聲名在外的谷歌TPU和特斯拉FSD也是AI芯片市場(chǎng)一個(gè)不可忽略的角色。這些處理器有一個(gè)共同特點(diǎn),那就是他們無(wú)一例外采用了指令集架構(gòu)處理器。
經(jīng)典指令集架構(gòu)圖
這些架構(gòu)在實(shí)際應(yīng)用中不能發(fā)揮人工智能芯片的全部算力潛力,為此牛博士指出,在算力需求猛增的AI時(shí)代,需要一種新的芯片架構(gòu),這主要是由以下兩個(gè)原因決定的:
從硬件架構(gòu)上看,指令集架構(gòu)芯片中有部分芯片面積用于支持指令控制。更關(guān)鍵的問(wèn)題在于,在指令執(zhí)行過(guò)程中,計(jì)算單元在多數(shù)時(shí)間內(nèi)處于等待的狀態(tài):等待計(jì)算所需數(shù)據(jù)的到來(lái)。從這個(gè)角度看,指令集架構(gòu)下的算力并沒(méi)有被充分發(fā)揮出來(lái)給到用戶。
另一方面,如上圖右邊所示,一個(gè)標(biāo)準(zhǔn)的五級(jí)指令集的每一條指令都要經(jīng)過(guò)讀取、解碼、執(zhí)行、讀寫(xiě)內(nèi)存和把數(shù)據(jù)寫(xiě)到寄存器里面去這五個(gè)步驟。在這些步驟中,只有執(zhí)行這一步驟是在執(zhí)行真正的計(jì)算。其他部分都是在做指令的讀取和解碼這樣的功能。雖然可以通過(guò)指令流水降低計(jì)算單元閑置,不過(guò)在實(shí)際執(zhí)行過(guò)程中,受限于指令間的依賴、以及指令間協(xié)同的時(shí)鐘不確定性,指令內(nèi)部的計(jì)算單元會(huì)出現(xiàn)閑置等挑戰(zhàn)。
牛博士舉例說(shuō)到,英偉達(dá)T4在Batch=128或Batch最高的測(cè)試環(huán)境下,按照其官網(wǎng)公布的指標(biāo)去比對(duì)幾個(gè)網(wǎng)絡(luò)實(shí)際的使用算力,得出的結(jié)果是峰值算力的7%到30%左右。這意味著產(chǎn)品有很大部分的性能還不能完全發(fā)揮出來(lái)。
“如果大家都在類(lèi)似架構(gòu)下競(jìng)爭(zhēng),在接近的芯片利用率前提下,芯片公司的產(chǎn)品升級(jí)最后會(huì)變成依賴制程工藝和軟件生態(tài)的比拼。而且,對(duì)比P4與T4產(chǎn)品的實(shí)測(cè)性能可以發(fā)現(xiàn),隨著峰值算力的增加,芯片的實(shí)際利用率有所降低”,牛博士補(bǔ)充說(shuō)。
從目前的市場(chǎng)發(fā)展上看,包括英偉達(dá)在內(nèi)的多家AI芯片廠商都在沿著上述技術(shù)路線演進(jìn),但從當(dāng)前制程工藝的發(fā)展和材料本身的特性限制看來(lái),繼續(xù)大幅提升峰值算力意味著更高的芯片成本,而隨著峰值算力降低的芯片利用率意味著給到用戶的實(shí)測(cè)算力并不會(huì)等比例線性提升。這與當(dāng)前AI應(yīng)用客戶更高算力性價(jià)比的需求是相背而行的。換而言之,尋找一個(gè)新的AI芯片架構(gòu)迫在眉睫。
“數(shù)據(jù)流架構(gòu)或許會(huì)是一個(gè)不錯(cuò)的選擇”,牛博士說(shuō)。
根據(jù)他的觀點(diǎn),所有的計(jì)算架構(gòu)需要保證一個(gè)核心需求:加減乘除等計(jì)算操作能夠按照編程需求按特定次序完成對(duì)特定數(shù)據(jù)的計(jì)算。與傳統(tǒng)的馮·諾依曼架構(gòu)或控制流體系結(jié)構(gòu)進(jìn)行對(duì)比,數(shù)據(jù)流架構(gòu)并沒(méi)有指令相關(guān)的指令控制與執(zhí)行單元。數(shù)據(jù)流架構(gòu)依靠數(shù)據(jù)流動(dòng)次序,而不是指令執(zhí)行次序保證計(jì)算執(zhí)行順序,從而將計(jì)算與數(shù)據(jù)搬運(yùn)重疊,以實(shí)現(xiàn)更高的吞吐量和更低的延遲。
定制數(shù)據(jù)流計(jì)算示例
“在指令集架構(gòu)中,由于指令協(xié)同的不確定性,計(jì)算與數(shù)據(jù)讀寫(xiě)無(wú)法深度重疊,部分時(shí)間計(jì)算單元處于等待數(shù)據(jù)狀態(tài),從而導(dǎo)致閑置計(jì)算單元和芯片利用率的下降。而數(shù)據(jù)流架構(gòu)中每個(gè)時(shí)鐘下所有計(jì)算單元的狀態(tài)是確定的,計(jì)算單元無(wú)需等待其它單元的計(jì)算,從而消除計(jì)算資源閑置?!迸2┦勘硎尽!斑@就像一個(gè)交響樂(lè)團(tuán),當(dāng)樂(lè)團(tuán)中每個(gè)人都按照統(tǒng)一的拍子進(jìn)行演奏時(shí),而且每個(gè)人在每個(gè)拍子下的動(dòng)作是確定的,樂(lè)團(tuán)中的樂(lè)器之間并不需要相互等待,可以按照自己的節(jié)拍并行的演奏,就會(huì)協(xié)作完成一首曲子。這就像數(shù)據(jù)流架構(gòu)中計(jì)算單元間的協(xié)作關(guān)系:通過(guò)精確的時(shí)鐘進(jìn)行協(xié)作,而并不存在先后依賴關(guān)系,所以無(wú)需等待。”牛博士補(bǔ)充說(shuō)。
據(jù)介紹,數(shù)據(jù)流架構(gòu)支持時(shí)鐘級(jí)的精確計(jì)算,讓每個(gè)數(shù)據(jù)流動(dòng)及計(jì)算在每個(gè)時(shí)鐘都可精確預(yù)計(jì),從而支持將數(shù)據(jù)流動(dòng)與計(jì)算深度重疊,消除計(jì)算單元閑置;于此同時(shí),數(shù)據(jù)流架構(gòu)中沒(méi)有指令,從而破除了指令集架構(gòu)的控制冗余以及等待指令讀取譯碼帶來(lái)的計(jì)算單元閑置問(wèn)題,進(jìn)一步提升芯片利用率。此外,數(shù)據(jù)流架構(gòu)中一個(gè)數(shù)據(jù)流流水線中可深度整合大量計(jì)算單元,從而打破指令集架構(gòu)中峰值算力提升與芯片利用率的沖突問(wèn)題:通過(guò)不斷加深數(shù)據(jù)流流水線,可以在提升峰值算力同時(shí),不降低流水線中計(jì)算單元閑置時(shí)間。“
正是因?yàn)閿?shù)據(jù)流架構(gòu)擁有如此多的優(yōu)勢(shì),包括Wave Computing、SambaNova和Groq在內(nèi)的多家公司投入了這個(gè)領(lǐng)域的研發(fā),值得一提的是Groq的初創(chuàng)團(tuán)隊(duì)還是由谷歌TPU的核心成員創(chuàng)立,由此可以看到數(shù)據(jù)流架構(gòu)的前景。
當(dāng)然,鯤云科技創(chuàng)始團(tuán)隊(duì)自1994年就開(kāi)始探索數(shù)據(jù)流架構(gòu)在各個(gè)垂直領(lǐng)域的開(kāi)發(fā)和落地,在數(shù)據(jù)流技術(shù)上具有深厚的積累,自然是這個(gè)架構(gòu)的積極支持者。也正是在這個(gè)背景下,團(tuán)隊(duì)創(chuàng)立了鯤云科技,從零開(kāi)始探索針對(duì)深度學(xué)習(xí)的數(shù)據(jù)流架構(gòu),也就是CAISA。
AI芯片能力≠芯片峰值算力
在架構(gòu)類(lèi)似的情況下,峰值算力是一個(gè)可以簡(jiǎn)單快速估算芯片實(shí)測(cè)性能的指標(biāo),也是在AI芯片設(shè)計(jì)中重點(diǎn)關(guān)注的指標(biāo)。然而近幾年,提升峰值算力的發(fā)展方向?qū)⑷斯ぶ悄苄酒陌l(fā)展推向了另一個(gè)極端:峰值算力(或每瓦的峰值算力)已經(jīng)成為評(píng)價(jià)一顆AI芯片性能的單一指標(biāo),導(dǎo)致大量AI芯片研發(fā)資源投入到如何把峰值算力推高。
然而對(duì)于用戶來(lái)說(shuō),峰值算力其實(shí)并不是他們的本質(zhì)需求。
”用戶真正關(guān)心的是AI芯片的實(shí)測(cè)算力,而不完全是峰值算力。峰值算力并不能直接釋放給用戶,真正釋放給用戶的要乘上一個(gè)系數(shù),叫做芯片利用率“,牛博士說(shuō)?!狈逯邓懔χ笜?biāo)假設(shè)每個(gè)芯片內(nèi)部計(jì)算單元每個(gè)時(shí)鐘都處于計(jì)算狀態(tài),而現(xiàn)有指令集架構(gòu)在運(yùn)算執(zhí)行中計(jì)算單元存在閑置“,牛博士強(qiáng)調(diào)。
以英偉達(dá)T4加速卡為例,常用的識(shí)別、檢測(cè)和分割的算法ResNet50、SSD-ResNet50和U-Net Industrial,在Batch=128或者最高性能的情況下,可以分別獲得32.1%、7.5%、11.9%的芯片利用率,這意味著在實(shí)際應(yīng)用中,只有7%到32%的峰值算力轉(zhuǎn)換為實(shí)測(cè)性能釋放給用戶,當(dāng)中帶來(lái)的芯片性能浪費(fèi)是顯而易見(jiàn)的。
T4加速卡的測(cè)試結(jié)果
”為了讓用戶獲得更高的性能,除了持續(xù)提高峰值性能以外,芯片利用率的提升會(huì)是一個(gè)更好的方案,因?yàn)檫@會(huì)在不增加芯片成本的情況下,大幅提升芯片的實(shí)測(cè)性能。這也是鯤云科技新推出的CAISA 芯片正在努力的方向“,牛博士說(shuō)。
這是一款采用28nm工藝打造的芯片,搭載了四個(gè)CAISA 3.0引擎,具有超過(guò)1.6萬(wàn)個(gè)MAC(乘累加)單元,峰值性能可達(dá)10.9TOPs。而通過(guò)PCIe 3.0×4接口與主處理器通信,同時(shí)具有雙DDR通道,可為每個(gè)CAISA芯片提供超過(guò)340Gbps的帶寬。
CAISA芯片架構(gòu)圖
作為一款面向邊緣和數(shù)據(jù)中心推理的人工智能芯片,CAISA芯片可實(shí)現(xiàn)最高95.4%的芯片利用率。這就讓他們?cè)诩葷M足客戶在價(jià)格和功耗方面需求的同時(shí),還能為客戶提供更強(qiáng)的算力,提高了性價(jià)比。而之所以能做到如此高的芯片利用率,與鯤云科技的CAISA 3.0數(shù)據(jù)流架構(gòu)有莫大的關(guān)系。
CAISA3.0架構(gòu)圖
在文章前面我們提到,鯤云科技首席科學(xué)家Wayne Luk陸永青院士從1994年就開(kāi)始將數(shù)據(jù)流架構(gòu)應(yīng)用到各個(gè)垂直領(lǐng)域。經(jīng)歷了前十幾年的發(fā)展積累,到鯤云科技于2016年成立并在FPGA上實(shí)現(xiàn)交付,與客戶的交流迭代之后,完成了此次全新的架構(gòu)升級(jí)。
來(lái)到CAISA3.0中,數(shù)據(jù)計(jì)算與數(shù)據(jù)流動(dòng)的重疊,壓縮計(jì)算資源的每一個(gè)空閑時(shí)鐘;通過(guò)算力資源的動(dòng)態(tài)平衡,消除流水線的性能瓶頸;通過(guò)數(shù)據(jù)流的時(shí)空映射,最大化復(fù)用芯片內(nèi)的數(shù)據(jù)流帶寬,減少對(duì)外部存儲(chǔ)帶寬的需求。上述設(shè)計(jì)使CNN算法的計(jì)算數(shù)據(jù)在CAISA3.0內(nèi)可以實(shí)現(xiàn)不間斷的持續(xù)運(yùn)算,最高可實(shí)現(xiàn)95.4%的芯片利用率,在同等峰值算力條件下,可獲得相對(duì)于GPU 3倍以上的實(shí)測(cè)算力,從而為用戶提供更高的算力性價(jià)比。
相比旗艦款Xavier加速卡,搭載CAISA芯片的星空加速卡X3可以最高提供4.12倍實(shí)測(cè)性能提升;而與T4相比,鯤云科技也能提供最高3.91倍實(shí)測(cè)性能提升。這都是超高的芯片利用率提升所帶來(lái)的。得益于這個(gè)利用率,過(guò)往通過(guò)提升峰值性獲得更高性能而帶來(lái)的高成本問(wèn)題,也迎刃而解。
X3 vs Xavier 芯片利用率對(duì)比圖
X3 vs Xavier 性能對(duì)比圖
X3 vs Xavier 延時(shí)對(duì)比圖
X9 vs T4 芯片利用率對(duì)比圖
X9 vs T4 性能對(duì)比圖
X9 vs T4 延時(shí)對(duì)比圖
也許很多人并沒(méi)有理解這個(gè)3.91倍背后的意義,讓我們舉個(gè)現(xiàn)有的例子來(lái)對(duì)比說(shuō)明一下。
AI從業(yè)人員都知道,英偉達(dá)為了展現(xiàn)其T4的實(shí)力,在其官方網(wǎng)站上公布了這個(gè)加速卡跑在不同網(wǎng)絡(luò)模型下的性能指標(biāo)。作為AI芯片行業(yè)的風(fēng)向標(biāo),任何一款芯片想要說(shuō)明自己的實(shí)力,只需要跑和T4一樣的網(wǎng)絡(luò),然后公布相關(guān)的Benchmark就可以如愿以償。早前被英特爾收購(gòu)的Habana就是這樣做的。根據(jù)Habana所公布benchmark性能,相比于T4官網(wǎng)指標(biāo)(最新官網(wǎng)指標(biāo)為5415FPS),通過(guò)更高的峰值算力,Habana的產(chǎn)品提供了2.85倍實(shí)測(cè)性能提升。正是因?yàn)樵趯?shí)測(cè)性能上取得的領(lǐng)先,最終獲得Intel的青睞,讓他們以20億美元的估值被收購(gòu)。
通過(guò)這個(gè)例子,我們也可以看到鯤云科技這個(gè)數(shù)字的真正價(jià)值。
在這個(gè)高性能芯片的支持下,鯤云科技打造了高算力性價(jià)比的AI計(jì)算平臺(tái)星空加速卡系列,并推出了X3和X9兩款產(chǎn)品。
其中星空X3加速卡是搭載單顆CAISA 芯片的數(shù)據(jù)流架構(gòu)深度學(xué)習(xí)推斷計(jì)算平臺(tái),為工業(yè)級(jí)半高半長(zhǎng)單槽規(guī)格的PCIe板卡。得益于其輕量化的規(guī)格特點(diǎn),X3加速卡可以與不同類(lèi)型的計(jì)算機(jī)設(shè)備進(jìn)行適配,包括個(gè)人電腦、工業(yè)計(jì)算機(jī)、網(wǎng)絡(luò)視頻錄像機(jī)、工作站、服務(wù)器等,滿足邊緣和高性能場(chǎng)景中的AI計(jì)算需求。相較于英偉達(dá)邊緣端旗艦產(chǎn)品Xavier,X3可實(shí)現(xiàn)1.48-4.12倍的實(shí)測(cè)性能提升。
星空X3加速卡
X9加速卡為搭載4顆CAISA 芯片的深度學(xué)習(xí)推斷板卡,峰值性能43.6TOPS,主要滿足高性能場(chǎng)景下的AI計(jì)算需求。同英偉達(dá)旗艦產(chǎn)品T4相對(duì),X9在ResNet-50, YOLO v3等模型上的芯片利用率提升2.84-11.64倍。在實(shí)測(cè)性能方面,X9在ResNet50可達(dá)5240FPS,與T4性能接近,在YOLO v3、UNet Industrial等檢測(cè)分割網(wǎng)絡(luò),實(shí)測(cè)性能相較T4有1.83-3.91倍性能提升。在達(dá)到最優(yōu)實(shí)測(cè)性能下,X9處理延時(shí)相比于T4降低1.83-32倍。實(shí)測(cè)性能以及處理延時(shí)的大幅領(lǐng)先,讓數(shù)據(jù)流架構(gòu)為AI芯片的發(fā)展提供了提升峰值性能之外的另一條技術(shù)路線。
星空X9加速卡發(fā)布
據(jù)了解,目前星空X3加速卡已經(jīng)推出市場(chǎng),而星空X9加速卡將于今年8月推出市場(chǎng)。
全球首個(gè)數(shù)據(jù)流AI芯片背后
從行業(yè)的現(xiàn)狀看來(lái),鯤云科技是全球首家推出數(shù)據(jù)流AI芯片,并且提供第三方實(shí)測(cè)benchmark的中國(guó)芯片企業(yè)。這是前文說(shuō)到的Wave Computing、SambaNova和Groq等國(guó)外明星初創(chuàng)企業(yè)所不能達(dá)到的成就。而通過(guò)數(shù)據(jù)流網(wǎng)絡(luò)中算子的不同配置和組合,鯤云科技的CAISA芯片更可支持到絕大多數(shù)的CNN算法,并能讓開(kāi)發(fā)者輕易地將模型遷移到這個(gè)平臺(tái)上……
能做到這樣,是其架構(gòu)和軟件相互協(xié)同獲得的成果。
CAISA3.0架構(gòu)可以通過(guò)流水線動(dòng)態(tài)重組實(shí)現(xiàn)對(duì)不同深度學(xué)習(xí)算法的高性能支持。通過(guò)CAISA架構(gòu)層的數(shù)據(jù)流引擎、全局?jǐn)?shù)據(jù)流網(wǎng)、全局?jǐn)?shù)據(jù)流緩存,以及數(shù)據(jù)流引擎內(nèi)部的人工智能算子模塊、局部數(shù)據(jù)流網(wǎng)、局部數(shù)據(jù)流緩存的分層設(shè)計(jì),在數(shù)據(jù)流配置器控制下,CAISA架構(gòu)中的數(shù)據(jù)流連接關(guān)系和運(yùn)行狀態(tài)都可以被自動(dòng)化動(dòng)態(tài)配置,從而生成面向不同AI算法的高性能定制化流水線。在保證高性能的前提下,支持用戶使用基于CAISA3.0架構(gòu)的計(jì)算平臺(tái)實(shí)現(xiàn)如目標(biāo)檢測(cè)、分類(lèi)及語(yǔ)義分割等廣泛的人工智能算法應(yīng)用。
”專為CAISA3.0架構(gòu)配備的RainBuilder編譯工具鏈支持從算法到芯片的端到端自動(dòng)化部署“,牛博士強(qiáng)調(diào)。而在RainBuilder編譯工具鏈的支持下,用戶和開(kāi)發(fā)者無(wú)需了解架構(gòu)的底層硬件配置,簡(jiǎn)單兩步即可實(shí)現(xiàn)算法快速遷移和部署。
RainBuilder架構(gòu)圖
據(jù)透露,RainBuilder編譯器可自動(dòng)提取主流AI開(kāi)發(fā)框架(TensorFlow,Caffe,Pytorch,ONNX等)中開(kāi)發(fā)的深度學(xué)習(xí)算法的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)信息,并面向CAISA結(jié)構(gòu)進(jìn)行優(yōu)化;工具鏈中的運(yùn)行時(shí)(Runtime)和驅(qū)動(dòng)(Driver)模塊負(fù)責(zé)硬件管理并為用戶提供標(biāo)準(zhǔn)的API接口,運(yùn)行時(shí)可以基于精確的CAISA性能模型,實(shí)現(xiàn)算法向CAISA架構(gòu)的自動(dòng)化映射,同時(shí)提供可以被高級(jí)語(yǔ)言直接調(diào)用的API接口;最底層的驅(qū)動(dòng)可以實(shí)現(xiàn)對(duì)用戶透明的硬件控制。RainBuilder工具鏈?zhǔn)褂煤?jiǎn)單,部署方便,通用性強(qiáng),可以讓用戶快速和低成本的部署和遷移已有算法到CAISA硬件平臺(tái)上。
回顧計(jì)算行業(yè)的發(fā)展,不同的應(yīng)用催生了不同的處理器架構(gòu)。早期PC的出現(xiàn),讓X86架構(gòu)和Intel名揚(yáng)天下;近十年移動(dòng)設(shè)備的出現(xiàn),又推動(dòng)了Arm架構(gòu)和高通的蓬勃發(fā)展。
現(xiàn)在,我們進(jìn)入了AI時(shí)代,也許一個(gè)屬于數(shù)據(jù)流處理器和鯤云科技的時(shí)代,從這刻開(kāi)始正式上演。