近日,英偉達(dá)GTC大會(huì)上亮相了新一代GPU H100,800億個(gè)晶體管,使用臺(tái)積電4nm工藝,采用HBM3,可實(shí)現(xiàn)3TB/s的顯存帶寬,算力達(dá)到了2000TOPs,但功耗也創(chuàng)造了新紀(jì)錄,達(dá)到了驚人的700W。可以說,英偉達(dá)已經(jīng)在現(xiàn)有技術(shù)路線上把芯片性能和帶寬做到了極致,業(yè)界將鮮少有企業(yè)能夠用同樣的方式取得更高的突破,要想在關(guān)鍵指標(biāo)上突破,必須要發(fā)展新路徑。
在人工智能應(yīng)用推動(dòng)下,存內(nèi)計(jì)算這個(gè)新型計(jì)算架構(gòu)逐漸被商業(yè)界看重,也成為未來造就計(jì)算芯片的熱門技術(shù)之一。在這樣的背景下,后摩智能異軍突起,試圖用存算一體來解鎖大算力AI芯片,據(jù)悉,其首款基于SRAM的存算一體大算力AI芯片近日已被成功點(diǎn)亮。國內(nèi)發(fā)展大算力AI芯片再多一條創(chuàng)新路徑。
用存算一體顛覆大算力AI芯片
在人工智能、5G、大數(shù)據(jù)和自動(dòng)駕駛交織而成的數(shù)字經(jīng)濟(jì)文明時(shí)代,計(jì)算能力將決定生產(chǎn)力。OpenAI發(fā)現(xiàn),自2012年以來,人工智能所需的計(jì)算能力大約每3、4個(gè)月翻一番。所以現(xiàn)在,越來越多的芯片企業(yè)開始投入重金,不斷的在AI大算力芯片上攻堅(jiān)。
那么,目前市面上都有哪些主流的大算力AI芯片方案:
第一種是當(dāng)下英偉達(dá)采用的的這種馮·諾依曼架構(gòu)策略,用HBM來解決內(nèi)存墻的問題,采用3D封裝,工藝要先進(jìn),最新一代的英偉達(dá)GPU Hopper架構(gòu)已經(jīng)到了4nm。這種方案的優(yōu)點(diǎn)是相對(duì)成熟,英偉達(dá)已經(jīng)趟過。缺點(diǎn)是無法打造足夠的差異化,能做到英偉達(dá)70-80分就差不多是極限,再者,其HBM成本占比較大,總體昂貴。
第二種是DSA,也就是算法和芯片高度綁定在一起的方案。其優(yōu)點(diǎn)是,不僅可以提高計(jì)算效率,還能達(dá)到降低功耗的目的;該方案類似Turn-key的方式,比較方便省事。但這種方式的缺點(diǎn)是,算法和硬件是緊耦合的,部分算法硬化到電路里,以犧牲靈活性換取效率提升。因?yàn)椴煌蛻羲枰乃惴ǜ鳟?,而且算法在快速迭代,完全黑盒的方式可能并不那么受歡迎。
在后摩智能看來,對(duì)于初創(chuàng)公司,如果沒有技術(shù)創(chuàng)新而采用巨頭大廠的技術(shù)路線,是很難在競(jìng)爭(zhēng)中脫穎而出的。而且1-2倍的產(chǎn)品性能提升并不具有絕對(duì)競(jìng)爭(zhēng)力,必須要有5倍、10倍以上的提升才能真正刺激到生態(tài)的轉(zhuǎn)變。所以要想在大算力芯片上取得更高的突破和更長(zhǎng)遠(yuǎn)的發(fā)展,宏觀上必須要有差異化,不能以英偉達(dá)的方式去打敗英偉達(dá),就如同當(dāng)年英偉達(dá)沒用英特爾的方式來打英特爾一般。
存算一體這種打破傳統(tǒng)存儲(chǔ)墻和功耗墻的新架構(gòu),成為后摩智能顛覆大算力AI芯片的策略。目前在架構(gòu)創(chuàng)新可稱之為是第三種大算力AI芯片的方式。這是一條有風(fēng)險(xiǎn)的路徑,但也是一條技術(shù)進(jìn)階比較大的路徑。其實(shí)國外已有不少企業(yè)開始在創(chuàng)新架構(gòu)上進(jìn)行大膽的探索和創(chuàng)新,如英國公司Graphcore的IPU,就是采用基于SRAM的近存計(jì)算,其產(chǎn)品也頗具競(jìng)爭(zhēng)力,只是云端訓(xùn)練市場(chǎng)生態(tài)太重。后摩智能則更進(jìn)一步,基于SRAM做到了存內(nèi)計(jì)算。
在各種存儲(chǔ)介質(zhì)中,SRAM是一項(xiàng)成熟度較高且能夠滿足理想存內(nèi)計(jì)算并行性需求的存儲(chǔ)介質(zhì)之一,是未來3-5年產(chǎn)業(yè)化的必選路徑之一。作為存內(nèi)計(jì)算的計(jì)算部件,SRAM讀寫性能優(yōu)勢(shì)較大,存儲(chǔ)邏輯簡(jiǎn)單清晰,不易受外界干擾,外圍電路可操作性大,且能夠和現(xiàn)在的數(shù)字處理器技術(shù)天然融合。
“采取存算一體這種新架構(gòu)的方式,其技術(shù)演進(jìn)的天花板會(huì)更高,而且在成本上更可控,未來也更容易做到大規(guī)模普及?!焙竽χ悄苈?lián)合創(chuàng)始人、產(chǎn)品副總裁信曉旭表示。 成立僅1年多,后摩智能的首款基于SRAM的存算一體大算力AI芯片就成功點(diǎn)亮,這也是業(yè)內(nèi)首款大算力存算一體AI芯片。據(jù)后摩智能聯(lián)合創(chuàng)始人、戰(zhàn)略副總裁項(xiàng)之初透露,該款芯片采用22nm工藝制程,樣片算力達(dá)20TOPS,可擴(kuò)展至200TOPS,計(jì)算單元能效比高達(dá)20TOPS/W。相比國際廠商1~2TOPS/W的平均水準(zhǔn)來說,后摩智能在能效比上優(yōu)勢(shì)明顯。而且這是在不犧牲芯片靈活性的基礎(chǔ)上做到的,后摩的芯片不但支持市面上的主流算法,還可以支持不同客戶定制自己的算子。
后摩智能芯片開發(fā)板
當(dāng)下信創(chuàng)等國產(chǎn)替代的剛需,給芯片創(chuàng)業(yè)公司帶來了很大的市場(chǎng)機(jī)會(huì),在這樣的需求下,國產(chǎn)芯片無需各項(xiàng)指標(biāo)都達(dá)到100分級(jí)別,可能及格就行,但在后摩智能看來,國產(chǎn)替代只是其中一個(gè)撬動(dòng)的點(diǎn),芯片是一個(gè)長(zhǎng)跑賽道,要想真正經(jīng)得住市場(chǎng)的長(zhǎng)期考量,最終還是能夠持續(xù)的用領(lǐng)先技術(shù)做出有競(jìng)爭(zhēng)力的產(chǎn)品,真正給客戶帶來價(jià)值。
后摩智能信心何在?
當(dāng)下AI創(chuàng)企眾多,各種技術(shù)路徑不同,做大算力芯片的不少,做存算一體芯片的企業(yè)也有一些,但用存算一體來做AI大算力芯片的卻寥寥無幾。后摩智能為何敢勇闖無人區(qū)?
信曉旭坦言道,存算一體大算力芯片確實(shí)沒有企業(yè)工程實(shí)現(xiàn)過,主要系其存在一些技術(shù)難點(diǎn),譬如存儲(chǔ)單元陣列、AI core、工具鏈等各個(gè)方面都需要有經(jīng)驗(yàn)、并且具備極強(qiáng)功力的團(tuán)隊(duì),將其整合起來,還需要進(jìn)行整體的協(xié)同優(yōu)化設(shè)計(jì),才能最終實(shí)現(xiàn)一款高效的基于存算一體的大算力AI芯片。當(dāng)然如果這些難點(diǎn)被成功攻克之后,將成為企業(yè)最堅(jiān)固的護(hù)城河。
后摩智能聯(lián)合創(chuàng)始人、戰(zhàn)略副總裁項(xiàng)之初補(bǔ)充道,“要做存算一體的AI大芯片,需要有兩撥人:一撥是在存算一體學(xué)術(shù)領(lǐng)域達(dá)到國際頂尖水準(zhǔn)的學(xué)者;另一撥是做過大芯片的工程派系?!焙竽χ悄芗婢哌@兩大派系,創(chuàng)始團(tuán)隊(duì)的成員來自普林斯頓大學(xué)、美國Penn State大學(xué)等海內(nèi)外知名高校,及AMD、Nvidia、華為海思、地平線等一線芯片企業(yè),在先進(jìn)存儲(chǔ)器件及存算一體技術(shù)方向擁有近15年的研究積累,具有豐富的存算電路設(shè)計(jì)與流片、先進(jìn)制造工藝從理論到實(shí)踐、以及大芯片設(shè)計(jì)與實(shí)戰(zhàn)經(jīng)驗(yàn),主導(dǎo)過多顆世界級(jí)芯片的研發(fā)量產(chǎn),包括GPU、CPU、及高性能車規(guī)級(jí)AI芯片。
這兩大派系的團(tuán)隊(duì)成員各司所長(zhǎng),又互相爭(zhēng)議,對(duì)AI芯片的核心痛點(diǎn)——能效比進(jìn)行深層次的碰撞。最終做出的產(chǎn)品有兩大優(yōu)勢(shì):一個(gè)是芯片的處理能效比大大提升,另外,存算融合的方式也提升了芯片的計(jì)算密度,為成百上千Tops的大算力提供更好的擴(kuò)展性。
那么問題來了,既然后摩智能可以做,其他廠商是不是也可以集齊這兩撥人進(jìn)行復(fù)制?關(guān)于這方面,項(xiàng)之初告訴筆者,首先,對(duì)創(chuàng)業(yè)公司來說,有存算一體經(jīng)驗(yàn)的工程師在工業(yè)界并不多見,新入者需要從零開始做起,而后摩智能已具有2-3年的先發(fā)優(yōu)勢(shì),可以通過快速迭代產(chǎn)品提前拿下一定的市場(chǎng)。再者,像英偉達(dá)這樣有足夠資源的巨頭,如果也反過來做存算一體的大芯片,對(duì)他們而言,最痛苦的是顛覆原來強(qiáng)大的生態(tài),所以不到萬不得已,他們不會(huì)自廢武功。
在當(dāng)下半導(dǎo)體創(chuàng)業(yè)熱度空前、人心浮躁的大背景下,后摩智能聚攏了在存算一體和AI大芯片領(lǐng)域富有經(jīng)驗(yàn)的團(tuán)隊(duì),探索真正顛覆AI芯片的新技術(shù),實(shí)現(xiàn)國產(chǎn)芯片換道超車,在前沿化和工程化上與國際大廠進(jìn)行PK。一位最近新加入后摩智能,在某國際大廠工作了20多年的資深工程師表示,加入后摩智能不僅僅是金錢的意義,更重要的是公司的目標(biāo)讓他又有了為實(shí)現(xiàn)夢(mèng)想而奮斗的感覺。
應(yīng)用場(chǎng)景的無限可能
產(chǎn)品研發(fā)出來只是萬里長(zhǎng)征的第一步,能夠真正找到落地場(chǎng)景才是更重要的。AI大芯片的第一個(gè)市場(chǎng)需求較大的場(chǎng)景是數(shù)據(jù)中心,早期的創(chuàng)業(yè)者們也大都聚焦在這個(gè)領(lǐng)域,目前這些企業(yè)也交出了一些性能不錯(cuò)的產(chǎn)品,現(xiàn)在對(duì)AI大芯片的需求已經(jīng)逐漸來到邊緣端,譬如智能駕駛領(lǐng)域,而且其需求快速增長(zhǎng),大有超越數(shù)據(jù)中心之勢(shì)。因此,后摩智能首要主打的市場(chǎng)是智能駕駛、泛機(jī)器人等大邊緣端。
后摩智能的市場(chǎng)邏輯是,絕對(duì)不會(huì)和英偉達(dá)進(jìn)行水平競(jìng)爭(zhēng),而是要從垂直細(xì)分領(lǐng)域、且大廠生態(tài)壁壘最薄弱的地方切入。后摩智能指出,當(dāng)下AI生態(tài)中最主要的就是算法,早期的CV類算法生態(tài)沒有那么牢不可破,可作為一個(gè)發(fā)力突破點(diǎn)。在這方面也有成功的案例,CV類算法目前主要應(yīng)用在安防和智能駕駛領(lǐng)域,早期安防領(lǐng)域是英偉達(dá)主宰的市場(chǎng),但后來華為海思的3559A很快占領(lǐng)了安防市場(chǎng);智能駕駛也是CV類的場(chǎng)景,其主要是解決眼睛看的問題,相對(duì)來說也是英偉達(dá)比較薄弱的地方。
后摩智能基于自研的存算一體大算力AI芯片,
成功跑通智能駕駛算法模型
所以在早期的AI落地場(chǎng)景中,后摩智能會(huì)優(yōu)先選擇CV類的場(chǎng)景,智能駕駛是后摩智能首選的方向。智能駕駛作為一個(gè)大的市場(chǎng),作為技術(shù)棧,如果能夠攻克,將來技術(shù)能力自然會(huì)外溢到機(jī)器人、數(shù)據(jù)中心等更多場(chǎng)景。
“如果市場(chǎng)下游比較固定,那供應(yīng)鏈也是相對(duì)較穩(wěn)定的,這對(duì)創(chuàng)業(yè)型公司來說是不友好的。而汽車當(dāng)下是處于高速變化的場(chǎng)景,新能源車、智能駕駛各個(gè)新需求的誕生,車企需要找到更適配的供應(yīng)鏈。這給創(chuàng)業(yè)公司帶來了很大的機(jī)遇?!表?xiàng)之初指出。
后摩智能的團(tuán)隊(duì)在車規(guī)AI芯片上有豐富的經(jīng)驗(yàn)?,F(xiàn)在公司正在著手引入車規(guī)級(jí)認(rèn)證。信曉旭談到,像智能駕駛這樣的大邊緣推理機(jī)會(huì)很適合用SRAM做存算一體。當(dāng)然后摩智能并沒有止步于此,公司還在對(duì)新的存儲(chǔ)介質(zhì)RRAM和MRAM進(jìn)行探索。他補(bǔ)充道,現(xiàn)在在SRAM上的AI核心的設(shè)計(jì)、編譯器和解決方案等的配套,在RRAM上是可以直接繼承過去的,經(jīng)過幾年的客戶打磨,再隨著RRAM等存儲(chǔ)介質(zhì)的成熟,繼而進(jìn)行更進(jìn)一步的提升,徹底顛覆AI計(jì)算的格局。值得一提的是,后摩智能已經(jīng)拿到了臺(tái)積電RRAM的PDK。
結(jié)語
圖靈獎(jiǎng)得主、計(jì)算機(jī)體系結(jié)構(gòu)宗師David Patterson與John Hennessy認(rèn)為,未來將是計(jì)算機(jī)體系結(jié)構(gòu)的黃金十年,新的架構(gòu)設(shè)計(jì)將會(huì)帶來更低的成本,更優(yōu)的能耗、安全和性能。存算一體這種新架構(gòu)作為延續(xù)摩爾定律的一條有利的道路,備受資本界和商業(yè)界關(guān)注。我們也已看到,國外已經(jīng)有多家AI初創(chuàng)公司采用架構(gòu)創(chuàng)新的路徑發(fā)力AI芯片,并且還交付了非常有競(jìng)爭(zhēng)力的產(chǎn)品,如Graphcore,SambaNova等。
在國產(chǎn)大算力AI芯片的攀登之路上,后摩智能作為國內(nèi)唯一一家選擇以架構(gòu)創(chuàng)新的方式來設(shè)計(jì)大算力AI芯片,并且躋身為數(shù)不多的國際前沿技術(shù)研究企業(yè)的行列,必將為國產(chǎn)AI芯片彎道超車、趕超巨頭帶來更大的機(jī)會(huì)。