《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計(jì) > 業(yè)界動態(tài) > 特斯拉“芯”事:十問十答讀懂特斯拉為何要研發(fā)超級計(jì)算機(jī)Dojo

特斯拉“芯”事:十問十答讀懂特斯拉為何要研發(fā)超級計(jì)算機(jī)Dojo

2022-10-03
作者: J叔談芯
來源:騰訊科技

  編者按:在今年的特斯拉AI Day上,Dojo再次吸引了眼球,特斯拉宣布即將在2023年推出算力更強(qiáng)的ExaPOD(Dojo機(jī)柜)。早在2019年的Autonomous Day上,馬斯克就提到過Dojo,稱Dojo是“能夠利用海量視頻數(shù)據(jù),做無人監(jiān)管標(biāo)注和訓(xùn)練的超級計(jì)算機(jī)”。超級計(jì)算機(jī)是什么?如此受到特斯拉重視的Dojo究竟有多么重要的戰(zhàn)略意義?AI芯片的性能,只和算力強(qiáng)弱有關(guān)嗎?

  騰訊科技新產(chǎn)研·芯片系列通過產(chǎn)業(yè)鏈、投資研發(fā)、生產(chǎn)制造、人才培養(yǎng)和政策法規(guī)等不同角度切入,真實(shí)、客觀、全面的反映行業(yè)的現(xiàn)狀。本期為系列策劃第12期,特邀請芯片行業(yè)從業(yè)15年的行業(yè)老兵J叔,通過十問十答帶你讀懂特斯拉Dojo。

  丨劃重點(diǎn)

  ●Dojo是一臺專門用于AI訓(xùn)練計(jì)算的超級計(jì)算機(jī),據(jù)Dojo項(xiàng)目負(fù)責(zé)人介紹,特斯拉Dojo是史上最快的AI訓(xùn)練計(jì)算機(jī)。

  ●特斯拉自研神經(jīng)網(wǎng)絡(luò)訓(xùn)練芯片——D1芯片,擔(dān)當(dāng)著Dojo完成AI模型訓(xùn)練的重任,相比于業(yè)內(nèi)其他芯片,據(jù)特斯拉稱,同成本下性能提升4倍,同能耗下性能提高1.3倍,占用空間節(jié)省5倍。

  ●過去,特斯拉依靠Nvidia的GPU構(gòu)建AI訓(xùn)練機(jī)。研發(fā)D1芯片和Dojo,特斯拉可以針對性地基于自身需求定制專用的AI芯片架構(gòu),進(jìn)而讓算法模型與AI芯片架構(gòu)匹配優(yōu)化。從競爭戰(zhàn)略上來講,造芯使得特斯拉從產(chǎn)業(yè)價值鏈上,尋找技術(shù)制高點(diǎn),并最終達(dá)到差異化競爭。

  ●算力是一顆芯片的物理性能上限,但是一顆芯片想要體現(xiàn)出好的實(shí)用性能,光有算力是不夠的。從特斯拉的使用場景來看,對自動駕駛場景與模型的優(yōu)化、接口的豐富度、計(jì)算任務(wù)的可擴(kuò)展性,乃至對車廠算法模型的迭代易用性,這都是要考慮的因素。

  正文:

  丨特斯拉Dojo是什么?

  首先,需要簡單了解一下人工智能。

  人工智能(AI)在邏輯上可以認(rèn)為是一種計(jì)算系統(tǒng),分為訓(xùn)練和推理兩種計(jì)算。簡單來理解,如果將智能當(dāng)做技能集合的話,每一種技能叫做一個 AI模型,學(xué)習(xí)技能的過程就是訓(xùn)練一個模型,利用技能來處理事情的過程就是用模型進(jìn)行推理。

  打個比方,如果把一個人工智能模型比喻為一個工程師,想要工程師能夠投入工作,必須要有一個培訓(xùn)中心對他進(jìn)行訓(xùn)練。那超級計(jì)算機(jī),就相當(dāng)于這個培訓(xùn)中心。

  不論是訓(xùn)練計(jì)算還是推理計(jì)算,都需要在大型的服務(wù)器或者超級計(jì)算機(jī)中進(jìn)行。以訓(xùn)練為例,通常來講,工程師會先構(gòu)建大型服務(wù)器集群,然后將含有AI芯片的計(jì)算卡置于每一臺服務(wù)器之中,通過網(wǎng)絡(luò)把這些服務(wù)器整合起來,形成訓(xùn)練集群。比如NVidia GPU服務(wù)器集群,google TPU集群等?;蛘?,也可以將這些計(jì)算芯片,整合在一臺大型“計(jì)算機(jī)”中,這就是超級計(jì)算機(jī)。

  Dojo就是一臺專門用于AI訓(xùn)練計(jì)算的超級計(jì)算機(jī)。特斯拉的智能駕駛(包含一定程度的自動駕駛),需要不斷地從在跑的數(shù)百萬輛汽車所采集到的現(xiàn)實(shí)世界數(shù)據(jù)中進(jìn)行訓(xùn)練,提高智能程度。在過去,特斯拉也是依靠Nvidia的GPU構(gòu)建訓(xùn)練機(jī)。隨著自研 AI 訓(xùn)練芯片 D1的研發(fā)成功,基于D1芯片的超級計(jì)算機(jī)也就應(yīng)運(yùn)而生了。

  丨特斯拉D1芯片是什么?

  D1是特斯拉自主研發(fā)的AI訓(xùn)練芯片,類似于Nvidia的A100和H100所起的作用。

  為了理解D1“芯片”,我們這次暫時跳出通常我們?nèi)庋劭梢姷暮谏綁K,或者被金屬固件和基板封裝好的樣子,按照特斯拉自己定義的一些概念,來逐步理解這顆特殊的芯片。在這個過程中,要克服當(dāng)前中文互聯(lián)網(wǎng)上不同的翻譯(甚至有些是機(jī)器翻譯的痕跡)和英文專有名詞造成的困擾。

  一般來說,一顆芯片的誕生,是從Wafer上切割下來,成為Die,經(jīng)過封裝、測試,成為一顆可用的芯片。而這次特斯拉使用了一種所謂的System On Wafer的方式,也就是說,他并沒有將每一顆Die切割進(jìn)行獨(dú)立封裝,而是將25個D1的Die的Wafer,散熱部件、功率器件、電源與控制等,一起形成一個Tile,這個Tile大約是1平方英尺的大小。

  就芯片角度講,基于354個功能單元(訓(xùn)練節(jié)點(diǎn))形成一個D1芯片核心,具體參數(shù)如下圖:

  微信截圖_20221003090905.png

  基于25個D1芯片核心和40個輸入輸出Die和其他部件,形成一個訓(xùn)練Tile,如圖中Compute Plane指的就是5×5個D1核心:

  微信截圖_20221003090926.png

  從外觀上人們可以看到的,正是這個Tile,在中文互聯(lián)網(wǎng)中被翻譯成,瓦片,大約長這個樣子:

  微信截圖_20221003090945.png

  丨D1芯片和Dojo的關(guān)系是什么?

  Dojo,是通過組合Tile(由D1芯片組成)作為主要計(jì)算單元,整合了CPU、存儲、通訊接口、電源等模塊的超級計(jì)算機(jī)。

  上文提到,25個D1為基礎(chǔ)形成一個Tile,進(jìn)一步,12個Tile為基礎(chǔ)組成一個Rack,最后,10個Rack,被整合成一個ExaPOD,這在中文互聯(lián)網(wǎng)上被稱為Dojo ExaPOD集群。據(jù)Tesla稱,與業(yè)內(nèi)其它產(chǎn)品相比,同成本下它的性能提升 4 倍,同能耗下性能提高 1.3 倍,占用空間節(jié)省 5 倍。

  業(yè)界一般會有兩種方式來設(shè)計(jì)面向任務(wù)的計(jì)算架構(gòu):1)服務(wù)器集群;2)超級計(jì)算機(jī)。曾經(jīng)要進(jìn)行大型的計(jì)算任務(wù),只能靠大型計(jì)算機(jī),算力提升難度和建造成本都很高。而隨著計(jì)算任務(wù)的多樣化,人們發(fā)現(xiàn),一部分的計(jì)算任務(wù)可以將許多計(jì)算機(jī)通過網(wǎng)絡(luò)連起來,每臺計(jì)算機(jī)的升級難度和造價都很低,這就進(jìn)化出了服務(wù)器集群。當(dāng)前商業(yè)上大部分的IT設(shè)施,都是基于這種方式搭建的。主流互聯(lián)網(wǎng)公司的數(shù)據(jù)中心,不僅在承擔(dān)著通用的信息處理和計(jì)算任務(wù),也進(jìn)行著人工智能的訓(xùn)練和推理任務(wù),因此,非常多的公司和數(shù)據(jù)中心,都在以Nvidia的訓(xùn)練芯片V100和A100,來構(gòu)建訓(xùn)練服務(wù)器集群。

  另一方面,在許多進(jìn)行繁重的科學(xué)計(jì)算的領(lǐng)域,依然保持著使用大型計(jì)算機(jī)的習(xí)慣,并且由于GPU在浮點(diǎn)運(yùn)算的特長,也有許多機(jī)構(gòu)基于GPU來構(gòu)建超級計(jì)算機(jī)。這樣的超級計(jì)算機(jī),不僅可以進(jìn)行AI的訓(xùn)練與推理計(jì)算任務(wù),也可以承擔(dān)類似于求解天氣預(yù)報(bào)、導(dǎo)彈彈道與衛(wèi)星軌道計(jì)算、天體運(yùn)動探索等科學(xué)計(jì)算任務(wù)。

  Dojo,就是專門針對于AI訓(xùn)練(尤其是針對于廣義的視覺模型訓(xùn)練)的超級計(jì)算機(jī)。

  丨Dojo的算力有多強(qiáng)?如何計(jì)算Dojo的算力?

  Dojo ExaPoD集群由120個Training Tile,3000個D1芯片構(gòu)成。而每塊D1芯片的算力是362 TFLOPs(BF16/CFP8)或者22.6 TFLOPs(FP32)。所以Dojo集群的總算力在BF16/CFP8下是:3000 x 362 TFLOPs ≈ 1.1 EFLOPs,在FP32下是:3000 x 22.6 TFLOPs ≈ 67.8 PFLOPs。

  這里需要解釋的是,算力需要基于什么樣的數(shù)據(jù)表達(dá)方式下來衡量。所謂數(shù)據(jù)表達(dá)方式,指的是在計(jì)算機(jī)中,用以表達(dá)或近似表達(dá)任意實(shí)數(shù)的方式,比如在這里提到的BF16和FP32,指的就是浮點(diǎn)數(shù),與此對應(yīng)的還有定點(diǎn)數(shù)(INT)。正如當(dāng)我們來描述手部力量有多大的時候,需要指出是雙手還是單手力量。

  丨與特斯拉D1芯片類似的現(xiàn)存芯片有哪些?

  通過上面的分析,可以知道D1芯片的主要功能和特征。傳統(tǒng)來說,云端訓(xùn)練芯片是Nvidia的領(lǐng)域,甚至可以說是絕對壟斷的地位,先后推出了諸如V100、A100和H100的系列產(chǎn)品,也有官方在售的訓(xùn)練服務(wù)器和集群產(chǎn)品。除此之外,AMD、Graphcore、以及華為也有云端訓(xùn)練芯片,甚至intel這位通用計(jì)算的大佬,也通過收購整合Habana推出了針對AI訓(xùn)練和推理的專用芯片。

  丨自研芯片對特斯拉的戰(zhàn)略意義是什么?

  剛剛過去的AI Day上,特斯拉Dojo團(tuán)隊(duì)的重要成員這樣說:“從本質(zhì)上來講,特斯拉是一家硬核科技公司,超算是我們想做的,我們有那么多數(shù)據(jù)需要進(jìn)行相應(yīng)的訓(xùn)練就需要有非常強(qiáng)的算力,算力是非常重要的,可以說算力是訓(xùn)練的根本,如果沒有算力,那訓(xùn)練就是非常難執(zhí)行的,或者訓(xùn)練效率非常低?!?/p>

  正如前文所提,特斯拉的智能駕駛(包含一定程度的自動駕駛),需要不斷地從數(shù)百萬輛汽車所采集到的現(xiàn)實(shí)世界數(shù)據(jù)中不斷學(xué)習(xí)(訓(xùn)練模型),提高智能程度。在過去,特斯拉主要是依靠Nvidia的GPU構(gòu)建訓(xùn)練集群和超級計(jì)算機(jī)。然而,考慮到特斯拉主要的場景,主要是對視覺信號進(jìn)行處理(訓(xùn)練和推理),因此,針對性地基于視覺信號訂制專用的AI芯片架構(gòu),可以將算法模型與AI芯片架構(gòu)匹配優(yōu)化,不僅使得其可以更高效地處理信息,還可以在能源消耗、集群成本和客制化需求上符合特斯拉自身的利益訴求。

  而另一方面,當(dāng)傳統(tǒng)車企和造車新勢力都進(jìn)入市場進(jìn)行競爭時,從產(chǎn)業(yè)價值鏈上尋找技術(shù)制高點(diǎn)并最終達(dá)到差異化競爭,就會是必經(jīng)之路。從這個角度出發(fā),芯片、電池與新材料技術(shù)、新基礎(chǔ)建設(shè)等,就會是兵家必爭之地。大家也可以看到,特斯拉在這幾個方向上都有布局和不錯的成果。

  丨目前市場上有哪些自動駕駛芯片?

  既然說到特斯拉造芯,那就不得不提當(dāng)前業(yè)內(nèi)如火如荼的自動駕駛芯片。也正如前述,在車上所用到的AI算力(可以近似理解成芯片),是用來做推理計(jì)算(inference)的。

  全球范圍來看,在自動駕駛領(lǐng)域的芯片巨頭依然是Nvidia,官方是這么描述的:NVIDIA DRIVE Hyperion 是用于設(shè)計(jì)自動駕駛汽車的完整開發(fā)平臺及參考架構(gòu)。此架構(gòu)通過集成基于 NVIDIA Orin 的 AI 計(jì)算與完整的傳感器套件,加速開發(fā)、測試和驗(yàn)證。DRIVE Hyperion 擁有適用于自動駕駛的完整軟件棧 ,以及可無線更新的駕駛員監(jiān)控和可視化功能 。這樣可在車輛的整個生命周期內(nèi)添加新的特性和功能。其中,Orin正是專門為自動駕駛推出的芯片。在2021年,Nvidia宣布將會在2023年推出替代產(chǎn)品Atlan。然而僅僅在一年之后,大約在兩周前,又宣布將會推出算力高達(dá)2000TOPS的Thor作為Orin的接任者。

  處于同一梯隊(duì)的還有MobileEye,其通過芯片+算法的打包方案,成為 ADAS 時代的引領(lǐng)者,甚至制定了 ADAS 主要功能的標(biāo)準(zhǔn)。也正是因?yàn)槠湫袠I(yè)地位,intel將其納入囊中,甚至允許其保持獨(dú)立運(yùn)作,這在被intel收購的公司里鳳毛麟角,為數(shù)不多的被intel收購還存活較久的公司之一。所推出的EyeQ 代系是其主打產(chǎn)品線,曾幾何時,國內(nèi)的造車新勢力,蔚來和理想,采用EyeQ4芯片還是其主打賣點(diǎn)之一。

  除了這兩家第一梯隊(duì)的芯片公司之外,國外的高通、國內(nèi)的華為,以及地平線和黑芝麻也都有產(chǎn)品推出。地平線的征程系列、黑芝麻的華山系列,據(jù)說已經(jīng)有整車在裝備。

  另一方面,整車廠也在開始布局造芯,國際的梅賽德斯-奔馳、大眾,國內(nèi)的吉利、蔚來,都在通過各種方式布局智能駕駛芯片。

  丨自動駕駛芯片算力越強(qiáng)越好嗎?應(yīng)該從哪些維度去看待自動駕駛芯片?

  對于普通讀者而言,算力確實(shí)是一個看待自動駕駛芯片的維度,畢竟這是一顆芯片的物理性能上限。然而對于專業(yè)工作者來講,正如前文討論云端芯片時所述,一顆芯片想要體現(xiàn)出好的實(shí)用性能,光有算力是不夠的。從使用場景來看,對自動駕駛場景與模型的運(yùn)行優(yōu)化、接口的豐富度、計(jì)算任務(wù)的可擴(kuò)展性,乃至對車廠算法模型的迭代易用性,這都是要考慮的因素。隨著智能座艙需求進(jìn)一步豐富,以及對新能源汽車對整車架構(gòu)的改變,對智能駕駛芯片所具備的功能與性能也提出了更新、更高的要求。近年,Nvidia逐步侵蝕Mobileye的市場與客戶,可窺見個中緣由。

  丨智能汽車上,還會用到哪些芯片?

  當(dāng)前智能汽車,本質(zhì)上還是一臺車,因此,除了為實(shí)現(xiàn)智能而新引入的計(jì)算芯片、通信、存儲、傳感器與相關(guān)配套元器件之外,傳統(tǒng)車上所需要的芯片,大體都還在。如果這臺車還是新能源汽車,那么,還會增加電源管理類、功率器件類的芯片。為了便于理解,可以略作分類:

  主控類:傳統(tǒng)汽車上的各分布式MCU(對車輛各功能進(jìn)行控制),智能駕駛的AI SoC類芯片(為實(shí)現(xiàn)輔助、自動駕駛提供支撐)和智能座艙下的SoC芯片,都可以放入此大類中理解;汽車?yán)锩娴碾娮涌刂葡到y(tǒng)、信息娛樂系統(tǒng)、動力總成系統(tǒng)、車輛運(yùn)動系統(tǒng)等各種系統(tǒng)功能想要正常運(yùn)行的話,均需要用到這類型的功能芯片才能得以實(shí)現(xiàn),其中目前最流行的“自動駕駛系統(tǒng)”也離不開功能芯片;(ECU(電子控制單元)和ESP(車身電子穩(wěn)定系統(tǒng))PB(駐車制動器)、VCU(整車控制單元)、TCU(變速箱控制單元)。座艙內(nèi)的音、視頻娛樂系統(tǒng),從SoC,到各種DSP、音頻處理與放大,都屬于此類;

  功率類:功率半導(dǎo)體主要運(yùn)用在汽車動力控制系統(tǒng)、照明系統(tǒng)、燃油噴射、底盤安全等系統(tǒng)當(dāng)中,其中傳統(tǒng)燃油車一般將它運(yùn)用在啟動與發(fā)電、安全等領(lǐng)域;新能源汽車則需要大量功率半導(dǎo)體來實(shí)現(xiàn)車輛頻繁的電壓變換需求,此外電動車的許多零部件中也少不了功率半導(dǎo)體的加持。電動汽車的核心零部件IGBT芯片就是一種功率半導(dǎo)體芯片;

  傳感器類:用于對車輛各種狀態(tài)信息的采集,如車速、各種介質(zhì)的溫度、發(fā)動機(jī)運(yùn)轉(zhuǎn)工況、地面信息等。傳統(tǒng)上例如氧傳感器、胎壓傳感器、水溫傳感器、電子油門踏板位置傳感器等等,新能源車與智能車上,還包含圖像傳感器、雷達(dá)、超聲、聲音、更加精密的動作傳感等。隨著智能駕駛和智能座艙的逐步引入,對傳感器的需求開始大幅度增加,技術(shù)與功能上也要求更加豐富;

  信號處理與通訊類:用于車內(nèi)各模塊、車間甚至車與廣域網(wǎng)的信息傳輸與交互,包含傳統(tǒng)上的CAN總線、USB總線與車載以太網(wǎng),也包含現(xiàn)在V2X以及T-Box和娛樂系統(tǒng)等廣域網(wǎng)要求。

  存儲芯片與其他類:有SoC、CPU、GPU這一類主控芯片的地方,都需要DRAM、FLASH等存儲類芯片,在汽車?yán)镆嗍侨绱?。尤其?dāng)智能要求越來越高,對存儲類芯片的規(guī)格、種類與數(shù)量的要求也越來越高。甚至在新能源汽車?yán)锏腂MS(電池管理系統(tǒng)),要對數(shù)據(jù)進(jìn)行高頻的讀寫,這對存儲器的擦寫循環(huán)次數(shù)、速度和壽命都有著要求。

  需要說明的是,由于設(shè)計(jì)安全與環(huán)境問題,車載芯片對于可靠性及安全性的要求也更高,對物理、電氣性能有著更為嚴(yán)格的要求,工作溫度范圍可寬至-40℃~155℃,對高振動、多粉塵、電磁干擾等也有著明確的要求?!败囈?guī)級”芯片、模塊需要經(jīng)過嚴(yán)苛的認(rèn)證流程,包括可靠性標(biāo)準(zhǔn) AEC-Q100、質(zhì)量管理標(biāo)準(zhǔn)ISO/TS 16949、功能安全標(biāo)準(zhǔn)ISO26262等。

  丨整車品牌下場造“芯”,具體造的是什么“芯”?有什么戰(zhàn)略意義?

  正如前面所述,整車品牌也開始自主設(shè)計(jì)芯片,比如奔馳、大眾、蔚來、吉利和小鵬。在這些廠商中,主要還是從智能駕駛、智能座艙、新能源等新應(yīng)用需求出發(fā)而進(jìn)行設(shè)計(jì)的。一般來講,設(shè)計(jì)的芯片或者是具備整合了進(jìn)行AI推理計(jì)算的NPU、信號處理的DSP以及CPU的SoC芯片,或者是針對特定應(yīng)用的專用芯片(比如針對單模態(tài)/多模態(tài)AI處理的專用AI推理芯片),或者是類似于IGBT這種核心功率器件。

  正如在第6問中所述,從產(chǎn)業(yè)價值鏈上尋找技術(shù)制高點(diǎn)來提高競爭力,是整車廠的戰(zhàn)略目標(biāo)。在過去,傳統(tǒng)車企可以從提高能量轉(zhuǎn)換效率(發(fā)動機(jī))來提高競爭力,而今,涉及到駕駛體驗(yàn)、智能化程度和安全駕駛的層面講,芯片已經(jīng)是其中跨不過的坎兒。舉個例子,MobilEye提供的是芯片+算法的整體黑盒子方案,采用此方案的各家車廠都無法將自己在車輛實(shí)際行駛中獲得的知識(訓(xùn)練模型),運(yùn)用到整車中。這樣一來,就大大制約了各家車廠的差異化競爭,而這也是近來紛紛轉(zhuǎn)到Nvidia方案的原因。而從Tesla的案例中可以看到,特斯拉已經(jīng)不滿足于選用通用的計(jì)算平臺,而是要更加差異化,和自身的算法、模型、數(shù)據(jù)的豐富程度(整車市場占有率)深度結(jié)合,不斷加強(qiáng)自身的競爭壁壘。

  更何況,還有供應(yīng)鏈安全(不僅由于地緣政治格局,還有產(chǎn)業(yè)鏈競爭格局)的考慮。

  

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。