在自動駕駛領域,GPU強大的算力是自動駕駛芯片的一種選擇,也造就了擁有著最強大性能GPU的英偉達在這個領域的地位,英偉達Xavier也可能成為全球首個通過ISO26262標準的自動駕駛芯片。
但是,特斯拉正在研發(fā)的這款人工智能芯片,也稱之為神經(jīng)網(wǎng)絡芯片,則可以在不使用CPU和GPU的情況下,通過使用微處理器設計的芯片,同樣可以為汽車帶來完全自動駕駛能力,這款芯片將隨著Autopilot 3.0硬件版本一起發(fā)布。
在特斯拉最新公開的專利申請中,解釋了特斯拉為何要放棄CPU和GPU為特斯拉的機器學習系統(tǒng)提供算力:
機器學習和人工智能的處理通常需要對大量數(shù)據(jù)進行數(shù)學運算,通常需要解決多個卷積層和池化層,機器學習和人工智能技術通常利用矩陣運算和激活函數(shù)等非線性函數(shù),機器學習的應用包括自動駕駛和輔助駕駛。
在一些場景中,計算機處理器(CPU)被用來執(zhí)行機器學習訓練和推理。傳統(tǒng)的計算機處理器能夠非??斓貓?zhí)行單一的數(shù)學運算,但通常只能同時處理有限數(shù)量的數(shù)據(jù)。作為一種替代方法,可以使用圖形處理單元(GPU),并能夠并行地對更大的數(shù)據(jù)集執(zhí)行相同的數(shù)學操作。
通過使用多個處理器內核,GPU可以并行執(zhí)行多個任務,通常能夠比傳統(tǒng)計算機處理器更快地完成大型圖形處理任務。然而,GPU和傳統(tǒng)的計算機處理器最初都不是為機器學習或人工智能操作而設計的。
機器學習和人工智能操作,通常依賴于在非常大的數(shù)據(jù)集上重復應用一組特定的機器學習處理器操作。因此,需要一種微處理器系統(tǒng)來支持在大型數(shù)據(jù)集上并行執(zhí)行機器學習和人工智能特定的處理操作,而不需要每個并行操作的多個處理核心的處理方式。
在特斯拉這系列的專利被提名的專利人包括Peter Bannon,前蘋果芯片架構師,現(xiàn)特斯拉芯片項目負責人;Emil Taples,曾長期擔任AMD芯片架構師;Debjit Das Sarma,AMD前首席CPU架構師。
特斯拉一系列的專利,闡述了為解決放棄GPU問題而設計的微處理器,下面是關于特斯拉全新人工智能芯片專利的介紹:
01
加速數(shù)字引擎
特斯拉在專利申請中描述了該發(fā)明:
本發(fā)明的各種實施例與加速數(shù)學引擎有關:在某些實施例中,所述加速數(shù)學引擎應用于圖像處理,以便通過使用包含包括ALU、輸出寄存器和陰影寄存器的子電路的二維矩陣處理器加速圖像的卷積。這種架構支持一種時鐘化的二維架構,在這種架構中,圖像數(shù)據(jù)和權重以同步的方式相乘,從而允許并行執(zhí)行大量的數(shù)學運算。
以下是申請專利時的一些圖紙和原理圖:
02
可變延遲內存訪問計算陣列微處理器系統(tǒng)
特斯拉在專利申請中描述了該發(fā)明:
微處理器系統(tǒng)包括計算陣列和硬件仲裁器:計算陣列包括多個計算單元。多個計算單元中的每一個都對從存儲器中尋址的相應值進行操作。硬件仲裁程序被配置為控制對來自計算單元的內存的一個或多個對應值發(fā)出至少一個內存請求。硬件仲裁器還被配置為根據(jù)內存請求的發(fā)出調度要發(fā)出的控制信號。
以下是申請專利時的一些圖紙和原理圖:
03
非連續(xù)數(shù)據(jù)格式的計算陣列微處理器系統(tǒng)
特斯拉在專利申請中描述了該發(fā)明:
微處理器系統(tǒng)包括計算陣列和硬件數(shù)據(jù)格式化器:計算陣列包括多個計算單元,每個計算單元對從內存中尋址的對應值進行操作。由計算單元操作的值作為一組要并行處理的值同步地提供給計算陣列。硬件數(shù)據(jù)格式化程序配置為收集值組,其中值組包括內存中連續(xù)放置的值的第一個子集和內存中連續(xù)放置的值的第二個子集。不需要從第二個值子集連續(xù)地在內存中定位第一個值子集。
以下是申請專利時的一些圖紙和原理圖:
04
Vertor計算單元
特斯拉在專利申請中描述了該發(fā)明:
微處理器系統(tǒng)包括計算陣列和向量計算單元:計算陣列包括多個計算單元。所述矢量計算單元與所述計算陣列通信,并包括多個處理元素。處理元素被配置為接收計算數(shù)組的輸出數(shù)據(jù)元素,并并行處理接收的輸出數(shù)據(jù)元素。
以下是申請專利時的一些圖紙和原理圖:
特斯拉的自動駕駛芯片的設計思路,為解決自動駕駛的問題提供了新的方向,這可能是這個芯片最值得研究的地方。之所以采取微處理器為主的設計思路,或許是因為這個設計更符合特斯拉自動駕駛路線的硬件設備。