Waymo驚人的 29 個攝像頭的傳感器配置在自動駕駛圈內成為熱門話題。
近日,Waymo 在 Youtube 上發(fā)了一段視頻專門介紹“WaymoDriver”——自動駕駛巨頭的第五代無人車平臺。視頻主講人是 Waymo 設計主管 YooJung Ahn(安永君),這位一手打造了“螢火蟲”自動駕駛汽車的女設計師給我們分享了新平臺的基本設計理念。 安永君是一位出生在首爾的韓國人,實際只是消費類產品工業(yè)設計師,并非技術人士,加入谷歌前在摩托羅拉和 LG 做手機工業(yè)設計,從未有過汽車外觀設計經驗,也正因此設計出了螢火蟲那樣頗為驚艷的小車。她提到了 29 個攝像頭,還有許多匪夷所思的性能,比如攝像頭可以識別 500 米外的停止標識。眾所周知,有效距離與像素數關聯程度最高,目前車規(guī)圖像傳感器最高的是索尼的 IMX324,像素為 742 萬像素,也只敢說能看清 160 米外交通標識。 Waymo 有能力自己做攝像頭,但絕無能力自制圖像傳感器。Waymo 要么吹牛,要么使用了 2000 萬或 3000 萬像素的手機用攝像頭。這樣 Waymo 就離車規(guī)量產的距離越來越遠了。
如此高的數據流量恐怕 5 年內都找不到車規(guī)級芯片可對應。Waymo 或者說谷歌從事自動駕駛已經近 11 年,陸續(xù)燒掉估計超過 200 億美元資金,目前仍未有得到驗證的商業(yè)模式,Waymo 頻繁亮相說明 Waymo 已經著急想商業(yè)化了,但可能離商業(yè)化會越來越遠。越復雜的系統,出錯的機率越高,進化的成果應該是越來越簡潔,早期的手機和電腦的大芯片至少有十幾片,今天基本只有兩三片。而 Waymo 的傳感器卻越來越復雜。
言歸正傳。
在 Yole 的報告里,指出第一代 Waymo(第一代 Waymo 無人車應該指的是克萊斯勒大捷龍混動版)使用了 8 個 500 萬像素攝像頭,到目前也沒有車規(guī)級的 500 萬像素傳感器,可以肯定是非車規(guī)圖像傳感器。幀率只有 21fps,盡管如此,帶寬已經達 8.7Gbps。
第二代 Waymo 無人車應該是指捷豹 I-Pace。
第二代 Waymo 無人車根據 Yole 的說法,應該采用了 14 個 500 萬像素攝像頭,帶寬是驚人的 15.3Gbps。第二代 Waymo 無人車的傳感器(而不是攝像頭)有 29 個才更為合理,當然也有可能 Waymo 獨辟蹊徑,有過人之處,真用了 29 個攝像頭。 500 萬像素攝像頭數據帶寬超過 1Gbps,且至少 8 個,這需要非常昂貴的以太網交換機芯片,大多數車規(guī)級以太網交換機芯片只能對應 1 路或 2 路 2.5Gbps 帶寬輸入。目前輸入帶寬最高的是博通的 BCM53162,可以對應 4 路 2.5GbE,售價高達 650 美元(Mouser 報價,100 片起)左右,14 個 500 萬像素至少需要 3 片。
上圖為 BCM53162 應用圖
上圖為 BCM53162 內部框架圖
博通對 BCM53162 似乎沒有下力氣推廣,2019 年 3 月就推出了 BCM8956X 和 BCM8988X,但具體參數未對外披露。如果用了 2000 或 3000 萬像素的傳感器,帶寬至少得是 10Gbps,目前沒有車規(guī)級以太網交換機能對應這么高的帶寬。 Waymo 應該不會使用多片交換機芯片,業(yè)內更常見的做法是 FPGA 做以太網交換機芯片。FPGA 可以自定義接口,特別適合無人車這種還未出現成熟 ASIC 的領域,缺點是價格昂貴,能夠支撐如此多高寬帶輸入的 FPGA 價格估計最低也在 2000 美元以上。 在視覺計算方面,即便是只使用了 14 個 500 萬像素的攝像頭,那么如果這 14 個攝像頭都做深度學習計算的話,算力至少需要 1000Tops。特斯拉的 FSD 單片算力接近 37TOPS,已經是很高的了。需要指出算力比拼必須看精度,浮點、定點、整數、小數,FP64 為雙精度,FP32 為單精度,FP16 為半精度,還有 bfloat16 介于 FP32 和 FP16 之間。
通常都是浮點運算,還有更低的 INT8,即整數 8 位精度。做訓練用的多 FP64\FP32\FP16\bfloat16,做推理一般是 INT8。 特斯拉的 FSD 是 36.864TOPS,是基于 INT8 的,而谷歌的 TPU V3 是 420TOPS,是基于 bfloat16,如果換成 INT8 精度,至少可以達到 600TOPS,但 TPU 不是針對 INT8 設計的,所以沒有這個參數。一般來說,雙精度到半精度就是 4 倍,但英偉達的比較特殊,它有可能分開兩個針對不同精度的多核,比如英偉達的 GK104,每個 GK104 的 GPU 內含 1536 個 FP32 CUDA Core 和 64 個 FP64 Units ,單精度浮點數 理論峰值 = 2 GPU *1536 FP32 Core * 2 * 745MHz = 4.58TFlops,雙精度浮點數 理論峰值 =2 GPU * 64 FP64 core * 2 * 745MHz = 0.19TFlops。英偉達的 Tesla T4 有 2560 個 CUDA 核對應 FP16,還有 320 個 TURring Tensor 核對應 FP32,FP32 算力為 8.1TFLOPS(浮點),FP16 精度為 65.13TFLOPS(浮點),INT8 精度下可達 130TOPS,INT4 精度下可達 260TOPS。
那么 Waymo 有沒有可能用自己的獨門武器 TPU V3 呢?
需要指出 TPU V3 并非是一塊芯片,而是 4 片芯片構成的一塊板卡,谷歌還有規(guī)模更大的 1024 個 TPU V3 組成 TPU V3 POD。TPU V3 采用液冷,每個芯片算力有 105TOPS,TPU 使用 bfloat16 數據。因為深度學習的矩陣運算瓶頸在存儲帶寬,TPU V3 不計成本使用了 HBM 內存,內存帶寬 3516GB/s,是特斯拉的 10 倍以上帶寬,FSD 不可能達到 36.8TOPS 的理想狀態(tài),某些時候,可能會下降一半。英特爾、英偉達和華為的此類高算力芯片都是不計成本采用昂貴的 HBM 內存,AMD 的民用級產品也有奢侈使用 HBM。
之所以這么做就是深知瓶頸在存儲而非運算單元本身。TPU V3 未知其功耗,大多數人估計在 200-350 瓦之間,要達到 1000TOPS 以上,得 3 塊 TPUV3,功耗高達 1 千瓦,顯然更是遠離車規(guī)了,而成本則會非常驚人。一塊 TPU V3 估計價格在 5000 美元以上,3 塊得 1.5 萬美元。顯然遠離量產了。最重要的是 TPU V3 是針對訓練設計的。車載需要的是推理部分。
Waymo 不大可能用 TPU V3,成本和功耗太高。 目前有關 Waymo 計算平臺的唯一公開信息是 2017 年 9 月英特爾的新聞,英特爾聲稱自 2009 年以來,其一直與谷歌合作開發(fā)無人駕駛汽車,同時也與 Waymo 合作,為后者提供 Xeon 處理器、 Arria FPGA(用于機器視覺)以及千兆以太網的解決方案,以幫助 Waymo 無人汽車實時處理信息。EyeQ5 的算力只有 12TOPS,并且在今年才量產,顯然 Waymo 是不可能用 EyeQ5 的。最大可能還是 Xeon 處理器加 Arria FPGA。
上圖為英特爾設計的無人駕駛計算平臺。雖然英特爾寫的是 Arria 10 系列 FPGA,但針對深度學習加速,英特爾最常見的是 Stratix10。使用 FPGA 做深度學習加速的典型代表是微軟,從 2015 年末開始,微軟就在其購買的幾乎每臺新服務器上部署 Catapult FPGA 板卡。這些服務器被用于微軟的必應搜索、Azure 云服務以及其他應用。這也使得微軟成為了世界上最大的 FPGA 客戶之一。當使用微軟獨創(chuàng)的 ms-fp8 數據格式(8 位比特精度)時,在 Stratix 10 FPGA 上可以得到 90 TFLOPS 的峰值性能。 Stratix 10 是英特爾 2015 年的產品。2019 底,Stratix 10 升級為 Agilex,Agilex FPGA 芯片基于第二代 HyperFlex 架構開發(fā),相較于上一代的 Stratix 10 FPGA,性能提升了 40%,功耗降低了 40%,DSP FP16 半精度浮點性能最高 40 TFlops(每秒 40 萬億次)、INT8 整數性能最高 92Tops,收發(fā)器數據率最高 112Gbps。更高算力的有 Xilinx 的 ACAP 系列 FPGA,最高達 147TOPS(INT8)。
不過 FPGA 的功耗已經不是我們一貫印象中的那么低了,以英特爾 FPGA 的可編程加速卡來說,基于 Stratix 10 SX FPGA(280 萬邏輯單元)的 D5005 可編程加速卡,已在 HPE ProLiant DL3809 Gen10 服務器中應用。TDP 高達 215 瓦,Givena specific airflow, the Intel FPGA PAC D5005 can dissipate up to 189 W ofpower,of which up to 137 W can come from the FPGA. 英特爾稱一般情況下 D5005 功耗 189 瓦,FPGA 是 137 瓦。而英偉達的 T4 只有 75 瓦,芯片本身只有 70 瓦。D5005 價格也比較高,高達 1 萬美元,當然其內部還有 2 個四通道小型可插拔(QSFP)接口,接口速度高達 100G,關鍵它是可編程的,貴有貴的道理。不過 Stratix 10 SX FPGA 芯片的價格至少也在 3000 美元以上,英偉達的 T4 單芯片價格應該低于 1000 美元。 因此使用英偉達 Tesla T4 的可能性最高,Waymo 可能降低了深度學習模型的精度,可能是 INT2 甚至 INT1,T4 在 INT1 下可達 1040TOPS 算力。
最后說一下 Waymo 的外觀,這么多傳感器裸露在外,特別是無人車有時行動遲緩,在路口反應不過來,很容易被追尾或剮蹭,這些精密的傳感器先不用說更換的成本很高,安裝傳感器的復雜標定絕非一般 4S 店能完成的,特別是多個傳感器合二為一,每一個重新安裝都要標定,是單一標定還是聯合標定,恐怕只有 Waymo 總部用昂貴儀器才能做到。這樣的車保險費會高的驚人。 再有就是這些傳感器裸露在外,難免會讓小偷覬覦。另外這個巨大無比的車頂部分,傳統車廠絕對無法接受,風阻問題就是消耗能源問題。 Waymo 為無人車努力了 11 年,全球最頂尖的人才匯聚,燒掉至少 200 億美元,直到今天,還是工程樣車的模樣,離車規(guī)量產依然是遙遙無期。