本文轉(zhuǎn)自驅(qū)動(dòng)之家
過去每一年開頭的CES大展上,NVIDIA都會(huì)帶來新一代的Tegra移動(dòng)處理器。盡管過去兩代表現(xiàn)一般,但是黃仁勛還是親自登臺(tái),推出了全新的Tegra X1。
【GPU:強(qiáng)大的麥克斯韋】
首先,NVIDIA是一家GPU公司,因此無論在桌面還是移動(dòng)市場上,都對(duì)GPU異常重視。去年的Tegra K1首次引入了與桌面平級(jí)的開普勒架構(gòu),192個(gè)流處理器帶來了驚人性能。今年的Tegra X1則進(jìn)一步升級(jí)為麥克斯韋架構(gòu),流處理器也增至256個(gè)。
換句話說,去年用的是一組陣列(SMX),今年則是兩組(SMM)!隨之而來的是,紋理單元、ROP單元也都大大增強(qiáng)了,均有16個(gè),尤其后者翻了兩番,對(duì)于驅(qū)動(dòng)4K 60Hz顯示有很大好處。
從初步測試結(jié)果看,Tegra X1 GPU性能依然彪悍,可以輕松搞定蘋果A8X里八核的PowerVR GXA6850。
在時(shí)間上,開普勒誕生了將近兩年才走入移動(dòng)平臺(tái),麥克斯韋架構(gòu)只用了一年。更確切地說,Tegra X1用的是第二代麥克斯韋架構(gòu),而它在桌面上才出現(xiàn)了一個(gè)季度多點(diǎn)而已。
這也說明,NVIDIA的新架構(gòu)從一開始就為移動(dòng)平臺(tái)進(jìn)行了同步優(yōu)化,所以我們才屢次看到麥克斯韋的能效是那么高,功耗是那么低。
新架構(gòu)的諸多圖形技術(shù)也被帶了過來,包括更高效的CUDA核心、更簡練的SMM陣列、第三代Delta色彩壓縮、保守光柵化算法、體積區(qū)塊資源(DX11.2)、多幀抗鋸齒(MFAA)等等。
更重要的是內(nèi)存帶寬,這一直是限制移動(dòng)SoC的瓶頸,傳統(tǒng)方法就是增加位寬,但會(huì)大大提高復(fù)雜度和成本。
Tegra X1還是停留在64-bit位寬,但是大大增強(qiáng)了內(nèi)存壓縮,包括剛才說的第三代Delta色彩壓縮,以及新的端到端壓縮。再輔以新的LPDDR4(頻率可達(dá)1600MHz),內(nèi)存帶寬基本不是問題。
然后值得一提的就是半精度FP16的支持,NVIDIA稱之為“雙倍速FP16”(Double Speed FP16)。
和開普勒一樣,麥克斯韋架構(gòu)也只有專門的單精度FP32、雙精度FP64 CUDA核心,并沒有給FP16分配獨(dú)立資源,只是在操作方式上做了改變。
Tegra K1 FP16操作會(huì)被給予和FP32相同的待遇,每一個(gè)都交給FP32 CUDA核心處理。Tegra X1上如果條件允許,則會(huì)將兩個(gè)FP16合并成一個(gè)Vec2,交給單獨(dú)一個(gè)FP32 CUDA核心去處理。
這里的前提是兩個(gè)FP16操作屬于同一類型,比如都是加法或者乘法,甚至是乘加運(yùn)算(FMA)。
所以說,NVIDIA宣稱的原生支持FP16并不完全準(zhǔn)確,只不過耍了個(gè)花招而已,比對(duì)手還是差一些。ARM Mali、Imagination PowerVR都有獨(dú)立的FP16單元,AMD GCN 1.2版也會(huì)引入。
FP16在安卓的顯示合成里使用非常多,游戲里也能看到,但更重要的是,它還能參與圖形計(jì)算,比如圖像識(shí)別什么的,比如Drive PX車載平臺(tái)里就需要它。
具體頻率還是沒有公布,而按照NVIDIA說的1TFlops FP16浮點(diǎn)性能,那么應(yīng)該是1GHz(1GHz×2FP16×2FMA×256=1TFlops),比去年略微高了一些。
FP32單精度浮點(diǎn)性能為512GFlops,比去年提高了40%。
【CPU:為啥不用自主架構(gòu)?】
Tegra K1去年先是使用公版的四核A15,然后終于用上了NVIDIA自己苦心研發(fā)多年的64位自主架構(gòu)“丹佛”,按理說今年只能是丹佛的增強(qiáng)版,甚至上四核,但結(jié)果卻是四核A57加四核A53這種大路貨。
究竟發(fā)生了什么?可以從路線圖的變更上揣測一番。
Tegra K1的開發(fā)代號(hào)是“Logan”,金剛狼洛根,它之后本來應(yīng)該說是“Parker”,另一位超級(jí)英雄蜘蛛俠帕克,說是會(huì)有丹佛架構(gòu)CPU、麥克斯韋架構(gòu)GPU、(16nm)FinFET制造工藝。
但去年3月底的時(shí)候,NVIDIA將其改成了“Erista”,金剛狼的兒子,而且只標(biāo)注了麥克斯韋GPU架構(gòu),CPU和工藝根本不提。
如此一來就很好說了:計(jì)劃不如變化,臺(tái)積電的16nm FinFET工藝雖然速度很快,但還是無法滿足NVIDIA的進(jìn)度要求,只能退而求其次,先用20nm的頂一陣子,相當(dāng)于臨時(shí)加了一步棋(要說這代號(hào)也取 得很妙),這樣時(shí)間上自然很緊迫,照搬公版架構(gòu)就在情理之中了。
按照目前的跡象,Tegra X1應(yīng)該會(huì)只有這一個(gè)版本,更美好的事情得等明年。
具體來說,Tegra X1 A57核心搭配了2MB共享二級(jí)緩存,每個(gè)核心還有48KB一級(jí)指令緩存、32KB一級(jí)數(shù)據(jù)緩存,A53核心則共享512KB二級(jí)緩存,同時(shí)每個(gè)核心有32KB一級(jí)指令緩存、32KB一級(jí)數(shù)據(jù)緩存。
不過,NVIDIA并沒有使用ARM big.LITTLE雙架構(gòu)體系、CCI-400互連總線,而是自己設(shè)計(jì)了互連總線,還讓全部八個(gè)核心可以同時(shí)運(yùn)行,系統(tǒng)和應(yīng)用可以隨意調(diào)用。
而且,該系統(tǒng)是緩存一致性的,所以不會(huì)像類似方案那樣損失功耗和性能。
NVIDIA宣稱,Tegra X1的能耗比與三星Exynos 7410是齊平的,同等功耗下性能高出40%,同等性能下功耗少50%。——兩家都是20nm。
內(nèi)存支持從LPDDR3升級(jí)為LPDDR4,位寬仍然是64-bit,峰值帶寬從14.9GB/s增至25.6GB/s,能效也提升了大約40%。
最大內(nèi)部分辨率也從3200×2000@60Hz增強(qiáng)到了3840×2160@60Hz,并支持VESA顯示流壓縮。
外部顯示方面支持HDMI 2.0、HDCP 2.2,意味著可以搞定4K@60Hz,而上代只有4K@30Hz。
ISP JPEG編碼解碼速度加快了4倍,同時(shí)新增4K@60Hz H.265(10-bit)、VP9解碼,但是編碼僅支持4K@30Hz H.265。
H.264、VP8解碼也都提升到了4K@60Hz。
哦對(duì)了,存儲(chǔ)支持eMMC 5.1。
最后的最后,功耗。這是一個(gè)很敏感的問題,NVIDIA乃至幾乎所有廠商歷代都在刻意回避,從不公布具體的功耗指標(biāo)。這一次NVIDIA也只是說能效比上代提高了一倍。
據(jù)說Tegra X1現(xiàn)場展示的需要大約10W,其中GPU非常低,電老虎還是CPU部分。