《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計 > 業(yè)界動態(tài) > 性能翻倍,英偉達(dá)最強(qiáng)消費(fèi)級顯卡RTX 3090出爐:半價買泰坦

性能翻倍,英偉達(dá)最強(qiáng)消費(fèi)級顯卡RTX 3090出爐:半價買泰坦

2020-09-02
來源: 機(jī)器之心
關(guān)鍵詞: 英偉達(dá) GeForceRTX30

  英偉達(dá)說,這是 PC 游戲領(lǐng)域自 1999 年以來取得的最大突破。

  對于全球游戲玩家和 AI 從業(yè)者來說,一個重要時刻到來了。

  剛剛,同樣是在自家廚房,英偉達(dá)創(chuàng)始人黃仁勛向世人發(fā)布了最新一代消費(fèi)級顯卡 GeForce RTX 30 系列的最初三個型號 GeForce RTX 3070、RTX 3080、RTX 3090。

  「無論性能還是能效,安培架構(gòu) GPU 都是圖靈的兩倍,」黃仁勛說道?!笍募軜?gòu)、定制流程設(shè)計、電路、邏輯、封裝、series IO、顯存、供電、散熱、軟件和算法…… 我們在所有層面壓榨 GPU 的性能,最終實(shí)現(xiàn)了世界水平?!?/p>

  關(guān)于這次發(fā)布,網(wǎng)上早已有各類信息提前曝光。但大家最為關(guān)心的就是 GeForce RTX 30 系列的性能與報價。用老黃的話說就是,與 2080 價位相同,但速度提升了一倍。而 3090 更是 GPU 中的猛獸,黃仁勛稱之為 BFGPU(big ferocious)。

微信圖片_20200902134845.jpg

  這些公版GPU的國行價格也第一時間出現(xiàn)在了英偉達(dá)中國官網(wǎng)上:

微信圖片_20200902134906.jpg

  當(dāng)今最強(qiáng) GPU

  在深度學(xué)習(xí)、光線追蹤的一系列熱場后,黃仁勛突然從放置抹刀的瓶子后,拿出了了一塊 RTX 3080,開始正式介紹 RTX30 系列。

  總體來說,GeForce RTX 30 系列確實(shí)占據(jù)了 GPU 界的多項(xiàng)「第一」:首款有著 24GB  GDDR6X 顯存的游戲圖形卡;首批支持 HDMI 2.1 的 GPU,一塊顯卡即可實(shí)現(xiàn) 4k 高刷新率或 8k 游戲;首批支持 AV1 編譯碼器的獨(dú)立 GPU,實(shí)現(xiàn)以更少的帶寬觀看更高分辨率的視頻流。

  最大號的 GeForce RTX 3090,當(dāng)然還是要從烤箱里拿出來。

  RTX 3090 是世界上第一個 8K 游戲 GPU。為什么一定要 8K?在英偉達(dá)看來,分辨率的提高會讓視覺效果更加清晰銳利,讓玩家更好地辨認(rèn)出遠(yuǎn)方的游戲元素,以及讓細(xì)節(jié)更加真實(shí),比如頭發(fā)、衣服縫線和皮膚皺紋。

  這款顯卡更類似于 Titan 系列,比上一代「正常范圍內(nèi)」的最高級顯卡 GeForce RTX 2080 Ti 的性能要強(qiáng)大許多。RTX 3090 將于 9 月 24 日上市,起始價為 1499 美元。如果說沒有傳說中 40G 顯存的新泰坦,它就是旗艦 GPU 了。

  在具體參數(shù)上,RTX 3090 使用代號為 GA102 的核心,和前代泰坦一樣擁有 24G 顯存,但型號升級為 DDR6X(鎂光提供),顯存速度 19.5Gbps,384bit 位寬,擁有 10496 個等效 CUDA 核心,相比 GeForce RTX 2080 Ti,3090 的核心數(shù)量增加一倍不止,功耗則達(dá)到了 350W。

  另外,RTX 3080 是 320bit 位寬,內(nèi)建 8704 個 CUDA,顯存 10G,功耗 320W。RTX 3070 則有 5888 個 CUDA。

  相比之下,2080Ti 的 CUDA 核心是 4300 個,所以黃仁勛在發(fā)布中說 3070 性能超過 2080Ti,看來是沒什么問題的。

  單從核心數(shù)量上來看,這巨大的提升讓最近買了 RTX 20 系列的人有了四九年入國軍的感覺。不過需要注意的是,英偉達(dá)官方標(biāo)記的數(shù)據(jù)是等效核心,與之前的物理核心不同。

  Nvidia GeForce 性能對比,來源:ANANDTECH

  這些顯卡均支持 PCIe 4.0,還有 HDMI 2.1 和 DP 1.4a 等接口,并內(nèi)含第二代光追核心 RTX Core、第三代張量核心 Tensor Core。

  可以看到,RTX 3090 和 RTX 3080 顯存容量差距較大,這或許是在為稍后推出的 RTX 3080 Super 留位置。另外,3090 的 24G 內(nèi)存和 1399 美元的價格或許能夠讓很多對深度學(xué)習(xí)有需求的用戶省下買泰坦的預(yù)算。如果你真的想要「Titan Ampere」,預(yù)計它會是一個顯存 40G,售價 3000 美元的夸張顯卡。

  另外需要注意的是 GPU 代工廠,今天發(fā)布的 GeForce RTX 30 系列均采用了三星的 8 納米制程「英偉達(dá)定制工藝」,選擇三星而不是臺積電,不知是出于什么樣的考慮。

  安培架構(gòu),AI 算力再上臺階

  這些強(qiáng)大的 GPU,采用的都是今年 5 月剛剛推出的最新 7 納米制程架構(gòu)安培(Ampere),其首先被 Tesla A100 所采用。

  在當(dāng)時的 GTC 大會上,英偉達(dá)推出的安培架構(gòu)計算卡 A100,成為了當(dāng)時人類制造出的最大 7 納米制程芯片。這塊 AI 計算卡采用先進(jìn)的臺積電(TSMC)7 納米工藝,擁有 540 億個晶體管,它還是一塊 3D 堆疊芯片,面積高達(dá) 826mm^2,最大功率達(dá)到了 400W。

  除了制程提高,安培架構(gòu)還有一些針對 AI 計算特有的機(jī)制,其中的三代 Tensor Core 會對稀疏張量運(yùn)算進(jìn)行特別加速:執(zhí)行速度提高一倍,也支持 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速——系統(tǒng)會自動將數(shù)據(jù)轉(zhuǎn)為 TF32 格式加速運(yùn)算,現(xiàn)在你無需修改任何代碼量化了,直接自動訓(xùn)練即可。

  針對稀疏矩陣的加速可以讓安培架構(gòu) GPU 處理 AI 任務(wù)的效率提高一倍。

  最終在跑 AI 模型時,如果用 PyTorch 框架,相比上一代 V100 芯片,A100 在 BERT 模型的訓(xùn)練上性能提升 6 倍,BERT 推斷時性能提升 7 倍。

  不過由于消費(fèi)級和專業(yè)級芯片的結(jié)構(gòu)不盡相同,我們不能把 Ampere A100 芯片的 AI 訓(xùn)練性能簡單地直接拿來作為參考,還需要等待官方公布,以及最終實(shí)測的數(shù)據(jù)。

  黃仁勛表示,GeForce RTX 30 系列顯卡具備三項(xiàng)基礎(chǔ)處理技術(shù):30TFLOPS 算力的可編程著色器(Turing 架構(gòu)是 11),雙倍吞吐量,用于光追的 RT Core(58 RT TFLOPS,Turing 架構(gòu)是 34),以及可自動忽略次要 DNN 權(quán)重的 Tensor Core(238Tensor TFLOPS,舊版為 89)。

  三個方面,性能相比前一代都是翻倍。

  AI 是目前科技領(lǐng)域最強(qiáng)大的技術(shù)力量,可以讓計算機(jī)從大量數(shù)據(jù)中學(xué)習(xí)知識,甚至據(jù)此編寫出軟件。在圖形領(lǐng)域,我們?nèi)匀豢梢酝ㄟ^ Tensor Core 的力量增強(qiáng)視頻的畫面?!肝覀儸F(xiàn)在可以只計算低分辨率圖像的光追,再用 Tensor Core 通過 DLSS 將其還原成高分辨率,同時還能提高畫面幀率?!裹S仁勛說道。

  英偉達(dá)通過自己的超級計算機(jī)訓(xùn)練了多種不同場景的圖像,并將訓(xùn)練好的模型以顯卡驅(qū)動的程序安置在你的電腦中。在游戲運(yùn)行時,AI 會通過上一幀高清圖對現(xiàn)有低分辨圖進(jìn)行渲染,最終達(dá)到超過原畫的效果。據(jù)介紹,在最新版的 DLSS 2.0 上,Tensor Core 可以把 RTX 的性能提升一倍——這也意味著游戲的有效幀數(shù)可以變成兩倍,現(xiàn)在光線追蹤、高分辨率和高幀率可以同時擁有了。

  用它來打游戲會是什么樣?

  除了新的圖像增強(qiáng)工具 DLSS 2.0,隨著安培架構(gòu)的 GeForce 顯卡,英偉達(dá)推出了 Nvidia Reflex、Nvidia Broadcast、Machinima 等工具,基于 RTX 的強(qiáng)大算力,現(xiàn)在人們不僅可以獲得更好的游戲畫面,也可以在游戲時獲得更低的延遲、直播時屏蔽環(huán)境噪音,替換背景,實(shí)現(xiàn)綠幕效果、甚至直接用游戲里的元素創(chuàng)作出你想要的電影。

  如今,大型 3D 游戲的容量已經(jīng)超過了 200G,大量圖像材質(zhì)需要從被解壓縮,進(jìn)而交由 GPU 處理。在使用了 PCIe-4 和固態(tài)硬盤之后,CPU 解壓縮成為了這個流程的瓶頸?,F(xiàn)在,通過新技術(shù) RTX IO,GPU 可以無損進(jìn)行解壓縮工作了。

  自 Turner Whitted 等人首次發(fā)表光線追蹤的論文以來,已過去了 40 年,如今這項(xiàng)技術(shù)從計算及圖形的圣杯變成了人人都可以體驗(yàn)的實(shí)時游戲畫面。黃仁勛還宣布《堡壘之夜》已經(jīng)支持英偉達(dá)的光線追蹤技術(shù)。「現(xiàn)在,全球排名前二的最受歡迎游戲,《我的世界》和《堡壘之夜》,都已支持光追?!裹S仁勛說道。

  為了讓新一代 GeForce 顯卡能夠充分發(fā)揮作用,英偉達(dá)還發(fā)布了一款夸張的 360Hz 刷新率 G-Sync 屏幕,預(yù)計今年秋天就會出現(xiàn)在宏基、華碩、微星、外星人等品牌的電腦配置單上。

  幾個月前,黃仁勛在 GTC 上展示了 Turing 進(jìn)行數(shù)百光源的光追實(shí)時渲染的 Marbles 撞球游戲視頻,使用 Turing RTX Quadro 8000,達(dá)到 720p 25 幀。而使用安培架構(gòu)的 GPU,現(xiàn)在我們可以實(shí)現(xiàn) 1440p、30 幀,并增加更多的特效,這是超過四倍的性能。

  還想要更好的效果?你也可以通過 NVLink 把兩張 GeForce RTX 3090 進(jìn)行 SLI,以達(dá)到性能的大幅度擴(kuò)展。不過看看一張卡的價格,這種事估計只有玩微軟模擬飛行的時候才會有人干吧。

  最后,對于 RTX 3090 在常規(guī)任務(wù)中的性能,目前已有了一些傳聞,據(jù)稱基于 GA102 的未定型顯卡在未優(yōu)化完整的游戲中以 4K 分辨率跑起來比 RTX 2080 Ti 的幀數(shù)高 40%,而優(yōu)化過的游戲中性能更是要高出 50%,在針對安培架構(gòu)進(jìn)行優(yōu)化最佳情況下,性能提升可高達(dá) 70%。想要在 4K 分辨率下看高刷新率畫面,現(xiàn)在不是問題了。

  采用英偉達(dá)大量最新技術(shù)的游戲《賽博朋克 2077》,預(yù)定在今年 11 月 19 日與人們見面。

  在星際迷航中,劇中人會使用 Holodeck 創(chuàng)造虛擬現(xiàn)實(shí)環(huán)境進(jìn)行任務(wù),現(xiàn)在這種科幻的夢想很大程度上成為了現(xiàn)實(shí)?!肝磥恚珿eForce 就是你的 Holodeck,你的光速飛船,你的時間機(jī)器?!裹S仁勛說道。

  正如人們所預(yù)料,RTX 3090 的性能絕對強(qiáng)勁。現(xiàn)在,問題來到了我們這邊,1 萬元一塊的泰坦級顯卡,你會不會買?

  不久之前, KDD 2020 公布了最佳論文、最佳學(xué)生論文等多個獎項(xiàng)。其中,最佳學(xué)生論文獎由杜克大學(xué)的李昂、楊幻睿、陳怡然和北航段逸驍、楊建磊摘得。

  為了幫助讀者們更細(xì)致的了解這篇論文,9月3日最新一期的機(jī)器之心線上論文分享邀請到最佳學(xué)生論文一作李昂,為我們介紹該研究。

  

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。