在英偉達(dá)GTC大會(huì)期間,英偉達(dá)(NVIDIA)首席科學(xué)家兼研究高級(jí)副總裁Bill Dally、英偉達(dá)AI研究副總裁Sanja Fidler與智東西等全球媒體進(jìn)行交流,分享了NVIDIA Research的進(jìn)展,并現(xiàn)場演示英偉達(dá)最新文生3D模型LATTE3D。
LATTE3D模型就像一臺(tái)虛擬3D打印機(jī)。只需在文本框輸入文字描述,在單張消費(fèi)級(jí)GPU上運(yùn)行,不到1秒時(shí)間,該模型就能按要求生成對(duì)應(yīng)的物體和動(dòng)物的幾個(gè)不同的3D形狀,供創(chuàng)建者選擇,再在幾分鐘內(nèi)優(yōu)化成更高的質(zhì)量。而3D形狀可以隨意放大、旋轉(zhuǎn),360度無死角。
“一年前,AI模型需要1小時(shí)才能生成這種質(zhì)量的3D視覺效果,而目前的技術(shù)水平大約是10到12秒。”Sanja Fidler說。
現(xiàn)場演示了讓LATTE3D生成小蛋糕、豬豬氣球、踩滑板且戴著高帽子的針織鴨、踩著滑雪板并戴著聚會(huì)帽的小兔子。全程都很絲滑迅速,接近實(shí)時(shí)生成。生成的3D素材能直接導(dǎo)入圖形軟件應(yīng)用程序或平臺(tái)中,比如Omniverse平臺(tái)。
對(duì)于開發(fā)視頻游戲、廣告活動(dòng)、設(shè)計(jì)項(xiàng)目或虛擬機(jī)器人訓(xùn)練場地等應(yīng)用來說,這都是個(gè)看起來很有吸引力的3D素材創(chuàng)建工具。
Bill Dally說,NVIDIA Research為未來的成功播下種子,既有登月項(xiàng)目,又有很多研究小組,研究方向包括GPU存儲(chǔ)系統(tǒng)、編程系統(tǒng)、網(wǎng)絡(luò)、架構(gòu)、超大規(guī)模集成電路(VLSI)、圖形、感知與學(xué)習(xí)等。這些研究塑造了英偉達(dá)的與眾不同。
據(jù)Bill Dally分享,NVIDIA Research團(tuán)隊(duì)有三個(gè)原則:1、希望以最少的努力獲得最大的回報(bào);2、提高影響力,而不是出版物記錄;3、希望與產(chǎn)品保持緊密的聯(lián)系。
NVIDIA Research由全球數(shù)百名科學(xué)家和工程師組成,專注于AI、計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、自動(dòng)駕駛汽車和機(jī)器人等主題。很多源自研究院的技術(shù),如OptiX、CuDNN、光線追蹤算法和硬件、Volta SM、Flip-Flops、NVSwitch、DLSS等,都成功轉(zhuǎn)化成商業(yè)用途。
其研究團(tuán)隊(duì)分布在世界各地。面向3D生成式AI模型的新模型LATTE3D便是由英偉達(dá)位于加拿大多倫多的AI實(shí)驗(yàn)室團(tuán)隊(duì)研發(fā)的。該團(tuán)隊(duì)還研發(fā)過GANverse3D、GET3D、Magic3D、ASE、GameGAN、VideoLDM等模型。
LATTE3D使用英偉達(dá)A100 GPU進(jìn)行訓(xùn)練,模型先生成神經(jīng)3D形狀,然后用圖像擴(kuò)散模型作為老師來對(duì)渲染圖像進(jìn)行反饋。除了3D形狀外,該模型還接受了使用ChatGPT生成的各種文本提示詞的訓(xùn)練,以提高模型處理用戶描述特定3D對(duì)象的各種短語的能力。比如,它能理解以各種犬類為特征的提示應(yīng)該都生成類似狗的形狀。
當(dāng)研究人員在特定的動(dòng)物和日常用品數(shù)據(jù)集上訓(xùn)練LATTE3D時(shí),開發(fā)人員可使用相同的模型架構(gòu)在其他數(shù)據(jù)類型上訓(xùn)練AI。
例如,如果在3D植物數(shù)據(jù)集上進(jìn)行訓(xùn)練,LATTE3D可幫助景觀設(shè)計(jì)師在與客戶進(jìn)行頭腦風(fēng)暴時(shí)快速填充樹木,開花灌木和多肉植物的花園渲染。如果對(duì)家用物品進(jìn)行訓(xùn)練,該模型可以生成物品來填充家庭場景的3D模擬,開發(fā)人員可以用它來訓(xùn)練個(gè)人助理機(jī)器人,然后再在現(xiàn)實(shí)世界中進(jìn)行測試和部署。