《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 業(yè)界動(dòng)態(tài) > Knight Rider采用GAN模型:AI 和 NVIDIA Omniverse為 KITT 帶來(lái)活力

Knight Rider采用GAN模型:AI 和 NVIDIA Omniverse為 KITT 帶來(lái)活力

2021-04-23
來(lái)源:互聯(lián)網(wǎng)
關(guān)鍵詞: GaN AI NVIDIA

  NVIDIA 研究院 正在研發(fā)一種全新深度學(xué)習(xí)引擎,該引擎可以根據(jù)標(biāo)準(zhǔn)的 2D 圖像來(lái)創(chuàng)建 3D模型,并可以在 NVIDIA Omniverse 中,為諸如由Knight Rider 的 AI 驅(qū)動(dòng)的 KITT 等標(biāo)志性汽車(chē)帶來(lái)活力。

608257f433279-thumb.png

  由多倫多的 NVIDIA AI 研究實(shí)驗(yàn)室開(kāi)發(fā)的 GANverse3D 應(yīng)用將平面圖像放大成逼真的 3D 模型,可以在虛擬環(huán)境中可視化和控制。這種性能可以幫助建筑師、創(chuàng)作者、游戲開(kāi)發(fā)人員和設(shè)計(jì)師輕松地將新對(duì)象添加到他們的實(shí)體模型中,而不需要 3D 建模方面的專(zhuān)業(yè)知識(shí),也不需要在渲染上花費(fèi)大量預(yù)算。

  例如,單張汽車(chē)照片可以轉(zhuǎn)換為3D模型,該模型可以在虛擬場(chǎng)景中行駛,并配有逼真的前燈、尾燈和轉(zhuǎn)向燈。

  為了生成訓(xùn)練數(shù)據(jù)集,研究人員利用生成性對(duì)抗網(wǎng)絡(luò) ——GAN合成圖像,從多個(gè)角度描繪同一物體 — 就像攝影師繞著一輛停著的汽車(chē)走動(dòng),從不同的角度拍攝。這些多視圖圖像被插入到逆圖形的渲染框架中,逆圖形是從 2D 圖像推斷 3D 網(wǎng)格模型的過(guò)程。

  一旦完成了多視圖圖像訓(xùn)練,GANverse3D 只需要一個(gè) 2D 圖像即可預(yù)測(cè) 3D 網(wǎng)格模型。該模型可以與 3D 神經(jīng)渲染器一起使用,使開(kāi)發(fā)人員能夠自定義對(duì)象和交換背景。

  當(dāng)作為 NVIDIA Omniverse 平臺(tái)的擴(kuò)展導(dǎo)入并在 NVIDIA RTX GPU 上運(yùn)行時(shí),GANverse3D 可將任何 2D 圖像重建為 3D,就像流行的 20 世紀(jì) 80 年代 Knight Rider 電視節(jié)目中備受喜愛(ài)的打擊犯罪的汽車(chē) KITT 一樣。

  以前的逆圖形模型依賴(lài)于 3D 圖形作為訓(xùn)練數(shù)據(jù)。

  相反,在沒(méi)有 3D 要素的幫助下,“我們把 GAN 模型變成了一個(gè)非常高效的數(shù)據(jù)生成器,這樣我們就可以基于網(wǎng)絡(luò)上的任何 2D 圖像創(chuàng)建出 3D 對(duì)象?!盢VIDIA 的研究科學(xué)家、該項(xiàng)目的主要作者 Wenzheng Chen 說(shuō)。

  “因?yàn)槲覀兪歉鶕?jù)真實(shí)圖像而不是合成數(shù)據(jù)進(jìn)行訓(xùn)練的,所以 AI 模型能更好地推廣到現(xiàn)實(shí)世界的應(yīng)用中?!痹擁?xiàng)目的作者、NVIDIA 研究員 Jun Gao 表示。

  GANverse3D 背后的研究將在兩個(gè)即將召開(kāi)的會(huì)議上發(fā)表:5 月份的ICLR和 6 月份的CVPR。

  從爆胎到賽車(chē) KITT

  游戲、架構(gòu)和設(shè)計(jì)領(lǐng)域的創(chuàng)作者依賴(lài)于虛擬環(huán)境,例如 NVIDIA Omniverse 模擬和協(xié)作平臺(tái),在創(chuàng)建最終產(chǎn)品之前測(cè)試新的想法并可視化原型。借助 Omniverse Connectors,開(kāi)發(fā)人員可以在 Omniverse 中使用他們首選的 3D 應(yīng)用程序,通過(guò)實(shí)時(shí)光線跟蹤來(lái)模擬復(fù)雜的虛擬世界。

  但并不是每個(gè)創(chuàng)作者都有時(shí)間和資源為他們所繪制的每一個(gè)對(duì)象創(chuàng)建 3D 模型。若要渲染展廳的汽車(chē),或一條街的建筑,需捕獲所需數(shù)量的多視圖圖像,成本可能高得令人望而卻步。

  在這方面,訓(xùn)練好的 GANverse3D 應(yīng)用可以用來(lái)將汽車(chē)、建筑甚至一匹馬的標(biāo)準(zhǔn)圖像轉(zhuǎn)換成可以在 Omniverse 中自定義和制作動(dòng)畫(huà)的 3D 圖形。

  為了重建 KITT,研究人員只需給訓(xùn)練好的模型輸入汽車(chē)的圖像,讓 GANverse3D 預(yù)測(cè)相應(yīng)的 3D 紋理網(wǎng)格,以及車(chē)輛的不同部分,例如車(chē)輪和前照燈。然后,他們使用 NVIDIA Omniverse 套件和 NVIDIA PhysX 工具將預(yù)測(cè)的紋理轉(zhuǎn)換成高質(zhì)量的材料,使 KITT 具有更真實(shí)的外觀和感覺(jué),并將其與其他汽車(chē)一起放置在動(dòng)態(tài)駕駛序列中。

  “Omniverse 讓研究人員能夠?qū)⒓?dòng)人心的前沿研究直接帶給創(chuàng)作者和最終用戶(hù)?!盢VIDIA 深度學(xué)習(xí)工程師 Jean-Francois Lafleche 說(shuō)道?!白鳛?Omniverse 的擴(kuò)展,GANverse3D 將幫助藝術(shù)家為游戲開(kāi)發(fā)、城市規(guī)劃甚至訓(xùn)練新的機(jī)器學(xué)習(xí)模型創(chuàng)建更豐富的虛擬世界。”

  GAN 推動(dòng)維度轉(zhuǎn)變

  因?yàn)閺牟煌嵌炔蹲酵晃矬w的真實(shí)數(shù)據(jù)集很少,所以大多數(shù)將圖像從 2D 轉(zhuǎn)換為 3D 的 AI 工具都是使用像 ShapeNet 這樣的合成 3D 數(shù)據(jù)集進(jìn)行訓(xùn)練的。

  為了從現(xiàn)實(shí)世界的數(shù)據(jù)中獲得多視圖圖像,例如網(wǎng)上公開(kāi)的汽車(chē)圖像,NVIDIA 研究人員轉(zhuǎn)而使用GAN 模型,修改其神經(jīng)網(wǎng)絡(luò)層,將其轉(zhuǎn)化為數(shù)據(jù)生成器。

  該團(tuán)隊(duì)發(fā)現(xiàn),僅訓(xùn)練神經(jīng)網(wǎng)絡(luò)的前4層,凍結(jié)剩余的 12 層參數(shù),可以讓 GAN 從不同的角度渲染同一對(duì)象的圖像。

  保持前4層參數(shù)凍結(jié),其他 12 層可變,可以讓神經(jīng)網(wǎng)絡(luò)基于同一角度生成不同的圖像。通過(guò)手動(dòng)分配標(biāo)準(zhǔn)角度,在特定高度和距離拍攝車(chē)輛照片,研究人員可以從單個(gè) 2D 圖像快速生成多視圖數(shù)據(jù)集。

  最終的模型,在 55000 張由 GAN 生成的汽車(chē)圖像上訓(xùn)練而得,優(yōu)于在流行的 Pascal3D 數(shù)據(jù)集上訓(xùn)練的逆圖形網(wǎng)絡(luò)。

  請(qǐng)閱讀由 Wenzheng Chen、NVIDIA 研究員 Jun Gao 和 Huan Ling、NVIDIA 多倫多研究室主任Sanja Fidler、滑鐵盧大學(xué)學(xué)生 Yuxuan Zhang、斯坦福大學(xué)學(xué)生 Yinan Zhang 和 MIT 教授 Antonio Torralba 撰寫(xiě)的 ICLR 論文全文。CVPR 論文的其他合作者包括 Jean-Francois Lafleche、NVIDIA 研究員 Kangxue Yin 和 Adela Barriuso。

  NVIDIA 研究團(tuán)隊(duì)在全球擁有超過(guò) 200 名科學(xué)家,專(zhuān)注于人工智能、計(jì)算機(jī)視覺(jué)、自動(dòng)駕駛汽車(chē)、機(jī)器人和圖形等領(lǐng)域。GTC上,NVIDIA 首席執(zhí)行官黃仁勛發(fā)表主題演講,讓大家了解更多關(guān)于NVIDIA的最新研究和行業(yè)突破。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。