《電子技術(shù)應用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 谷歌推出AI擴散模型Lumiere

谷歌推出AI擴散模型Lumiere

可通過文字生成連貫動作視頻
2024-02-04
來源:太平洋電腦網(wǎng)
關(guān)鍵詞: 谷歌 AI擴散模型 Lumiere

谷歌研究院推出了一款名為Lumiere的“文生視頻”擴散模型,主打采用自家最新開發(fā)的“Space-Time U-Net”基礎架構(gòu),號稱能夠一次生成“完整、真實、動作連貫”的視頻。這是一種新的生成式AI工具,可幫助您通過基于文本的命令創(chuàng)建更逼真的圖像和視頻。

1.png

谷歌表示,業(yè)界絕大多數(shù)“文生視頻”模型無法生成時間長、質(zhì)量佳、動作連貫逼真的內(nèi)容,這是因為此類模型通常“分段生成視頻”,首先產(chǎn)生幾張關(guān)鍵幀,接著用“時間超級分辨率(Temporal Super-Resolution)”技術(shù),生成關(guān)鍵幀之間的視頻文件,這種方法雖然能夠節(jié)省 RAM,但難以生成“連貫逼真”的視頻。

谷歌稱他們的新模型 Lumiere的亮點之一是,相對于業(yè)界模型最大的不同是采用了全新“Space-Time U-Net”基礎架構(gòu),該架構(gòu)能夠在空間和時間上同時“降采樣(Downsample)”信號,從而在“更緊湊的時空中進行更多運算”,令Lumiere能夠生成持續(xù)時間更長、動作更連貫的視頻。

Lumiere 可用于創(chuàng)建以下內(nèi)容:

2.png

谷歌還為我們介紹了 Lumiere 的基礎特性,該 AI 建立在一個經(jīng)過預先訓練的“文生圖”模型基礎上,研究人員首先讓基礎模型生成視頻分幀的基本像素草稿,接著通過空間超分辨率(SSR)模型,逐步提升分幀分辨率及細節(jié),并利用“Multidiffusion”通用生成框架提升模型穩(wěn)定性,從而保證了最終輸出的視頻一致性和連續(xù)性。

Lumiere是谷歌在AI視頻生成技術(shù)上的一次重大突破。值得注意的是,如果您想嘗試使用Lumiere,你需要強大的GPU來驅(qū)動電腦的圖形功能。

weidian.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。