生成對(duì)抗網(wǎng)絡(luò)(GAN)可以產(chǎn)生復(fù)雜且逼真到令人驚訝的圖像,但它會(huì)忽略可能存在于場(chǎng)景中的多個(gè)實(shí)體間的顯式空間交互。本文提出以 GAN 為框架、將目標(biāo)組合建模為自洽的組合-分解網(wǎng)絡(luò)。該模型以其邊緣分布的目標(biāo)圖像為條件,通過(guò)明確學(xué)習(xí)可能的交互,在聯(lián)合分布中產(chǎn)生逼真的圖像。實(shí)驗(yàn)結(jié)果表明,訓(xùn)練后的模型可以在作為輸入的兩個(gè)給定的目標(biāo)域間捕獲潛在的交互關(guān)系,并以合理的方式在測(cè)試時(shí)輸出組合場(chǎng)景的新的實(shí)例。
1. 引言
生成對(duì)抗網(wǎng)絡(luò)(GAN)是在給定輸入的條件下生成圖像的一種強(qiáng)大方法。輸入的格式可以是圖像 [9,37,16,2,29,21]、文本短語(yǔ) [33,24,23,11] 以及類標(biāo)簽布局 [19,20,1]。大多數(shù) GAN 實(shí)例的目標(biāo)是學(xué)習(xí)一種可以將源分布中的給定樣例轉(zhuǎn)換為輸出分布中生成的樣本的映射。這主要涉及到單個(gè)目標(biāo)的轉(zhuǎn)換(從蘋(píng)果到橙子、從馬到斑馬或從標(biāo)簽到圖像等),或改變輸入圖像的樣式和紋理(從白天到夜晚等)。但是,這些直接的以輸入為中心的轉(zhuǎn)換無(wú)法直觀體現(xiàn)這樣一個(gè)事實(shí):自然圖像是 3D 視覺(jué)世界中交互的多個(gè)對(duì)象組成的 2D 投影。本文探索了組合在學(xué)習(xí)函數(shù)中所起到的作用,該函數(shù)將從邊緣分布(如椅子和桌子)采集到的目標(biāo)不同的圖像樣本映射到捕獲其聯(lián)合分布的組合樣本(桌椅)中。
由于不同對(duì)象間在相對(duì)縮放、空間布局、遮擋以及視角變換等方面可能存在復(fù)雜的交互關(guān)系,在自然圖像中對(duì)組合建模是一個(gè)極具挑戰(zhàn)的問(wèn)題。近期的研究在 GAN 框架 [15] 中使用空間變換網(wǎng)絡(luò) [10],通過(guò)在幾何扭曲參數(shù)空間中進(jìn)行操作,找到前景對(duì)象的幾何糾正來(lái)分解該問(wèn)題。但這種方法僅限于固定的背景,也并未考慮真實(shí)世界中更加復(fù)雜的交互關(guān)系。近期的另一項(xiàng)研究是以文本和場(chǎng)景圖為條件生成場(chǎng)景的,這項(xiàng)研究明確地對(duì)對(duì)象和其交互關(guān)系進(jìn)行了推理。
我們開(kāi)發(fā)的這種方法可以對(duì)圖像中的目標(biāo)組合建模。我們將組合兩個(gè)輸入對(duì)象圖像的任務(wù)視為生成一個(gè)聯(lián)合圖像,該圖像可以捕獲這兩個(gè)對(duì)象在自然圖像中的聯(lián)合交互關(guān)系。例如,給定椅子和桌子的圖像,可以產(chǎn)生一張包含相同的成對(duì)桌椅的自然交互的圖像。一個(gè)可以正確捕捉組合特征的模型需要對(duì)遮擋排序(如桌子在椅子前面)和空間布局(如椅子在桌子內(nèi)滑動(dòng))有所了解。據(jù)我們所知,我們是第一個(gè)在沒(méi)有任何清晰的關(guān)于目標(biāo)布局的先前顯式信息的情況下,在圖像條件空間中解決該問(wèn)題的組。
我們的工作重點(diǎn)是將兩個(gè)目標(biāo)組合的問(wèn)題重構(gòu)為先組合好給定的目標(biāo)圖像以生成可以對(duì)目標(biāo)交互關(guān)系建模的聯(lián)合圖像,再將聯(lián)合圖像分解,以獲得單個(gè)目標(biāo)。這樣的重構(gòu)可以通過(guò)組合-分解網(wǎng)絡(luò)加強(qiáng)自洽約束 [37]。但在一些場(chǎng)景中無(wú)法用組合合成圖像對(duì)相同的目標(biāo)實(shí)例的成對(duì)樣例進(jìn)行訪問(wèn),例如,要根據(jù)給定桌子和椅子的圖像生成聯(lián)合圖像,除了指定的桌子外我們可能沒(méi)有任何有關(guān)指定椅子的樣例,但我們可能有其他桌子和椅子的圖像。我們?cè)诮M合分解層添加了修復(fù)網(wǎng)絡(luò),以處理這樣的不配對(duì)情況。
通過(guò)定性和定量實(shí)驗(yàn),我們?cè)趦蓚€(gè)訓(xùn)練場(chǎng)景中評(píng)估了我們提出的 Compositional-GAN 方法:(a)配對(duì):當(dāng)我們有權(quán)用相關(guān)組合圖像訪問(wèn)單個(gè)對(duì)象圖像的成對(duì)樣例時(shí);(b)未配對(duì):當(dāng)數(shù)據(jù)集源于聯(lián)合分布且沒(méi)有與來(lái)自邊緣分布的任何一張圖進(jìn)行配對(duì)時(shí)。
聯(lián)合 GAN 代碼和數(shù)據(jù)集請(qǐng)參閱:https://github.com/azadis/ CompositionalGAN
論文:Compositional GAN: Learning Conditional Image Composition
論文鏈接:https://arxiv.org/pdf/1807.07560v1.pdf
生成對(duì)抗網(wǎng)絡(luò)(GAN)可以產(chǎn)生復(fù)雜且逼真到令人驚訝的圖像,但它一般會(huì)從單個(gè)潛在源采樣建模,從而忽略可能存在于場(chǎng)景中的多個(gè)實(shí)體間的顯式空間交互。在相對(duì)縮放、空間布局、遮擋或視角轉(zhuǎn)移等情況下在不同目標(biāo)間捕獲復(fù)雜的交互關(guān)系是極具挑戰(zhàn)的問(wèn)題。本文提出以 GAN 為框架、將目標(biāo)組合建模為自洽的組合-分解網(wǎng)絡(luò)。該模型以其邊緣分布的目標(biāo)圖像為條件,通過(guò)明確學(xué)習(xí)可能的交互,在聯(lián)合分布中產(chǎn)生逼真的圖像。我們?cè)趯?duì)單獨(dú)的目標(biāo)進(jìn)行配對(duì)和不配對(duì)的兩個(gè)場(chǎng)景中通過(guò)定性實(shí)驗(yàn)和用戶評(píng)估對(duì)模型進(jìn)行了評(píng)估,在訓(xùn)練過(guò)程中也給出了聯(lián)合場(chǎng)景。結(jié)果表明,訓(xùn)練后的模型可以在作為輸入的兩個(gè)給定的目標(biāo)域間捕獲潛在的交互關(guān)系,并以合理的方式在測(cè)試時(shí)輸出組合場(chǎng)景的新的實(shí)例。
圖 1:組合 GAN 對(duì)配對(duì)和未配對(duì)訓(xùn)練數(shù)據(jù)訓(xùn)練得到的模型。黃色框指的是用于在給定第二對(duì)象被遮擋的情況下合成第一對(duì)象的新視角的 RAFN 步驟,該過(guò)程僅用于成對(duì)數(shù)據(jù)的訓(xùn)練過(guò)程。橙色框表示用未配對(duì)數(shù)據(jù)修復(fù)輸入分割的過(guò)程。對(duì)配對(duì)和未配對(duì)的情況而言模型的剩余部分相似,都包括 STN,再之后是自洽組合-分解網(wǎng)絡(luò)。
圖 2:使用配對(duì)或未配對(duì)數(shù)據(jù)訓(xùn)練桌椅組合任務(wù)的測(cè)試結(jié)果?!窷N」代表成對(duì)訓(xùn)練集中最接近的圖像,「NoInpaint」表示在沒(méi)有修復(fù)網(wǎng)絡(luò)的情況下未配對(duì)模型的結(jié)果。在配對(duì)和未配對(duì)情況中,c? before 和 c? after 分別表示在推理細(xì)化網(wǎng)絡(luò)之前和之后的生成器的結(jié)果。c? after s 表示細(xì)化步驟后的有遮掩的轉(zhuǎn)置輸入的總和。
4 實(shí)驗(yàn)
圖 3:用配對(duì)或未配對(duì)數(shù)據(jù)對(duì)籃子-瓶子組合任務(wù)訓(xùn)練后的測(cè)試結(jié)果?!窷N」表示在配對(duì)的訓(xùn)練集中最近的圖像,「NoInpaint」表示在沒(méi)有修復(fù)網(wǎng)絡(luò)的情況下用未配對(duì)數(shù)據(jù)訓(xùn)練得到的模型。在配對(duì)和未配對(duì)情況中,c? before 和 c? after 分別表示在推理細(xì)化網(wǎng)絡(luò)之前和之后生成器的輸出結(jié)果。此外,c? after s 表示細(xì)化步驟之后遮掩情況下轉(zhuǎn)置輸入的總和。
表 1:AMT 用戶評(píng)估比較我們提出的模型的不同組件。第一列表示在未配對(duì)場(chǎng)景中推理(未細(xì)化)期間要細(xì)化的圖像的偏好百分比。第二列表示與未配對(duì)情況相比,通過(guò)配對(duì)數(shù)據(jù)訓(xùn)練策略生成的細(xì)化圖像的偏好百分比。
圖 4:面部-太陽(yáng)鏡組合任務(wù)的測(cè)試樣例。前兩行表示輸入的太陽(yáng)鏡圖像和面部圖像,第三行和第四行分別表示用配對(duì)和未配對(duì)數(shù)據(jù)訓(xùn)練的組合 GAN 的輸出。最后一行表示 ST-GAN 模型生成的圖像。