如何評價生成模型的性能好壞?這似乎是一個復雜而困難的任務。Ian Goodfellow 提出的生成對抗網(wǎng)絡 GAN 已經(jīng)成為人工智能的重要研究方向,吸引了眾多學者投入研究。但 GAN 也遭遇了「改無可改」的呼聲(參見:六種改進均未超越原版:谷歌新研究對 GAN 現(xiàn)狀提出質(zhì)疑)。近日,Goodfellow 團隊提出了一種全新生成模型評價方式,看來,GAN 的開山鼻祖終于坐不住了,他試圖親自解決這個問題。
Ian Goodfellow 表示:通過估計解釋模型表現(xiàn)的隱技能變量來評估生成模型的能力似乎是一個很有希望的研究方向。
谷歌研究科學家 Jordi Pont-Tuset 對于 CVPR 各屆接收論文名稱的統(tǒng)計,GAN 已經(jīng)超過 LSTM,成為了重要關鍵詞,大有趕超「深度學習」的趨勢。但眾多論文里,真正的改進又有多少?
生成模型的評估是一項非常困難的任務。目前該領域已經(jīng)探索了許多不同的方法,但每一種方法都存在顯著的缺點。Theis [2016] 和 Borji [2018] 等人概覽了這些方法,并展示了它們各自的缺點。
在這一篇論文中,谷歌大腦提出了一種通過對抗過程評估生成模型的新框架,在該對抗過程中,許多模型在錦標賽(tournament)中進行對抗。谷歌大腦團隊利用先前開發(fā)的人類選手評估方法來量化模型在這類錦標賽中的性能。
在國際象棋或網(wǎng)球比賽中,Elo 或 Glicko2 等技能評分系統(tǒng)通過觀察多個參賽者的勝利數(shù)和失敗數(shù),推斷每一個參與者的隱藏、未觀察到的技能值(它們解釋了這些觀察到的輸贏數(shù)),從而評估他們的技能表現(xiàn)。同樣,谷歌大腦團隊通過構(gòu)建一個多參與者的錦標賽將生成模型的評估構(gòu)建為隱藏技能估計問題,該錦標賽可推廣至噪聲對比估計(NCE)和生成對抗網(wǎng)絡(GAN)所使用的兩參與者的可分辨博弈(two-player distinguishability game),并且估計參與這些錦標賽的生成模型的隱藏技能。
錦標賽的參與者可以是嘗試區(qū)別真實數(shù)據(jù)和偽數(shù)據(jù)的判別器,也可以是嘗試欺騙判別器將偽造數(shù)據(jù)誤認為是真實數(shù)據(jù)的生成器。雖然框架主要為 GAN 設計,但它也可以估計任何成為該框架參與者的模型效果。例如顯式密度模型等任何能夠生成樣本的模型都可以作為生成器。
我們引入了兩種方法來總結(jié)錦標賽的結(jié)果:
錦標賽勝率:錦標賽中每個生成器成功欺騙判別器的平均比率。
技能評分。用技能評分系統(tǒng)對錦標賽的結(jié)果進行評估,然后對每個生成器生成一個技能分數(shù)。
實驗表明,錦標賽是一種評估生成器模型的有效方式。首先,within-trajectory 錦標賽(在訓練的連續(xù)迭代中,單個 GAN 自身的判別器和生成器的 snapshot 之間)提供了一個有用的訓練進度衡量標準,即使只能接觸正在訓練的生成器或判別器。其次,更普遍的錦標賽(具有不同種子、超參數(shù)和架構(gòu)的 GAN 生成器和判別器 snapshot 之間)提供了不同訓練過的 GAN 之間的有效對比。
本論文第二部分將研究放在生成模型評估系統(tǒng)這一更大背景下,詳細說明了谷歌大腦提出的方法和其他方法相比的優(yōu)點和局限性。4.1 節(jié)初步證明了該方法適用于不能很好地表征為標準化圖像嵌入的數(shù)據(jù)集,例如未標注數(shù)據(jù)集或自然圖像以外的形式。谷歌大腦研究者還展示了使用技能評分系統(tǒng)來總結(jié)錦標賽結(jié)果,實現(xiàn)了在一場比賽中對所有參與者進行技能評分,而無需進行二次比賽。4.2 節(jié)展示了 GAN 判別器能成功地判斷哪些樣本來自于沒訓練過的生成器,包括其他 GAN 生成器和其他類型的生成模型。4.3 節(jié)展示了該方法可以應用于生成器近乎完美的情況下。
論文:Skill Rating for Generative Models
論文鏈接:https://arxiv.org/abs/1808.04888v1
摘要:我們利用評估人類選手在競技游戲中表現(xiàn)的方法,探索了一種評估生成模型的新方式。我們通過實驗展示了生成器和判別器之間的錦標賽為評估生成模型提供了一種有效方式。我們介紹了兩種對比錦標賽結(jié)果的方法:贏率和技能評定。評估在不同語境中都有用,包括監(jiān)控單個模型在訓練過程中的進展、對比兩個不同的完全訓練模型的能力。我們展示了包含單個模型與其之前、之后版本比賽的錦標賽可以有效輔助對訓練進展的衡量。包含多個單獨模型(使用不同隨機種子、超參數(shù)和架構(gòu))的錦標賽提供了對不同訓練 GAN 的有效對比?;阱\標賽的評定方法在概念上與大量之前的評估生成模型方法不同,且具備互補的優(yōu)劣勢。
圖 1:實驗 1 的 Within-trajectory 錦標賽結(jié)果。圖 1a:左圖展示了原始比賽結(jié)果。每個像素表示來自實驗 1 不同迭代的生成器和判別器之間的平均贏率。像素越亮表示生成器的性能越強。右圖對比了比賽的概括性指標和 SVHN 分類器得分。該圖中比賽贏率指熱力圖中每列平均像素值。(注意:i=0 時分類器得分低于 4.0,遮擋了同一軸線上其余曲線的對齊,因此我們選擇忽略它。)圖 1b 展示了相同的數(shù)據(jù),不過它使用的是相距較遠的迭代之間的比賽,如圖 1b 左圖褐色像素所示的部分。右圖展示了技能評定繼續(xù)追蹤模型的進展,即使忽略了一些信息量最大的「戰(zhàn)斗」(早期生成器和晚期判別器,如圖左上角所示),而贏率不再具備信息。
圖 2:繪制蘋果圖片的 within-trajectory 技能評分。我們評估了在 QuickDraw 數(shù)據(jù)集上訓練的 DCGAN。從左到右,主觀樣本(subjective sample)質(zhì)量隨著迭代次數(shù)的增加而提高。SVHN 分類器判斷這些樣本質(zhì)量的能力不強,迭代 0 次時評成了最高分,此后提供了不穩(wěn)定且惡化的得分。SVHN Fréchet 距離擬合地更好,采樣質(zhì)量的評分穩(wěn)定增加,直到 1300 次迭代;但是,它會在 1300 上飽和,而主觀樣本質(zhì)量繼續(xù)增加。(注意 Fréchet 距離圖上的 y 軸是反轉(zhuǎn)的,這使得較低距離(更好質(zhì)量)在圖上位置更高)。within-trajectory 技能評分在 1300 次迭代以后繼續(xù)提升。
圖 3:多軌競賽結(jié)果。我們組織了一個競賽,其中包含 SVHN 生成器和具有不同種子、超參數(shù)和架構(gòu)的模型的判別器 snapshot(已在 4.2 節(jié)中提及)。我們利用 SVHN 分類器評分 (左)、SVHN Fréchet 距離 (中) 和技能評分方法(右;見 3.2 節(jié))對其進行評估。每個點代表一個模型一次迭代的分數(shù)??傮w軌跡表明隨著訓練次數(shù)增加,每個模型都得到了改進。要注意 Fréchet 距離圖上的 y 軸是反轉(zhuǎn)的,這使得較短的距離(質(zhì)量較好)在坐標圖上標得更高。真實數(shù)據(jù)樣本的得分用黑線表示。6-auto 的分數(shù)是根據(jù)單個 snapshot 而非一條完整的訓練曲線來計算的,并以灰線表示。技能評分生成的學習曲線與 Fréchet 距離生成的學習曲線大致相同,僅在條件模型 4-cond 和 5-cond 中與分類器得分的曲線不一致——我們在 4.2 節(jié)中對此差異進行了推測。
圖 4:完全訓練的生成模型樣本。從每個訓練模型中,我們展示了 64 個樣本(來自 GAN 的 200,000 次迭代和 6-auto 的 106 次 epoch),以及用于比較的真實數(shù)據(jù)。在每組樣本中,我們列出模型的 Glicko2 技能評分(SR)、SVHN 分類器分數(shù)(CS)以及模型的 SVHN Fréchet 距離(FD)。我們的技能評分系統(tǒng)在實驗 5-cond 中略遜于真實數(shù)據(jù),但優(yōu)于 runner-ups 4-cond 和 1,而分類器得分 5-cond 比真實數(shù)據(jù)好,F(xiàn)réchet 距離 5-cond 比 4-cond 和 1 都差。在其它情況下,我們系統(tǒng)的排名與 Fréchet 距離一致。
圖 5:用一個簡單的任務來評估近乎完美的生成器。我們訓練一個普通的 GAN 來模擬具有全協(xié)方差矩陣的高斯分布。迭代 8000 次以后的生成器已經(jīng)掌握了這個任務。迭代 8000 次以后的判別器不再產(chǎn)生有用的判斷(圖 5a),迭代 8000 次之后的 Chekhov GAN 判別器則仍可以判斷之前的生成器樣本(圖 5b)。圖 5c 對這些判別器的技能評分與普通生成器的真實性能進行了比較,并將之衡量為生成器的協(xié)方差矩陣估計和數(shù)據(jù)協(xié)方差矩陣之間的平均絕對差。與 within-trajectory 比賽相比,Chekhov 判別器的技能評分更符合真實情況。