《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 可編程邏輯 > 解決方案 > ImageNet分類器可以泛化到ImageNet上嗎?

ImageNet分類器可以泛化到ImageNet上嗎?

2019-02-27

當前的分類模型泛化到新數(shù)據(jù)時總會有不同程度的準確率下降,傳統(tǒng)觀點認為這種下降與模型的適應(yīng)性相關(guān)。但本文通過實驗證明,準確率下降的原因是模型無法泛化到比原始測試集中更難分類的圖像上。


機器學(xué)習(xí)的首要目標是生成泛化模型。我們常通過測量模型在測試集上的性能來量化模型的泛化能力。在測試集上的良好性能是指什么?至少在遵循相同的數(shù)據(jù)清理協(xié)議時,模型在由相同數(shù)據(jù)源組成的新測試集上也能表現(xiàn)良好。


在本文中,研究人員通過復(fù)制兩個重要基線數(shù)據(jù)集(CIFAR-10 和 ImageNet)的創(chuàng)建過程來實現(xiàn)這一實驗。與理想結(jié)果相反,他們發(fā)現(xiàn)很多分類模型未能達到其原始的準確率分數(shù)。CIFAR-10 的準確率下降了 3%~15%,ImageNet 的準確率下降了 11%~14%。在 ImageNet 上,損失的準確率大概需要機器學(xué)習(xí)研究高度活躍時期五年的進步來彌補。


傳統(tǒng)觀點認為,出現(xiàn)這種下降的原因是模型已經(jīng)適應(yīng)了原始測試集中的特定圖像,例如,通過廣泛的超參數(shù)調(diào)整。然而,本文的實驗表明,模型的相對順序在新測試集上幾乎保持不變:在原始測試集上具有最高準確率的模型仍然是新測試集上具有最高準確率的模型。而且,準確率方面也沒有遞減。實際上,原始測試集上的準確率每提高一個百分點都意味著新測試集上更大的改進。因此,雖然后來的模型本可以更好地適應(yīng)測試集,但它們的準確率下降較小。實驗結(jié)果證明,全面的測試集評估是改進圖像分類模型的有效方法。因此,自適應(yīng)性不太可能是準確率下降的原因。


相反,研究人員基于原始和新測試集的相對難度提出了另一種解釋。他們證明,如果新數(shù)據(jù)集只包含候選池中最簡單的圖像,幾乎可以完全恢復(fù)原始的 ImageNet 準確率。這表明即使是最好的圖像分類器,其準確率分數(shù)也對數(shù)據(jù)清理過程的細節(jié)高度敏感。它還表明,即使在精心控制的重復(fù)性實驗的良性環(huán)境中,目前的分類器仍然不能可靠地泛化。


圖 1 顯示了實驗的主要結(jié)果。為了支持未來研究,研究人員還發(fā)布了新的測試集和相應(yīng)的代碼。

微信圖片_20190227204524.jpg

圖 1:在原始測試集和新測試集上的模型準確率。每個數(shù)據(jù)點對應(yīng)于測試平臺中的一個模型(顯示為 95%的 Clopper-Pearson 置信區(qū)間)。該圖揭示了兩個主要現(xiàn)象:1)從原始測試集到新測試集的準確率明顯下降。2)模型準確率遵循斜率大于 1 的線性函數(shù)(CIFAR-10 為 1.7,ImageNet 為 1.1)。這意味著原始測試集上的每個百分點的改進會轉(zhuǎn)換為新測試集上超過一個百分點的改進。從上圖可以直觀地對比兩邊的斜率。紅色區(qū)域是 10 萬個 bootstrap 樣本線性擬合的 95%置信區(qū)域。


論文:Do ImageNet Classifiers Generalize to ImageNet?

微信圖片_20190227204546.jpg


論文地址:http://people.csail.mit.edu/ludwigs/papers/imagenet.pdf



摘要:我們?yōu)?CIFAR-10 和 ImageNet 數(shù)據(jù)集構(gòu)建了新的測試集。這兩個基準測試集近十年來一直是研究的焦點,增加了過度重復(fù)使用測試集的風險。通過密切關(guān)注原始數(shù)據(jù)集創(chuàng)建過程,我們測試了當前分類模型泛化到新數(shù)據(jù)的程度。我們評估了大量模型,發(fā)現(xiàn)在 CIFAR-10 上的準確率下降了 3%~15%,在 ImageNet 上的準確率下降了 11%~14%。但是,原始測試集上準確率的改進能夠為新測試集帶來更大的改進。結(jié)果表明,準確率下降不是由適應(yīng)性造成的,而是由于模型無法泛化到比原始測試集中更難分類的圖像上。


實驗總結(jié)


可重復(fù)性實驗的主要步驟如下。附錄 B 和 C 詳細地描述了此方法。第一步是選擇信息性數(shù)據(jù)集。

微信圖片_20190227204603.jpg

表 1:原始 CIFAR-10 測試集、原始 ImageNet 驗證集和新測試集上的模型準確率。ΔRank 是所有模型完整排序中從原始測試集到新測試集的排名相對差異(參見附錄 B.3.3 和 C.4.4)。例如,ΔRank= -2 意味著與原始測試集相比,新測試集上的模型下降了兩名。置信區(qū)間為 95%的 Clopper-Pearson 區(qū)間。由于篇幅限制,模型的參考資料見附錄 B.3.2 和 C.4.3。

微信圖片_20190227204629.jpg

表 2:三種采樣策略對 ImageNet 測試集的影響。該表顯示了結(jié)果數(shù)據(jù)集中的平均 MTurk 選擇頻率,以及與原始驗證集相比模型準確率的平均變化。所有三個測試集的平均選擇頻率都超過 0.7,但模型準確率仍然相差很大。相比之下,在 MTurk 實驗中,原始 ImageNet 驗證集的平均選擇頻率為 0.71。在 top-1 和 top-5 中,平均準確率的變化分別為 14%和 10%。這表明采樣策略的細節(jié)對結(jié)果的準確率有很大影響。

微信圖片_20190227204646.jpg

圖 2:原始 ImageNet 驗證集上的模型準確率 vs. 新測試集的兩個變體上的準確率。每個數(shù)據(jù)點對應(yīng)于測試平臺中的一個模型(顯示為 95%的 Clopper-Pearson 置信區(qū)間)。閾值為 0.7 時,模型準確率比在原始測試集上低了 3%。在 MTurk 工作人員最常選擇圖像的 TopImages 上,模型的性能比在原始測試集上提高了 2%。兩個數(shù)據(jù)集的準確率都遵循線性函數(shù)規(guī)律,類似于圖 1 中的 MatchedFrequency。紅色陰影區(qū)域是 10 萬個 bootstrap 樣本線性擬合的 95%置信區(qū)域。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。