午夜男女爽爽爽色视頻免费的,国产精品va无码一区二区三区

ImageNet分類器可以泛化到ImageNet上嗎？

日期： 2019-02-27

關(guān)鍵詞： 機(jī)器學(xué)習(xí) 泛化模型圖像分類器

當(dāng)前的分類模型泛化到新數(shù)據(jù)時(shí)總會(huì)有不同程度的準(zhǔn)確率下降，傳統(tǒng)觀點(diǎn)認(rèn)為這種下降與模型的適應(yīng)性相關(guān)。但本文通過實(shí)驗(yàn)證明，準(zhǔn)確率下降的原因是模型無法泛化到比原始測(cè)試集中更難分類的圖像上。

機(jī)器學(xué)習(xí)的首要目標(biāo)是生成泛化模型。我們常通過測(cè)量模型在測(cè)試集上的性能來量化模型的泛化能力。在測(cè)試集上的良好性能是指什么？至少在遵循相同的數(shù)據(jù)清理協(xié)議時(shí)，模型在由相同數(shù)據(jù)源組成的新測(cè)試集上也能表現(xiàn)良好。

在本文中，研究人員通過復(fù)制兩個(gè)重要基線數(shù)據(jù)集（CIFAR-10 和 ImageNet）的創(chuàng)建過程來實(shí)現(xiàn)這一實(shí)驗(yàn)。與理想結(jié)果相反，他們發(fā)現(xiàn)很多分類模型未能達(dá)到其原始的準(zhǔn)確率分?jǐn)?shù)。CIFAR-10 的準(zhǔn)確率下降了 3％~15％，ImageNet 的準(zhǔn)確率下降了 11％~14％。在 ImageNet 上，損失的準(zhǔn)確率大概需要機(jī)器學(xué)習(xí)研究高度活躍時(shí)期五年的進(jìn)步來彌補(bǔ)。

傳統(tǒng)觀點(diǎn)認(rèn)為，出現(xiàn)這種下降的原因是模型已經(jīng)適應(yīng)了原始測(cè)試集中的特定圖像，例如，通過廣泛的超參數(shù)調(diào)整。然而，本文的實(shí)驗(yàn)表明，模型的相對(duì)順序在新測(cè)試集上幾乎保持不變：在原始測(cè)試集上具有最高準(zhǔn)確率的模型仍然是新測(cè)試集上具有最高準(zhǔn)確率的模型。而且，準(zhǔn)確率方面也沒有遞減。實(shí)際上，原始測(cè)試集上的準(zhǔn)確率每提高一個(gè)百分點(diǎn)都意味著新測(cè)試集上更大的改進(jìn)。因此，雖然后來的模型本可以更好地適應(yīng)測(cè)試集，但它們的準(zhǔn)確率下降較小。實(shí)驗(yàn)結(jié)果證明，全面的測(cè)試集評(píng)估是改進(jìn)圖像分類模型的有效方法。因此，自適應(yīng)性不太可能是準(zhǔn)確率下降的原因。

相反，研究人員基于原始和新測(cè)試集的相對(duì)難度提出了另一種解釋。他們證明，如果新數(shù)據(jù)集只包含候選池中最簡(jiǎn)單的圖像，幾乎可以完全恢復(fù)原始的 ImageNet 準(zhǔn)確率。這表明即使是最好的圖像分類器，其準(zhǔn)確率分?jǐn)?shù)也對(duì)數(shù)據(jù)清理過程的細(xì)節(jié)高度敏感。它還表明，即使在精心控制的重復(fù)性實(shí)驗(yàn)的良性環(huán)境中，目前的分類器仍然不能可靠地泛化。

圖 1 顯示了實(shí)驗(yàn)的主要結(jié)果。為了支持未來研究，研究人員還發(fā)布了新的測(cè)試集和相應(yīng)的代碼。

微信圖片_20190227204524.jpg

圖 1：在原始測(cè)試集和新測(cè)試集上的模型準(zhǔn)確率。每個(gè)數(shù)據(jù)點(diǎn)對(duì)應(yīng)于測(cè)試平臺(tái)中的一個(gè)模型（顯示為 95％的 Clopper-Pearson 置信區(qū)間）。該圖揭示了兩個(gè)主要現(xiàn)象：1）從原始測(cè)試集到新測(cè)試集的準(zhǔn)確率明顯下降。2）模型準(zhǔn)確率遵循斜率大于 1 的線性函數(shù)（CIFAR-10 為 1.7，ImageNet 為 1.1）。這意味著原始測(cè)試集上的每個(gè)百分點(diǎn)的改進(jìn)會(huì)轉(zhuǎn)換為新測(cè)試集上超過一個(gè)百分點(diǎn)的改進(jìn)。從上圖可以直觀地對(duì)比兩邊的斜率。紅色區(qū)域是 10 萬個(gè) bootstrap 樣本線性擬合的 95％置信區(qū)域。

論文：Do ImageNet Classifiers Generalize to ImageNet?

微信圖片_20190227204546.jpg

論文地址：http://people.csail.mit.edu/ludwigs/papers/imagenet.pdf

摘要：我們?yōu)?CIFAR-10 和 ImageNet 數(shù)據(jù)集構(gòu)建了新的測(cè)試集。這兩個(gè)基準(zhǔn)測(cè)試集近十年來一直是研究的焦點(diǎn)，增加了過度重復(fù)使用測(cè)試集的風(fēng)險(xiǎn)。通過密切關(guān)注原始數(shù)據(jù)集創(chuàng)建過程，我們測(cè)試了當(dāng)前分類模型泛化到新數(shù)據(jù)的程度。我們?cè)u(píng)估了大量模型，發(fā)現(xiàn)在 CIFAR-10 上的準(zhǔn)確率下降了 3％~15％，在 ImageNet 上的準(zhǔn)確率下降了 11％~14％。但是，原始測(cè)試集上準(zhǔn)確率的改進(jìn)能夠?yàn)樾聹y(cè)試集帶來更大的改進(jìn)。結(jié)果表明，準(zhǔn)確率下降不是由適應(yīng)性造成的，而是由于模型無法泛化到比原始測(cè)試集中更難分類的圖像上。

實(shí)驗(yàn)總結(jié)

可重復(fù)性實(shí)驗(yàn)的主要步驟如下。附錄 B 和 C 詳細(xì)地描述了此方法。第一步是選擇信息性數(shù)據(jù)集。

微信圖片_20190227204603.jpg

表 1：原始 CIFAR-10 測(cè)試集、原始 ImageNet 驗(yàn)證集和新測(cè)試集上的模型準(zhǔn)確率。ΔRank 是所有模型完整排序中從原始測(cè)試集到新測(cè)試集的排名相對(duì)差異（參見附錄 B.3.3 和 C.4.4）。例如，ΔRank= -2 意味著與原始測(cè)試集相比，新測(cè)試集上的模型下降了兩名。置信區(qū)間為 95％的 Clopper-Pearson 區(qū)間。由于篇幅限制，模型的參考資料見附錄 B.3.2 和 C.4.3。

微信圖片_20190227204629.jpg

表 2：三種采樣策略對(duì) ImageNet 測(cè)試集的影響。該表顯示了結(jié)果數(shù)據(jù)集中的平均 MTurk 選擇頻率，以及與原始驗(yàn)證集相比模型準(zhǔn)確率的平均變化。所有三個(gè)測(cè)試集的平均選擇頻率都超過 0.7，但模型準(zhǔn)確率仍然相差很大。相比之下，在 MTurk 實(shí)驗(yàn)中，原始 ImageNet 驗(yàn)證集的平均選擇頻率為 0.71。在 top-1 和 top-5 中，平均準(zhǔn)確率的變化分別為 14％和 10％。這表明采樣策略的細(xì)節(jié)對(duì)結(jié)果的準(zhǔn)確率有很大影響。

微信圖片_20190227204646.jpg

圖 2：原始 ImageNet 驗(yàn)證集上的模型準(zhǔn)確率 vs. 新測(cè)試集的兩個(gè)變體上的準(zhǔn)確率。每個(gè)數(shù)據(jù)點(diǎn)對(duì)應(yīng)于測(cè)試平臺(tái)中的一個(gè)模型（顯示為 95％的 Clopper-Pearson 置信區(qū)間）。閾值為 0.7 時(shí)，模型準(zhǔn)確率比在原始測(cè)試集上低了 3％。在 MTurk 工作人員最常選擇圖像的 TopImages 上，模型的性能比在原始測(cè)試集上提高了 2％。兩個(gè)數(shù)據(jù)集的準(zhǔn)確率都遵循線性函數(shù)規(guī)律，類似于圖 1 中的 MatchedFrequency。紅色陰影區(qū)域是 10 萬個(gè) bootstrap 樣本線性擬合的 95％置信區(qū)域。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

ImageNet分類器可以泛化到ImageNet上嗎？

日期： 2019-02-27

相關(guān)內(nèi)容

ImageNet分類器可以泛化到ImageNet上嗎？