分類的準(zhǔn)確度長期以來都是評價(jià)圖像分類模型性能的最核心甚至唯一標(biāo)準(zhǔn)。但最近研究表明,即使是充分訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型也很容易被對抗攻擊算法攻破。對抗攻擊是指在圖像上加入特定的且人眼無法察覺的微量噪聲,使得目標(biāo)模型對加噪之后得到的對抗樣本做出錯(cuò)誤分類。
對抗樣本有可能會導(dǎo)致財(cái)產(chǎn)損失乃至威脅生命。比如,Eykholt 等人 [1] 的研究表明一個(gè)經(jīng)過稍加修改的實(shí)體停車標(biāo)志能夠使得一個(gè)實(shí)時(shí)的物體識別系統(tǒng)將其誤識別為限速標(biāo)志,從而可能造成交通事故。為了揭示深度神經(jīng)網(wǎng)絡(luò)模型的魯棒性和準(zhǔn)確性之間的關(guān)系,來自 IBM 研究院,加州大學(xué)戴維斯分校,麻省理工學(xué)院以及京東 AI 研究院的研究人員,系統(tǒng)性地度量了 18 個(gè)被學(xué)術(shù)界和工業(yè)界廣泛接受并使用的 ImageNet 深度神經(jīng)網(wǎng)絡(luò)模型,如 AlexNet、VGG Nets、Inception Nets、ResNets、DenseNets、MobileNets、NASNets 等的魯棒性。
該研究發(fā)現(xiàn)了多個(gè)非常有趣的現(xiàn)象,包括:1) 準(zhǔn)確度越高的模型的普遍魯棒性越差,且分類錯(cuò)誤率的對數(shù)和模型魯棒性存在線性關(guān)系;2) 相比于模型的大小,模型的結(jié)構(gòu)對于魯棒性的影響更大;3) 黑盒遷移攻擊是一直以來都比較困難的任務(wù),但在 VGG 系列模型上生成的對抗樣本可以比較容易地直接攻擊其它的模型。該項(xiàng)工作對于理解深度神經(jīng)網(wǎng)絡(luò)準(zhǔn)確性和魯棒性之間關(guān)系提供了一個(gè)較完備的圖景。此項(xiàng)研究的論文「Is Robustness the Cost of Accuracy? – A Comprehensive Study on the Robustness of 18 Deep Image Classification Models」已被歐洲計(jì)算機(jī)視覺大會(ECCV 2018)接收,并且預(yù)印版和代碼都已公開。
自從 2012 年 AlexNet 在 ImageNet 競賽大放異彩之后,研究者們不斷設(shè)計(jì)出更深和更復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)模型以期獲得更好的分類精度。雖然這些模型能夠取得圖像識別正確率的穩(wěn)定增長,但它們在對抗攻擊下的魯棒性尚未得到充分研究。為了評估深度神經(jīng)網(wǎng)絡(luò)的魯棒性,一個(gè)直觀的方法是使用對抗攻擊。這種攻擊生成視覺上和原圖難以察覺區(qū)別的對抗樣本使得深度神經(jīng)網(wǎng)絡(luò)做出錯(cuò)誤分類。一般來講,對于一個(gè)深度神經(jīng)網(wǎng)絡(luò),如果在其上構(gòu)建對抗樣本越容易、所添加的噪聲越小、則該網(wǎng)絡(luò)越不魯棒。除了對抗攻擊之外,神經(jīng)網(wǎng)絡(luò)的魯棒性也可以用一種獨(dú)立于攻擊的方式來衡量。例如 Szegedy 等人 [2] 和 Hein 等人 [3] 使用神經(jīng)網(wǎng)絡(luò)模型的全局和局部的 Lipschitz 常量對某些簡單模型的魯棒性進(jìn)行了理論分析。Weng 等人 [4] 提出使用極值理論來估計(jì)為了生成有效的對抗樣本所需要的最小噪聲的尺度。
在這篇論文中,研究者們同時(shí)使用了上述兩種方式評估了 18 個(gè)在 ImageNet 競賽中脫穎而出的 DNN 模型,包括 AlexNet, VGG Nets, Inceptin Nets, ResNets, DenseNets, MobileNets 和 NASNets 等。這 18 個(gè)模型具有不同的大小,分類準(zhǔn)確度和結(jié)構(gòu),因此具有充分的代表性,從而能更好地分析出影響模型魯棒性的不同因素。在使用對抗攻擊來評估魯棒性的方式中,研究者們使用了目前最好最常用的幾種攻擊算法,包括 Fast Gradient Sign Method(FGSM)[5]、Iterative FGSM(I-FGSM)[6]、Carlini & Wagner(C&W)算法 [7],以及 Elastic-Net Attack under L1 norm(EAD-L1)算法 [8]。此外,在獨(dú)立于攻擊的魯棒性評估方式中,研究者們選用了目前最為有效的 CLEVER Score[4] 來評估深度神經(jīng)網(wǎng)絡(luò)的魯棒性。
這篇論文通過對 18 個(gè) ImageNet 模型在 C&W 攻擊和 I-FGSM 攻擊下的魯棒性的實(shí)驗(yàn)分析,發(fā)現(xiàn)當(dāng)已有模型僅僅追求更高的分類準(zhǔn)確度時(shí),往往會犧牲在對抗攻擊下的魯棒性。圖 1 展示了在 I-FGSM 的攻擊下,生成對抗樣本所帶來的扭曲 (以 l-infinity 度量) 與模型的分類錯(cuò)誤率的對數(shù)值呈現(xiàn)出線性關(guān)系。因此,當(dāng)分類器具有非常低的分類錯(cuò)誤率的時(shí)候,在對抗攻擊下它將變得非常脆弱。所以本論文作者們建議 DNN 的設(shè)計(jì)者在構(gòu)建網(wǎng)絡(luò)的時(shí)候,應(yīng)該參考本論文提出的準(zhǔn)確度-魯棒性的帕累托邊界來評估其所構(gòu)建模型的魯棒性。
同時(shí),圖 1 也明確地揭示了屬于同一網(wǎng)絡(luò)結(jié)構(gòu)家族的網(wǎng)絡(luò)都有著相近的魯棒性。這就意味著相比于網(wǎng)絡(luò)的大小,網(wǎng)絡(luò)結(jié)構(gòu)對于魯棒性的影響更大。
在對抗樣本的黑盒轉(zhuǎn)移攻擊方面,研究者們對于 18 個(gè) ImageNet 的模型之間的每一對模型(共計(jì) 306 對)都進(jìn)行了在 FGSM, I-FGSM, C&W 和 EAD-L1 攻擊下的黑盒轉(zhuǎn)移攻擊的實(shí)驗(yàn)。這是迄今為止在黑盒轉(zhuǎn)移攻擊上最大規(guī)模的實(shí)驗(yàn)。圖 2 展示了對大多數(shù)網(wǎng)絡(luò)來說,在它上面生成的對抗樣本只能在本家族的網(wǎng)絡(luò)之間有較好的黑盒轉(zhuǎn)移攻擊成功率。唯一的例外是 VGG 家族:基于 VGG 家族的網(wǎng)絡(luò)生成的對抗樣本在黑盒轉(zhuǎn)移攻擊其他的 17 個(gè)網(wǎng)絡(luò)上都有著很高的成功率。這一發(fā)現(xiàn)也為逆向工程黑盒模型的結(jié)構(gòu)提供了一定的曙光。
圖 1:I-FGSM 攻擊下,關(guān)于模型分類準(zhǔn)確度(x 坐標(biāo))和模型魯棒性度量 l-infinity distortion(y 坐標(biāo))之間的擬合的帕累托邊界(紅色曲線),即
圖 2:I-FGSM 攻擊下 18 個(gè)模型(306 對)之間的黑盒轉(zhuǎn)移攻擊的成功率。每一行的子圖分別對應(yīng)了 I-FGSM 輪數(shù)為 10,30 和 50。第一列的子圖對應(yīng)于非針對性(untargeted)攻擊,第二列子圖對應(yīng)于針對性(targeted)攻擊。在每一幅熱力圖中,第 i 行第 j 列上的數(shù)值是用第 i 個(gè)模型生成的對抗樣本來攻擊第 j 個(gè)模型的成功率。對角線上的值就等價(jià)于模型在白盒攻擊下成功率。對于非針對性攻擊,報(bào)告的數(shù)值是成功率。對于針對性攻擊,報(bào)告的數(shù)值是 top-5 匹配率。與其他模型相比,VGG-16 和 VGG-19(每張圖中最下兩行)展現(xiàn)出了明顯更高的轉(zhuǎn)移攻擊的成功率。
論文鏈接:https://arxiv.org/pdf/1808.01688.pdf
代碼鏈接:https://github.com/huanzhang12/Adversarial_Survey
參考文獻(xiàn):
[1] Eykholt, K., Evtimov, I., Fernandes, E., Li, B., Rahmati, A., Xiao, C., Prakash, A., Kohno, T., Song, D.: Robust physical-world attacks on deep learning visual classification. CVPR 2018.
[2] Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I., Fergus, R.: Intriguing properties of neural networks. ICLR 2014.
[3] Hein, M., Andriushchenko, M.: Formal guarantees on the robustness of a classifier against adversarial manipulation. NIPS 2017.
[4] Weng, T.W., Zhang, H., Chen, P.Y., Yi, J., Su, D., Gao, Y., Hsieh, C.J., Daniel, L.: Evaluating the robustness of neural networks: An extreme value theory approach. ICLR 2018.
[5] Goodfellow, I., Shlens, J., Szegedy, C.: Explaining and harnessing adversarial examples. ICLR 2015.
[6] Kurakin, A., Goodfellow, I.J., Bengio, S.: Adversarial machine learning at scale. ICLR 2017.
[7] Carlini, N., Wagner, D.A.: Towards evaluating the robustness of neural networks. Oakland 2017.
[8] Chen, P.Y., Sharma, Y., Zhang, H., Yi, J., Hsieh, C.J.: Ead: Elastic-net attacks to deep neural networks via adversarial examples. AAAI 2018.