中文引用格式: 顧明珠,明瑞成,邱創(chuàng)一,等. 一種多教師模型知識(shí)蒸餾深度神經(jīng)網(wǎng)絡(luò)模型壓縮算法[J]. 電子技術(shù)應(yīng)用,2023,49(8):7-12.
英文引用格式: Gu Mingzhu,Ming Ruicheng,Qiu Chuangyi,et al. A multi-teacher knowledge distillation model compression algorithm for deep neural network[J]. Application of Electronic Technique,2023,49(8):7-12.
0 引言
隨著人工智能技術(shù)發(fā)展,要將越來(lái)越龐大的的模型部署到實(shí)際的工業(yè)社會(huì)中時(shí),相應(yīng)硬件的算力要求和存儲(chǔ)要求成為了最大障礙。因此,為加快人工智能技術(shù)在社會(huì)生活和工業(yè)的廣泛使用,越來(lái)越多的學(xué)者們對(duì)深度學(xué)習(xí)模型進(jìn)行輕量化壓縮進(jìn)行研究[1],而知識(shí)蒸餾方法已然成為比較主流的模型輕量化方法[2]。
知識(shí)蒸餾是指利用已經(jīng)訓(xùn)練好的大型深度學(xué)習(xí)模型輔助訓(xùn)練出一個(gè)小型模型,其中大型模型稱(chēng)為教師模型,起到監(jiān)督和輔助小型模型訓(xùn)練的作用。小型模型稱(chēng)為學(xué)生模型,接受來(lái)自教師模型的知識(shí),并最終用于實(shí)際部署。2015年Hinton[3]首次提出了知識(shí)蒸餾這一概念以來(lái),研究者們開(kāi)始對(duì)壓縮后如何保證學(xué)生模型精度這一問(wèn)題進(jìn)行研究。知識(shí)蒸餾從教師模型規(guī)模分為單教師模型的蒸餾和多教師模型知識(shí)蒸餾兩類(lèi)。單教師模型即只使用一個(gè)教師模型對(duì)學(xué)生模型進(jìn)行蒸餾,如Romero[4]將學(xué)生模型的網(wǎng)絡(luò)設(shè)計(jì)成較細(xì)且層數(shù)較深的形狀,并且將學(xué)生模型和教師模型的特征層連接,讓學(xué)生模型從教師模型的特征層提層知識(shí)。Chen[5]等在蒸餾中加入GAN結(jié)構(gòu),模擬原始數(shù)據(jù)集擴(kuò)大數(shù)據(jù)量提供給新的模型進(jìn)行知識(shí)蒸餾。Liu[6]等人將NAS引入知識(shí)蒸餾,根據(jù)教師模型結(jié)構(gòu)從NAS中選擇最契合的學(xué)生網(wǎng)絡(luò)與之匹配以達(dá)到最佳蒸餾效果,但NAS需要巨大內(nèi)存使該方法難以大面積推廣。Dai[7]等提出利用教師模型和學(xué)生模型預(yù)測(cè)實(shí)例的差異,提出實(shí)例差異的評(píng)估指標(biāo),并利用可區(qū)分的實(shí)例進(jìn)行蒸餾。知識(shí)蒸餾中學(xué)生網(wǎng)絡(luò)的知識(shí)大部分來(lái)源于教師模型,因此由單個(gè)教師模型知識(shí)蒸餾得到的學(xué)生模型精度上限受限于對(duì)應(yīng)的教師模型,難以有很大提升。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://theprogrammingfactory.com/resource/share/2000005484
作者信息:
顧明珠1,2,明瑞成2,邱創(chuàng)一1,2,王新文1,2
(1.福州大學(xué) 先進(jìn)制造學(xué)院,福建 泉州 362000;2.中國(guó)科學(xué)院海西研究院泉州裝備制造研究中心,福建 泉州 362000)