《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 設(shè)計(jì)應(yīng)用 > 一種多教師模型知識(shí)蒸餾深度神經(jīng)網(wǎng)絡(luò)模型壓縮算法
一種多教師模型知識(shí)蒸餾深度神經(jīng)網(wǎng)絡(luò)模型壓縮算法
2023年電子技術(shù)應(yīng)用第8期
顧明珠1,2,明瑞成2,邱創(chuàng)一1,2,王新文1,2
(1.福州大學(xué) 先進(jìn)制造學(xué)院,福建 泉州 362000;2.中國(guó)科學(xué)院海西研究院泉州裝備制造研究中心,福建 泉州 362000)
摘要: 為了能將龐大的深度學(xué)習(xí)模型壓縮后部署到算力和存儲(chǔ)能力有限的設(shè)備中時(shí)盡可能減小精度損失,對(duì)知識(shí)蒸餾模型壓縮方法進(jìn)行研究,提出了一種改進(jìn)后帶篩選的多教師模型知識(shí)蒸餾壓縮算法。利用多教師模型的集成優(yōu)勢(shì),以各教師模型的預(yù)測(cè)交叉熵為篩選的量化標(biāo)準(zhǔn)篩選出表現(xiàn)更好的教師模型對(duì)學(xué)生進(jìn)行指導(dǎo),并讓學(xué)生模型從教師模型的特征層開(kāi)始提取信息,同時(shí)讓表現(xiàn)更好的教師模型在指導(dǎo)中更具有話語(yǔ)權(quán)。在CIFAR100數(shù)據(jù)集上的VGG13等分類(lèi)模型實(shí)驗(yàn)結(jié)果表明,與其他壓縮算法相比在最終得到的學(xué)生模型大小相同的情況下,精度上有著更好的表現(xiàn)。
中圖分類(lèi)號(hào):TP399 文獻(xiàn)標(biāo)志碼:A DOI: 10.16157/j.issn.0258-7998.233812
中文引用格式: 顧明珠,明瑞成,邱創(chuàng)一,等. 一種多教師模型知識(shí)蒸餾深度神經(jīng)網(wǎng)絡(luò)模型壓縮算法[J]. 電子技術(shù)應(yīng)用,2023,49(8):7-12.
英文引用格式: Gu Mingzhu,Ming Ruicheng,Qiu Chuangyi,et al. A multi-teacher knowledge distillation model compression algorithm for deep neural network[J]. Application of Electronic Technique,2023,49(8):7-12.
A multi-teacher knowledge distillation model compression algorithm for deep neural network
Gu Mingzhu1,2,Ming Ruicheng2,Qiu Chuangyi1,2,Wang Xinwen1,2
(1.School of Advanced Manufacturing, Fuzhou University, Quanzhou 362000, China; 2.Quanzhou Institute of Equipment Manufacturing,Haixi Institutes Chinese Academy of Sciences,Quanzhou 362000, China)
Abstract: In order to minimize the accuracy loss when compressing huge deep learning models and deploying them to devices with limited computing power and storage capacity, a knowledge distillation model compression method is investigated and an improved multi-teacher model knowledge distillation compression algorithm with filtering is proposed. Taking advantage of the integration of multi-teacher models, the better-performing teacher models are screened for student instruction using the predicted cross-entropy of each teacher model as the quantitative criterion for screening, and the student models are allowed to extract information starting from the feature layer of the teacher models, while the better-performing teacher models are allowed to have more say in the instruction. The experimental results of classification models such as VGG13 on the CIFAR100 dataset show that the multi-teacher model compression method in this paper has better performance in terms of accuracy compared with other compression algorithms with the same size of the final obtained student models.
Key words : model compression;distillation of knowledge;multi-teacher model;cross entropy;feature layer

0 引言

隨著人工智能技術(shù)發(fā)展,要將越來(lái)越龐大的的模型部署到實(shí)際的工業(yè)社會(huì)中時(shí),相應(yīng)硬件的算力要求和存儲(chǔ)要求成為了最大障礙。因此,為加快人工智能技術(shù)在社會(huì)生活和工業(yè)的廣泛使用,越來(lái)越多的學(xué)者們對(duì)深度學(xué)習(xí)模型進(jìn)行輕量化壓縮進(jìn)行研究[1],而知識(shí)蒸餾方法已然成為比較主流的模型輕量化方法[2]。

知識(shí)蒸餾是指利用已經(jīng)訓(xùn)練好的大型深度學(xué)習(xí)模型輔助訓(xùn)練出一個(gè)小型模型,其中大型模型稱(chēng)為教師模型,起到監(jiān)督和輔助小型模型訓(xùn)練的作用。小型模型稱(chēng)為學(xué)生模型,接受來(lái)自教師模型的知識(shí),并最終用于實(shí)際部署。2015年Hinton[3]首次提出了知識(shí)蒸餾這一概念以來(lái),研究者們開(kāi)始對(duì)壓縮后如何保證學(xué)生模型精度這一問(wèn)題進(jìn)行研究。知識(shí)蒸餾從教師模型規(guī)模分為單教師模型的蒸餾和多教師模型知識(shí)蒸餾兩類(lèi)。單教師模型即只使用一個(gè)教師模型對(duì)學(xué)生模型進(jìn)行蒸餾,如Romero[4]將學(xué)生模型的網(wǎng)絡(luò)設(shè)計(jì)成較細(xì)且層數(shù)較深的形狀,并且將學(xué)生模型和教師模型的特征層連接,讓學(xué)生模型從教師模型的特征層提層知識(shí)。Chen[5]等在蒸餾中加入GAN結(jié)構(gòu),模擬原始數(shù)據(jù)集擴(kuò)大數(shù)據(jù)量提供給新的模型進(jìn)行知識(shí)蒸餾。Liu[6]等人將NAS引入知識(shí)蒸餾,根據(jù)教師模型結(jié)構(gòu)從NAS中選擇最契合的學(xué)生網(wǎng)絡(luò)與之匹配以達(dá)到最佳蒸餾效果,但NAS需要巨大內(nèi)存使該方法難以大面積推廣。Dai[7]等提出利用教師模型和學(xué)生模型預(yù)測(cè)實(shí)例的差異,提出實(shí)例差異的評(píng)估指標(biāo),并利用可區(qū)分的實(shí)例進(jìn)行蒸餾。知識(shí)蒸餾中學(xué)生網(wǎng)絡(luò)的知識(shí)大部分來(lái)源于教師模型,因此由單個(gè)教師模型知識(shí)蒸餾得到的學(xué)生模型精度上限受限于對(duì)應(yīng)的教師模型,難以有很大提升。



本文詳細(xì)內(nèi)容請(qǐng)下載:http://theprogrammingfactory.com/resource/share/2000005484




作者信息:

顧明珠1,2,明瑞成2,邱創(chuàng)一1,2,王新文1,2

(1.福州大學(xué) 先進(jìn)制造學(xué)院,福建 泉州 362000;2.中國(guó)科學(xué)院海西研究院泉州裝備制造研究中心,福建 泉州 362000)

微信圖片_20210517164139.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。