文獻(xiàn)標(biāo)志碼:A
DOI: 10.16157/j.issn.0258-7998.233869
引用格式: 苑婧,周楊,胡校飛,等. 融合多教師模型的知識(shí)蒸餾文本分類[J]. 電子技術(shù)應(yīng)用,2023,49(11):42-48.
【引言】
文本分類為輿情監(jiān)控、廣告推送、挖掘社交媒體用戶的時(shí)空行為、追蹤敏感信息發(fā)揮了重要作用,其主要任務(wù)是根據(jù)文本內(nèi)容或主題自動(dòng)識(shí)別其所屬類別。目前文本分類主要有機(jī)器學(xué)習(xí)[1]、深度學(xué)習(xí)[2]和預(yù)訓(xùn)練模型,其中預(yù)訓(xùn)練模型分類準(zhǔn)確率最高。
深度學(xué)習(xí)模型通過捕捉文本的上下文特征完成文本分類任務(wù),包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[3]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[4]、長短期記憶網(wǎng)絡(luò)(Long and Short Term Memory,LSTM)[5]、門控循環(huán)單元(Gated Recurrent Unit GRU)[6]等。結(jié)合不同的模型可以有效提高模型的性能,例如Sandhya結(jié)合長LSTM和RNN對文本文檔進(jìn)行特征提取[7],陳可嘉[8]使用BiGRU-CNN模型結(jié)合自注意力機(jī)制進(jìn)行文本分類,均全面提取了文本的局部和整體特征,提高了模型的準(zhǔn)確性。
預(yù)訓(xùn)練文本分類模型模型使用大量無標(biāo)注語料,在多個(gè)自然語言處理任務(wù)中有著良好的效果[9],包括Bert[10]、ELMo[11]、XLNet[12]等。翟劍峰使用Bert模型用于用戶畫像[13],王浩暢使用ELMo模型用于機(jī)器翻譯[14],李東金使用XLNet模型用于情感分析[15]。但是預(yù)訓(xùn)練模型參數(shù)量大、結(jié)構(gòu)復(fù)雜、運(yùn)行時(shí)間長,在實(shí)際生產(chǎn)環(huán)境直接使用難度較大,因此需在保證準(zhǔn)確率的前提下對模型進(jìn)行壓縮。
合理的模型壓縮可以在保證準(zhǔn)確率的前提下有效降低模型參數(shù)量和內(nèi)存以提高實(shí)際應(yīng)用的時(shí)間效率[16],常見的模型壓縮方法包括網(wǎng)絡(luò)剪枝[17]、參數(shù)量化、知識(shí)蒸餾[18]等。葉榕使用知識(shí)蒸餾的方法結(jié)合Bert和CNN模型用于新聞文本分類[19],楊澤使用知識(shí)蒸餾的方法改進(jìn)網(wǎng)絡(luò)問答系統(tǒng)[20],都在不影響準(zhǔn)確率的前提下,大大縮短了運(yùn)行時(shí)間。
本文提出了一種多教師模型知識(shí)蒸餾的方法,在不顯著降低性能的前提下,減小模型了的復(fù)雜度。結(jié)合預(yù)訓(xùn)練模型XLNet和BERT-wwm-ext輸出的概率分布融合作為軟標(biāo)簽,在訓(xùn)練過程中指導(dǎo)學(xué)生模型BiGRU-CNN網(wǎng)絡(luò),提高了模型的泛化能力。
文章詳細(xì)內(nèi)容下載請點(diǎn)擊:融合多教師模型的知識(shí)蒸餾文本分類AET-電子技術(shù)應(yīng)用-最豐富的電子設(shè)計(jì)資源平臺(tái) (chinaaet.com)
【作者信息】
苑婧1,周楊1,胡校飛1,孫姝婭2,張呈龍1,劉龍輝1
(1.戰(zhàn)略支援部隊(duì)信息工程大學(xué), 河南 鄭州 450001;2.華北水利水電大學(xué), 河南 鄭州 450000)