文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.190248
中文引用格式: 殷曉雨,阿力木江·艾沙,庫爾班·吾布力. 基于卷積遞歸模型的文本分類研究[J].電子技術(shù)應(yīng)用,2019,45(10):29-32,36.
英文引用格式: Yin Xiaoyu,Alimjan Aysa,Kurban Ubul. Research of text classification based on convolution recursive model[J]. Application of Electronic Technique,2019,45(10):29-32,36.
0 引言
隨著人類一直以來在互聯(lián)網(wǎng)上產(chǎn)生的非結(jié)構(gòu)化文本數(shù)據(jù)量的不斷增長,迫切需要更加智能地處理這些龐大的數(shù)據(jù)并從中提取不同類型的知識。自然語言處理(Natural Language Processing,NLP)是計算機科學(xué)領(lǐng)域的一個廣泛的研究領(lǐng)域,它關(guān)注計算機與人類語言之間的交互過程。文本分類在許多NLP應(yīng)用程序中起著重要作用,例如垃圾郵件過濾、電子郵件分類、信息檢索、Web搜索以及排名和文檔分類[1-2],在這些功能中都需要將預(yù)定義類別分配給序列文本。文本分類關(guān)注的核心問題是文本中詞語的表示以及分類模型的選擇。相比較傳統(tǒng)的文本分類方法,深度學(xué)習(xí)文本分類框架不需要人為地獲取特征,并且具有更好的分類準(zhǔn)確率以及更高的效率,因而在自然語言處理領(lǐng)域獲得越來越廣泛的應(yīng)用。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)最初在計算機視覺領(lǐng)域取得了非常成功的結(jié)果。CNN將特征提取和分類視為一個聯(lián)合任務(wù)。通過堆疊多個卷積和池化層來改進(jìn)這一過程,并且充分利用其多層感知器的結(jié)構(gòu),具備了學(xué)習(xí)高維、復(fù)雜和非線性映射關(guān)系的能力,在語音識別以及圖像領(lǐng)域都取得了很好的成果。KIM Y[3]等人提出將文本中經(jīng)過預(yù)處理的詞向量組合為二維的詞向量矩陣,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過卷積池化等操作來提取文本局部特征,從而實現(xiàn)句子級別的文本分類。雖然卷積神經(jīng)網(wǎng)絡(luò)模型為文本分類研究打開了新的研究方向并且取得了顯著的成果,但是卷積神經(jīng)網(wǎng)絡(luò)過于關(guān)注局部特征而忽略詞序以及語法結(jié)構(gòu),也對其分類準(zhǔn)確率造成了一定的影響。所以本文中引用卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)[4]來解決單獨卷積神經(jīng)網(wǎng)絡(luò)忽略全局特征的問題。
本文所提出的架構(gòu)受到最近RNN在NLP應(yīng)用中的成功以及RNN即使只有一個單層也可以捕獲長期依賴性這一事實的啟發(fā)[5]。NLP的大多數(shù)深度學(xué)習(xí)架構(gòu)需要堆疊許多層來捕獲由于卷積和池化層的局部性而導(dǎo)致的長期依賴性[6]。因而本文研究了長短時記憶網(wǎng)絡(luò)(LSTM)作為卷積神經(jīng)網(wǎng)絡(luò)語言模型中池化層的替代方法,以執(zhí)行短文本的情感分析。本文將提出一種聯(lián)合CNN和RNN的架構(gòu),它將CNN提取的局部特征作為RNN的輸入,用于短文本的情感分析。本文的主要貢獻(xiàn):利用LSTM替代卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的池化層,通過卷積結(jié)構(gòu)提取的局部特征和LSTM模型獲得長期依賴關(guān)系,以較少的參數(shù)并實現(xiàn)有競爭力的結(jié)果[7],并在反復(fù)試驗后實現(xiàn)對這一模型參數(shù)的優(yōu)化。
1 模型結(jié)構(gòu)
1.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積網(wǎng)絡(luò)是一種包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的代表算法之一[8],通常包含輸入層、卷積層、池化層、全連接層以及輸出層等。本文利用卷積神經(jīng)網(wǎng)絡(luò)模型提取文本的局部特征,通過反向傳播算法進(jìn)行參數(shù)優(yōu)化[9]。由KIM Y提出的CNN短文本分類模型如圖1所示。
(1)輸入層。輸入層是由句子中詞語的詞向量組成的詞向量矩陣。本文為了實現(xiàn)文本單詞特征的提取盡可能地保留其所在語句中的含義,因而將每條文本中所有的詞向量縱向堆疊得到二維的文本向量矩陣[10]。主要是利用Word2vec將詞W(i)轉(zhuǎn)換為詞向量V(W(i)),并且將詞W(i)組成的句子映射成為句子矩陣Sj,假設(shè)詞向量的維度為n,這個句包含詞的數(shù)量為k,因此該文本中包含k個子矩陣的大小就是n×k。
(2)卷積層。卷積層通過一組不同大小的卷積核(Fliter)r×k對句子矩陣Sj進(jìn)行卷積運算操作,提取的局部特征:
其中,F(xiàn)代表r×k大小的的卷積核,b表示偏置量,f表示非線性激活函數(shù),ci表示通過卷積操作得到的局部特征。隨著卷積核以步長為1從上向下掃描完整個詞向量矩陣后,最終會得到局部特征向量集合C:
其中,h是卷積層參數(shù),對應(yīng)卷積步長。
(3)池化層。池化層主要負(fù)責(zé)對卷積層的輸出進(jìn)行保留壓縮,進(jìn)一步減少參數(shù)數(shù)量并提取主要特征,它通常包括平均池化和最大池化,本文選取最大池化操作,通過調(diào)整k-max池化窗口參數(shù)來提取特征矩陣中最具有價值的重要信息。
(4)輸出層。將池化層的所有輸出特征在全連接層組合輸出為向量U,之后通過softmax分類器計算文本在各個類別下的概率,最終模型利用實際的分類標(biāo)簽,通過反向傳播算法進(jìn)行模型參數(shù)的優(yōu)化[11]。
其中,y代表目標(biāo)輸出的實際分類。
1.2 長短時記憶網(wǎng)絡(luò)
為了在文本中獲得較長的序列信息,僅僅依賴于卷積神經(jīng)網(wǎng)絡(luò)是難以實現(xiàn)的,因此自然語言處理中更常用到循環(huán)神經(jīng)網(wǎng)絡(luò)。它利用定向循環(huán)操作將前一刻的隱層狀態(tài)參與下一時刻隱層狀態(tài)的計算,從而解決了輸入間的前后關(guān)聯(lián)問題[12]。
長短期記憶網(wǎng)絡(luò)(Long Short_Term Memory Network,LSTM)[13]是一種特殊的RNN,其核心是利用記憶細(xì)胞記住長期的歷史信息和門機制進(jìn)行管理,從而更新每一層的隱狀態(tài)。LSTM遞歸神經(jīng)網(wǎng)絡(luò)的隱藏層向前公式可表示為:
1.3 融合模型
文本分類特征融合模型由卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)組成。第一層是嵌入層,將輸入文本轉(zhuǎn)換為可供處理的詞向量矩陣,矩陣的列數(shù)就是詞向量的維度,行數(shù)就是單詞序列的長度。
對其進(jìn)行卷積操作,通過文獻(xiàn)[15]中對基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)的研究,本文經(jīng)過分析測試后認(rèn)為,當(dāng)詞向量取100維,且卷積核分別設(shè)置為3×100、4×100、5×100時,卷積神經(jīng)網(wǎng)絡(luò)會取得比較好的分類效果。在得到卷積運算所產(chǎn)生特征向量矩陣之后,將其作為輸入直接進(jìn)入長短時記憶網(wǎng)絡(luò)以捕獲文本的長期依賴關(guān)系,提取文本中的全局性特征。卷積循環(huán)網(wǎng)絡(luò)模型圖如圖2所示。
將融合后的特征保存在output中,再連接第二個全連接層,其中θ代表函數(shù)的輸入向量,在第二個全連接層之后使用dropout機制,舍棄每次訓(xùn)練中得到的部分參數(shù),且dropout參數(shù)設(shè)置為0.5,防止過擬合,將最后將得到的結(jié)果輸入到softmax函數(shù)中得到x被分類成j類的概率計算公式為:
2 實驗與分析
2.1 實驗環(huán)境
實驗環(huán)境參數(shù)配置如表1所示。
2.2 實驗數(shù)據(jù)
本文的數(shù)據(jù)集為斯坦福大學(xué)的大型標(biāo)準(zhǔn)互聯(lián)網(wǎng)電影資料庫IMDB,是英文情感分析的標(biāo)準(zhǔn)試驗數(shù)據(jù),其任務(wù)是判斷電影評論是正面還是負(fù)面的。IMDB數(shù)據(jù)集有5萬條來自網(wǎng)絡(luò)電影數(shù)據(jù)庫的評論,其中2.5萬用來訓(xùn)練,2.5萬用來測試,每個部分正負(fù)評論各占50%。使用15%已經(jīng)標(biāo)注過的文檔作為驗證數(shù)據(jù)。
IMDB數(shù)據(jù)集是Keras內(nèi)部集成的,初次使用需下載導(dǎo)入,之后便可以直接使用,并且該數(shù)據(jù)集已經(jīng)經(jīng)過預(yù)處理,所有的影評文本已經(jīng)被轉(zhuǎn)換為整數(shù)序列。在輸入神經(jīng)網(wǎng)絡(luò)前首先要將整數(shù)列表轉(zhuǎn)換為詞向量,將文本轉(zhuǎn)化為低維、稠密的詞向量矩陣。目前有很多詞向量訓(xùn)練工具,最具代表性的是斯坦福大學(xué)的Glove以及Google發(fā)布的Word2Vec等。
2.3 實驗參數(shù)
通過使用隨機最速下降法SGD訓(xùn)練網(wǎng)絡(luò)以及反向傳播算法來計算梯度。本文通過添加一個循環(huán)層模型作為池化層的替代,有效地減少所需的卷積層數(shù)并捕獲長期依賴關(guān)系。因此,本文考慮將卷積和循環(huán)層合并為一個單獨的模型。本架構(gòu)目標(biāo)是減少網(wǎng)絡(luò)中的多個卷積和池化層堆疊數(shù)量并進(jìn)一步減少局部詳細(xì)信息的丟失。從而,在提出的模型中,卷積核的大小設(shè)置為3×256、4×256、5×256,使用ReLU作為激活函數(shù)。對于循環(huán)層LSTM,本文將其隱藏層的參數(shù)設(shè)置為128,訓(xùn)練迭代數(shù)量為50。表2中顯示了所提出的架構(gòu)的所選參數(shù)值。
2.4 實驗結(jié)果及分析
為了驗證本文所提出的CNN與LSTM融合模型的分類性能,分別將本文中的模型與單獨CNN模型、LSTM模型、傳統(tǒng)分類模型以及其他文本分類模型做了比較試驗。
圖3~圖5分別給出了3層CNN模型、單LSTM模型以及融合模型的準(zhǔn)確率。單獨模型與融合模型準(zhǔn)確率對比如表3所示。從表3中可知,本文所提出的融合模型在準(zhǔn)確率方面要優(yōu)于單獨的卷積神經(jīng)網(wǎng)絡(luò)模型以及LSTM模型。通過卷積神經(jīng)網(wǎng)絡(luò)提取局部特征之后,直接將文本的局部特征作為長短時記憶網(wǎng)絡(luò)的輸入,可以取得比單獨模型更高的分類準(zhǔn)確率。
本文不僅與單獨文本分類模型進(jìn)行對比,還與傳統(tǒng)的機器學(xué)習(xí)算法SVM以及其他模型進(jìn)行比較。通過表4可以看出,文獻(xiàn)[15]提出的基于風(fēng)險最小化的分類決策樹雖然在原有的基礎(chǔ)上有了較大進(jìn)步,但本文所提出的融合模型在分類準(zhǔn)確率上顯然效果更好。
在用LSTM進(jìn)行分類時,由于需要將全部的文本特征信息編碼到隱藏層中,顯然這種長距離特征依賴對于長文本的效果更為明顯,在加入了注意力機制之后顯然對LSTM的準(zhǔn)確率有較為顯著的影響,但本文所提出的的融合模型通過卷積計算提取局部特征和LSTM兼顧文本序列以及語法結(jié)構(gòu)的長距離特征在分類效果上表現(xiàn)要更好,本文所提出的文本特征融合模型的確可以有效提高文本分類的準(zhǔn)確率。
3 結(jié)論
本文提出了一種利用LSTM替代卷積神經(jīng)網(wǎng)絡(luò)模型中池化層的特征融合模型用于文本分類研究。該模型既可以利用卷積結(jié)構(gòu)提取文本的局部特征,又可以利用LSTM保留文本的全局特征,減少局部特征在多層卷積池化結(jié)構(gòu)中的的特征損失問題。在實驗階段,本文將所提出的文本分類融合模型與單模型、傳統(tǒng)文本分類模型以及其他深度學(xué)習(xí)模型進(jìn)行對比實驗,本文所提出的融合模型有效提升了文本分類的準(zhǔn)確率。然而本文所提出的融合模型并沒有采用復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),在接下來的研究中將針對結(jié)構(gòu)更加復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)與LSTM的融合模型來開展。
參考文獻(xiàn)
[1] Li Juntao,Cao Yimin,Wang Yadi,et al.Online learning algorithms for double-weighted least squares twin bounded support vector machines[J].Neural Processing Letters,2017,45(1):319-339.
[2] KALCHBRENNER N,GREFENSTETTE E,BLUNSOM P A.Convolutional neural network for modelling sentences[J].Information Sciences,2016(1):217-253.
[3] KIM Y.Convolutional neural networks for sentence classification[C].Proceedings of the EMNLP,2014.
[4] 李云紅,梁思程,任劼,等.基于循環(huán)神經(jīng)網(wǎng)絡(luò)變體和卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法[J].西北大學(xué)學(xué)報(自然科學(xué)版),2019(4):1337-5003.
[5] GRAVES A.Supervised sequence labelling with recurrent neural networks[M].Berlin Heidelberg:Springer,2012.
[6] ANDRIY M,GEOFFREY H.A scalable hierarchical distributed language model[C].The Conference on Neural Information Processing Systems(NIPS),2008:1081-1088.
[7] 蘇豐龍,謝慶華.基于深度學(xué)習(xí)的領(lǐng)域?qū)嶓w屬性詞聚類抽取研究[J].電子技術(shù)應(yīng)用,2016,42(6):1674-7720.
[8] 字云飛,李業(yè)麗,孫華艷.基于深度神經(jīng)網(wǎng)絡(luò)的個性化推薦系統(tǒng)研究[J].電子技術(shù)應(yīng)用,2019,45(1):14-18,22.
[9] MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distribtedrep-resentations of words and phrases and their compositionality[C].Proceedings of the Advances in Neural Information Processing Systems,2013:3111-3119.
[10] 王靜.基于機器學(xué)習(xí)的文本分類算法研究與應(yīng)用[D].成都:電子科技大學(xué),2015.
[11] 張沖.基于Attention -Based LSTM模型的文本分類技術(shù)的研究[D].南京:南京大學(xué),2016.
[12] MANNING C D,RAGHAVAN P,SCHUTZE H.An introduction to information retrieval[M].Cambridge:Cambridge University Press,2008.
[13] 李華,屈丹,張文林,等.結(jié)合全局詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J].信號處理,2016,32(6):715-723.
[14] VIGLIOCCO G,VINSON D P,DRUKS J,et al.Nouns and verbs in the brain:a review of behavioural,electrophysiological,neuropsychological and imaging studies[J].Neuroscience and Biobehavioral Reviews,2010(3):167-198.
[15] ZHANG X,ZHAO J,LECUN Y.Character-level convolutional networks for text classification[C].Advances in Neural Information Processing Systems,2015:649-657.
作者信息:
殷曉雨,阿力木江·艾沙,庫爾班·吾布力
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊830046)