《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 基于卷積遞歸模型的文本分類研究
基于卷積遞歸模型的文本分類研究
2019年電子技術(shù)應(yīng)用第10期
殷曉雨,阿力木江·艾沙,庫爾班·吾布力
新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊830046
摘要: 近年來卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域得到了越來越廣泛的的應(yīng)用。提出一種卷積神經(jīng)網(wǎng)絡(luò)和長短時記憶網(wǎng)絡(luò)特征融合的模型,通過長短期記憶網(wǎng)絡(luò)作為池化層的替代來獲得長期依賴性,從而構(gòu)建一個聯(lián)合CNN和RNN的框架來克服單卷積神經(jīng)網(wǎng)絡(luò)忽略詞語在上下文中語義和語法信息的問題。所提出的方法在減少參數(shù)數(shù)量和兼顧文本序列全局特征方面起著重要作用,實驗結(jié)果表明,可以通過更小的框架來實現(xiàn)相同級別的分類性能,并且在準(zhǔn)確率方面超越了同類型的其他幾種方法。
中圖分類號: TN311
文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.190248
中文引用格式: 殷曉雨,阿力木江·艾沙,庫爾班·吾布力. 基于卷積遞歸模型的文本分類研究[J].電子技術(shù)應(yīng)用,2019,45(10):29-32,36.
英文引用格式: Yin Xiaoyu,Alimjan Aysa,Kurban Ubul. Research of text classification based on convolution recursive model[J]. Application of Electronic Technique,2019,45(10):29-32,36.
Research of text classification based on convolution recursive model
Yin Xiaoyu,Alimjan Aysa,Kurban Ubul
School of Information Science & Engineering,Xinjiang University,Urumqi 830046,China
Abstract: In recent years, convolutional neural networks(CNN) and recurrent neural networks(RNN) have been widely used in the field of text classification. In this paper, a model of CNN and long short term memory network(LSTM) feature fusion is proposed. Long-term dependence is obtained by replacing the LSTM as a pooling layer, so as to construct a joint CNN and RNN framework to overcome the single convolutional nerve. The network ignores the problem of semantic and grammatical information in the context of words. The proposed method plays an important role in reducing the number of parameters and taking into account the global characteristics of text sequences. The experimental results show that we can achieve the same level of classification performance through a smaller framework, and it can surpass several other methods of the same type in terms of accuracy.
Key words : text classification;convolutional neural network;recurrent neural network;global character

0 引言

    隨著人類一直以來在互聯(lián)網(wǎng)上產(chǎn)生的非結(jié)構(gòu)化文本數(shù)據(jù)量的不斷增長,迫切需要更加智能地處理這些龐大的數(shù)據(jù)并從中提取不同類型的知識。自然語言處理(Natural Language Processing,NLP)是計算機科學(xué)領(lǐng)域的一個廣泛的研究領(lǐng)域,它關(guān)注計算機與人類語言之間的交互過程。文本分類在許多NLP應(yīng)用程序中起著重要作用,例如垃圾郵件過濾、電子郵件分類、信息檢索、Web搜索以及排名和文檔分類[1-2],在這些功能中都需要將預(yù)定義類別分配給序列文本。文本分類關(guān)注的核心問題是文本中詞語的表示以及分類模型的選擇。相比較傳統(tǒng)的文本分類方法,深度學(xué)習(xí)文本分類框架不需要人為地獲取特征,并且具有更好的分類準(zhǔn)確率以及更高的效率,因而在自然語言處理領(lǐng)域獲得越來越廣泛的應(yīng)用。

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)最初在計算機視覺領(lǐng)域取得了非常成功的結(jié)果。CNN將特征提取和分類視為一個聯(lián)合任務(wù)。通過堆疊多個卷積和池化層來改進(jìn)這一過程,并且充分利用其多層感知器的結(jié)構(gòu),具備了學(xué)習(xí)高維、復(fù)雜和非線性映射關(guān)系的能力,在語音識別以及圖像領(lǐng)域都取得了很好的成果。KIM Y[3]等人提出將文本中經(jīng)過預(yù)處理的詞向量組合為二維的詞向量矩陣,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過卷積池化等操作來提取文本局部特征,從而實現(xiàn)句子級別的文本分類。雖然卷積神經(jīng)網(wǎng)絡(luò)模型為文本分類研究打開了新的研究方向并且取得了顯著的成果,但是卷積神經(jīng)網(wǎng)絡(luò)過于關(guān)注局部特征而忽略詞序以及語法結(jié)構(gòu),也對其分類準(zhǔn)確率造成了一定的影響。所以本文中引用卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)[4]來解決單獨卷積神經(jīng)網(wǎng)絡(luò)忽略全局特征的問題。

    本文所提出的架構(gòu)受到最近RNN在NLP應(yīng)用中的成功以及RNN即使只有一個單層也可以捕獲長期依賴性這一事實的啟發(fā)[5]。NLP的大多數(shù)深度學(xué)習(xí)架構(gòu)需要堆疊許多層來捕獲由于卷積和池化層的局部性而導(dǎo)致的長期依賴性[6]。因而本文研究了長短時記憶網(wǎng)絡(luò)(LSTM)作為卷積神經(jīng)網(wǎng)絡(luò)語言模型中池化層的替代方法,以執(zhí)行短文本的情感分析。本文將提出一種聯(lián)合CNN和RNN的架構(gòu),它將CNN提取的局部特征作為RNN的輸入,用于短文本的情感分析。本文的主要貢獻(xiàn):利用LSTM替代卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的池化層,通過卷積結(jié)構(gòu)提取的局部特征和LSTM模型獲得長期依賴關(guān)系,以較少的參數(shù)并實現(xiàn)有競爭力的結(jié)果[7],并在反復(fù)試驗后實現(xiàn)對這一模型參數(shù)的優(yōu)化。

1 模型結(jié)構(gòu)

1.1 卷積神經(jīng)網(wǎng)絡(luò)

    卷積網(wǎng)絡(luò)是一種包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的代表算法之一[8],通常包含輸入層、卷積層、池化層、全連接層以及輸出層等。本文利用卷積神經(jīng)網(wǎng)絡(luò)模型提取文本的局部特征,通過反向傳播算法進(jìn)行參數(shù)優(yōu)化[9]。由KIM Y提出的CNN短文本分類模型如圖1所示。

rgzn1-t1.gif

    (1)輸入層。輸入層是由句子中詞語的詞向量組成的詞向量矩陣。本文為了實現(xiàn)文本單詞特征的提取盡可能地保留其所在語句中的含義,因而將每條文本中所有的詞向量縱向堆疊得到二維的文本向量矩陣[10]。主要是利用Word2vec將詞W(i)轉(zhuǎn)換為詞向量V(W(i)),并且將詞W(i)組成的句子映射成為句子矩陣Sj,假設(shè)詞向量的維度為n,這個句包含詞的數(shù)量為k,因此該文本中包含k個子矩陣的大小就是n×k。

    (2)卷積層。卷積層通過一組不同大小的卷積核(Fliter)r×k對句子矩陣Sj進(jìn)行卷積運算操作,提取的局部特征:

    rgzn1-gs1.gif

其中,F(xiàn)代表r×k大小的的卷積核,b表示偏置量,f表示非線性激活函數(shù),ci表示通過卷積操作得到的局部特征。隨著卷積核以步長為1從上向下掃描完整個詞向量矩陣后,最終會得到局部特征向量集合C:

    rgzn1-gs2.gif

其中,h是卷積層參數(shù),對應(yīng)卷積步長。

    (3)池化層。池化層主要負(fù)責(zé)對卷積層的輸出進(jìn)行保留壓縮,進(jìn)一步減少參數(shù)數(shù)量并提取主要特征,它通常包括平均池化和最大池化,本文選取最大池化操作,通過調(diào)整k-max池化窗口參數(shù)來提取特征矩陣中最具有價值的重要信息。

    (4)輸出層。將池化層的所有輸出特征在全連接層組合輸出為向量U,之后通過softmax分類器計算文本在各個類別下的概率,最終模型利用實際的分類標(biāo)簽,通過反向傳播算法進(jìn)行模型參數(shù)的優(yōu)化[11]。

    rgzn1-gs3.gif

其中,y代表目標(biāo)輸出的實際分類。

1.2 長短時記憶網(wǎng)絡(luò)

    為了在文本中獲得較長的序列信息,僅僅依賴于卷積神經(jīng)網(wǎng)絡(luò)是難以實現(xiàn)的,因此自然語言處理中更常用到循環(huán)神經(jīng)網(wǎng)絡(luò)。它利用定向循環(huán)操作將前一刻的隱層狀態(tài)參與下一時刻隱層狀態(tài)的計算,從而解決了輸入間的前后關(guān)聯(lián)問題[12]

    長短期記憶網(wǎng)絡(luò)(Long Short_Term Memory Network,LSTM)[13]是一種特殊的RNN,其核心是利用記憶細(xì)胞記住長期的歷史信息和門機制進(jìn)行管理,從而更新每一層的隱狀態(tài)。LSTM遞歸神經(jīng)網(wǎng)絡(luò)的隱藏層向前公式可表示為:

rgzn1-gs4-8.gif

1.3 融合模型

    文本分類特征融合模型由卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)組成。第一層是嵌入層,將輸入文本轉(zhuǎn)換為可供處理的詞向量矩陣,矩陣的列數(shù)就是詞向量的維度,行數(shù)就是單詞序列的長度。

    對其進(jìn)行卷積操作,通過文獻(xiàn)[15]中對基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)的研究,本文經(jīng)過分析測試后認(rèn)為,當(dāng)詞向量取100維,且卷積核分別設(shè)置為3×100、4×100、5×100時,卷積神經(jīng)網(wǎng)絡(luò)會取得比較好的分類效果。在得到卷積運算所產(chǎn)生特征向量矩陣之后,將其作為輸入直接進(jìn)入長短時記憶網(wǎng)絡(luò)以捕獲文本的長期依賴關(guān)系,提取文本中的全局性特征。卷積循環(huán)網(wǎng)絡(luò)模型圖如圖2所示。

rgzn1-t2.gif

    將融合后的特征保存在output中,再連接第二個全連接層,其中θ代表函數(shù)的輸入向量,在第二個全連接層之后使用dropout機制,舍棄每次訓(xùn)練中得到的部分參數(shù),且dropout參數(shù)設(shè)置為0.5,防止過擬合,將最后將得到的結(jié)果輸入到softmax函數(shù)中得到x被分類成j類的概率計算公式為:

    rgzn1-gs9.gif

2 實驗與分析

2.1 實驗環(huán)境

    實驗環(huán)境參數(shù)配置如表1所示。

rgzn1-b1.gif

2.2 實驗數(shù)據(jù)

    本文的數(shù)據(jù)集為斯坦福大學(xué)的大型標(biāo)準(zhǔn)互聯(lián)網(wǎng)電影資料庫IMDB,是英文情感分析的標(biāo)準(zhǔn)試驗數(shù)據(jù),其任務(wù)是判斷電影評論是正面還是負(fù)面的。IMDB數(shù)據(jù)集有5萬條來自網(wǎng)絡(luò)電影數(shù)據(jù)庫的評論,其中2.5萬用來訓(xùn)練,2.5萬用來測試,每個部分正負(fù)評論各占50%。使用15%已經(jīng)標(biāo)注過的文檔作為驗證數(shù)據(jù)。

    IMDB數(shù)據(jù)集是Keras內(nèi)部集成的,初次使用需下載導(dǎo)入,之后便可以直接使用,并且該數(shù)據(jù)集已經(jīng)經(jīng)過預(yù)處理,所有的影評文本已經(jīng)被轉(zhuǎn)換為整數(shù)序列。在輸入神經(jīng)網(wǎng)絡(luò)前首先要將整數(shù)列表轉(zhuǎn)換為詞向量,將文本轉(zhuǎn)化為低維、稠密的詞向量矩陣。目前有很多詞向量訓(xùn)練工具,最具代表性的是斯坦福大學(xué)的Glove以及Google發(fā)布的Word2Vec等。

2.3 實驗參數(shù)

    通過使用隨機最速下降法SGD訓(xùn)練網(wǎng)絡(luò)以及反向傳播算法來計算梯度。本文通過添加一個循環(huán)層模型作為池化層的替代,有效地減少所需的卷積層數(shù)并捕獲長期依賴關(guān)系。因此,本文考慮將卷積和循環(huán)層合并為一個單獨的模型。本架構(gòu)目標(biāo)是減少網(wǎng)絡(luò)中的多個卷積和池化層堆疊數(shù)量并進(jìn)一步減少局部詳細(xì)信息的丟失。從而,在提出的模型中,卷積核的大小設(shè)置為3×256、4×256、5×256,使用ReLU作為激活函數(shù)。對于循環(huán)層LSTM,本文將其隱藏層的參數(shù)設(shè)置為128,訓(xùn)練迭代數(shù)量為50。表2中顯示了所提出的架構(gòu)的所選參數(shù)值。

rgzn1-b2.gif

2.4 實驗結(jié)果及分析

    為了驗證本文所提出的CNN與LSTM融合模型的分類性能,分別將本文中的模型與單獨CNN模型、LSTM模型、傳統(tǒng)分類模型以及其他文本分類模型做了比較試驗。

    圖3~圖5分別給出了3層CNN模型、單LSTM模型以及融合模型的準(zhǔn)確率。單獨模型與融合模型準(zhǔn)確率對比如表3所示。從表3中可知,本文所提出的融合模型在準(zhǔn)確率方面要優(yōu)于單獨的卷積神經(jīng)網(wǎng)絡(luò)模型以及LSTM模型。通過卷積神經(jīng)網(wǎng)絡(luò)提取局部特征之后,直接將文本的局部特征作為長短時記憶網(wǎng)絡(luò)的輸入,可以取得比單獨模型更高的分類準(zhǔn)確率。

rgzn1-t3.gif

rgzn1-t4.gif

rgzn1-t5.gif

rgzn1-b3.gif

    本文不僅與單獨文本分類模型進(jìn)行對比,還與傳統(tǒng)的機器學(xué)習(xí)算法SVM以及其他模型進(jìn)行比較。通過表4可以看出,文獻(xiàn)[15]提出的基于風(fēng)險最小化的分類決策樹雖然在原有的基礎(chǔ)上有了較大進(jìn)步,但本文所提出的融合模型在分類準(zhǔn)確率上顯然效果更好。

rgzn1-b4.gif

    在用LSTM進(jìn)行分類時,由于需要將全部的文本特征信息編碼到隱藏層中,顯然這種長距離特征依賴對于長文本的效果更為明顯,在加入了注意力機制之后顯然對LSTM的準(zhǔn)確率有較為顯著的影響,但本文所提出的的融合模型通過卷積計算提取局部特征和LSTM兼顧文本序列以及語法結(jié)構(gòu)的長距離特征在分類效果上表現(xiàn)要更好,本文所提出的文本特征融合模型的確可以有效提高文本分類的準(zhǔn)確率。

3 結(jié)論

    本文提出了一種利用LSTM替代卷積神經(jīng)網(wǎng)絡(luò)模型中池化層的特征融合模型用于文本分類研究。該模型既可以利用卷積結(jié)構(gòu)提取文本的局部特征,又可以利用LSTM保留文本的全局特征,減少局部特征在多層卷積池化結(jié)構(gòu)中的的特征損失問題。在實驗階段,本文將所提出的文本分類融合模型與單模型、傳統(tǒng)文本分類模型以及其他深度學(xué)習(xí)模型進(jìn)行對比實驗,本文所提出的融合模型有效提升了文本分類的準(zhǔn)確率。然而本文所提出的融合模型并沒有采用復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),在接下來的研究中將針對結(jié)構(gòu)更加復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)與LSTM的融合模型來開展。

參考文獻(xiàn)

[1] Li Juntao,Cao Yimin,Wang Yadi,et al.Online learning algorithms for double-weighted least squares twin bounded support vector machines[J].Neural Processing Letters,2017,45(1):319-339.

[2] KALCHBRENNER N,GREFENSTETTE E,BLUNSOM P A.Convolutional neural network for modelling sentences[J].Information Sciences,2016(1):217-253.

[3] KIM Y.Convolutional neural networks for sentence classification[C].Proceedings of the EMNLP,2014.

[4] 李云紅,梁思程,任劼,等.基于循環(huán)神經(jīng)網(wǎng)絡(luò)變體和卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法[J].西北大學(xué)學(xué)報(自然科學(xué)版),2019(4):1337-5003.

[5] GRAVES A.Supervised sequence labelling with recurrent neural networks[M].Berlin Heidelberg:Springer,2012.

[6] ANDRIY M,GEOFFREY H.A scalable hierarchical distributed language model[C].The Conference on Neural Information Processing Systems(NIPS),2008:1081-1088.

[7] 蘇豐龍,謝慶華.基于深度學(xué)習(xí)的領(lǐng)域?qū)嶓w屬性詞聚類抽取研究[J].電子技術(shù)應(yīng)用,2016,42(6):1674-7720.

[8] 字云飛,李業(yè)麗,孫華艷.基于深度神經(jīng)網(wǎng)絡(luò)的個性化推薦系統(tǒng)研究[J].電子技術(shù)應(yīng)用,2019,45(1):14-18,22.

[9] MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distribtedrep-resentations of words and phrases and their compositionality[C].Proceedings of the Advances in Neural Information Processing Systems,2013:3111-3119.

[10] 王靜.基于機器學(xué)習(xí)的文本分類算法研究與應(yīng)用[D].成都:電子科技大學(xué),2015.

[11] 張沖.基于Attention -Based LSTM模型的文本分類技術(shù)的研究[D].南京:南京大學(xué),2016.

[12] MANNING C D,RAGHAVAN P,SCHUTZE H.An introduction to information retrieval[M].Cambridge:Cambridge University Press,2008.

[13] 李華,屈丹,張文林,等.結(jié)合全局詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J].信號處理,2016,32(6):715-723.

[14] VIGLIOCCO G,VINSON D P,DRUKS J,et al.Nouns and verbs in the brain:a review of behavioural,electrophysiological,neuropsychological and imaging studies[J].Neuroscience and Biobehavioral Reviews,2010(3):167-198.

[15] ZHANG X,ZHAO J,LECUN Y.Character-level convolutional networks for text classification[C].Advances in Neural Information Processing Systems,2015:649-657.



作者信息:

殷曉雨,阿力木江·艾沙,庫爾班·吾布力

(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊830046)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。