文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.180439
中文引用格式: 金鵬,楊忠良,黃永峰. 基于卷積神經(jīng)網(wǎng)絡(luò)的詩(shī)詞隱寫(xiě)檢測(cè)方法[J].電子技術(shù)應(yīng)用,2018,44(10):114-117,126.
英文引用格式: Jin Peng,Yang Zhongliang,Huang Yongfeng. Poetry steganalysis based on convolutional neural network[J]. Application of Electronic Technique,2018,44(10):114-117,126.
0 引言
隱寫(xiě)術(shù)是信息安全領(lǐng)域的一個(gè)非常重要的研究熱點(diǎn),它通過(guò)難以察覺(jué)的方式將秘密信息隱藏到數(shù)字載體中。它可以用來(lái)建立秘密信道,并通過(guò)互聯(lián)網(wǎng)在連接受到限制或監(jiān)控的雙方之間傳遞隱蔽信息[1]。密碼術(shù)主要通過(guò)設(shè)計(jì)加密技術(shù),使保密信息不可讀,但同時(shí)也暴露了數(shù)據(jù)的重要性,使其更容易遭受攔截、破解等攻擊。而隱寫(xiě)術(shù)則致力于通過(guò)設(shè)計(jì)精妙的方法,使其根本不會(huì)引起非授權(quán)者的注意并且無(wú)從得知保密信息的存在與否。由此可以看出,隱寫(xiě)術(shù)的最大特征就是具有極強(qiáng)的隱蔽性?;诖?,設(shè)計(jì)并實(shí)現(xiàn)自動(dòng)隱寫(xiě)檢測(cè)方法成為一件非常具有挑戰(zhàn)性的任務(wù)。
信息載體的形式多種多樣,因此有基于不同載體的信息隱藏方法,比如基于圖像[2]、語(yǔ)音[3]、文本[4-5]等。這些隱寫(xiě)技術(shù)在信息安全保障體系的諸多方面發(fā)揮著重要作用。但隱寫(xiě)術(shù)也有可能被用于非法目的。因此,急需解決非法信息的檢測(cè)問(wèn)題,阻止非法信息的傳輸。由于圖像和語(yǔ)音相比于文本具有更大的信息冗余度,使其成為非常常用的信息隱藏載體,相關(guān)的信息隱藏技術(shù)[6-7]也已經(jīng)比較成熟。
文本中可用于隱藏?cái)?shù)據(jù)的冗余空間非常有限,導(dǎo)致在文本中嵌入信息非常困難,但也吸引了大量研究者對(duì)其進(jìn)行研究?,F(xiàn)有的基于文本的信息隱藏方法大致可以分為兩大類(lèi),一類(lèi)是基于文本格式[5,8-9],一類(lèi)是基于文本內(nèi)容[10-11]。基于文本格式的信息隱寫(xiě)方法一般將文本當(dāng)成一種特殊編碼的圖像進(jìn)行處理,它們通過(guò)調(diào)整文本的字符間距[8]、字詞的偏移[5]、字符編碼方式[9]等實(shí)現(xiàn)信息隱藏。這一類(lèi)方法通常容量較大、實(shí)現(xiàn)簡(jiǎn)單,但魯棒性不強(qiáng)?;谖谋緝?nèi)容的方法,通常通過(guò)對(duì)文本進(jìn)行詞匯、句法、語(yǔ)義等方面的修改,盡量保持文本局部以及全局語(yǔ)義不變、語(yǔ)法正確的方式來(lái)實(shí)現(xiàn)信息的嵌入。例如,文獻(xiàn)[12]利用馬爾科夫模型進(jìn)行自然文本生成并通過(guò)對(duì)生成過(guò)程中轉(zhuǎn)移概率進(jìn)行編碼實(shí)現(xiàn)信息隱藏,但存在的缺點(diǎn)是生成的文本都不太自然。然而,隨著近些年自然語(yǔ)言處理技術(shù)的發(fā)展,出現(xiàn)了越來(lái)越多基于文本自動(dòng)生成的信息隱藏方法,例如一些隱寫(xiě)技術(shù)能自動(dòng)生成大量的詩(shī)詞并在生成過(guò)程中實(shí)現(xiàn)大容量秘密信息嵌入[13-15],同時(shí)最終生成的詩(shī)很難與真實(shí)詩(shī)人寫(xiě)的詩(shī)區(qū)分開(kāi)。這一類(lèi)方法比基于格式的方法具有更強(qiáng)的魯棒性和更好的隱蔽性。目前基于文本語(yǔ)義內(nèi)容的信息隱藏技術(shù)是文本信息隱藏技術(shù)發(fā)展的研究重點(diǎn)和熱點(diǎn)。本文主要針對(duì)這一類(lèi)方法,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的文本自動(dòng)隱寫(xiě)檢測(cè)方法,實(shí)現(xiàn)對(duì)文本中是否隱藏信息的自動(dòng)識(shí)別。
1 相關(guān)研究工作
隱寫(xiě)分析技術(shù)是和隱寫(xiě)術(shù)相對(duì)抗的一種技術(shù)。通常認(rèn)為判定某個(gè)數(shù)據(jù)載體中隱藏信息的存在即可認(rèn)為該隱寫(xiě)系統(tǒng)被攻破。因此,本文重點(diǎn)研究自動(dòng)檢測(cè)文本中是否含有隱藏信息。
目前,已有的文本隱藏信息檢測(cè)研究要么是主要針對(duì)一些特定的隱藏算法進(jìn)行研究,要么是根據(jù)人為定義的統(tǒng)計(jì)規(guī)則進(jìn)行判別。針對(duì)前一類(lèi)方法的研究有:吳明巧僅僅針對(duì)Stego工具,提出了基于標(biāo)記特征與統(tǒng)計(jì)特征相結(jié)合的檢測(cè)方法[16];KWON H等針對(duì)基于文檔結(jié)構(gòu)數(shù)據(jù)的隱藏信息,利用微軟復(fù)合文檔格式特征的分析,檢測(cè)利用未用空間和插入流數(shù)據(jù)隱藏的信息的存在性[17]。針對(duì)后一類(lèi)方法的研究有:周繼軍借鑒概念圖的思想,提出了基于句間相關(guān)性度量判定法的自然語(yǔ)言隱藏信息檢測(cè)算法[18];HUANG L S研究團(tuán)隊(duì)也提出了基于詞位置分布統(tǒng)計(jì)特征[19]以及基于統(tǒng)計(jì)詞的頻度、檢測(cè)熵的方法[20]。這些文本隱寫(xiě)檢測(cè)方法最大的缺點(diǎn)在于,它們的針對(duì)性太強(qiáng),覆蓋的可檢測(cè)的信息隱藏方法有限。
隨著技術(shù)的發(fā)展,已經(jīng)有很多研究將信息隱藏和特殊文本的生成相結(jié)合起來(lái),取得了不錯(cuò)的效果。比如DESOKY A利用很多特殊的文本形式,例如筆記[15]、笑話(huà)[21]等來(lái)隱藏信息。文獻(xiàn)[14]中提出的模型利用計(jì)算機(jī)自動(dòng)生成詩(shī)詞實(shí)現(xiàn)信息隱藏。文獻(xiàn)[4]和[13]中也通過(guò)利用馬爾科夫模型和循環(huán)神經(jīng)網(wǎng)絡(luò)算法生成符合規(guī)則的詩(shī)詞。這一類(lèi)方法生成的詩(shī)詞對(duì)于未經(jīng)訓(xùn)練的人很難區(qū)分開(kāi),因此具有極高的隱蔽性?,F(xiàn)在還沒(méi)有針對(duì)這一類(lèi)隱寫(xiě)算法的隱寫(xiě)檢測(cè)算法,本文的目的就在于解決這個(gè)問(wèn)題。
2 基于卷積神經(jīng)網(wǎng)絡(luò)的詩(shī)詞隱寫(xiě)檢測(cè)方法
近兩年,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度神經(jīng)網(wǎng)絡(luò)模型在計(jì)算機(jī)視覺(jué)[22]和自然語(yǔ)言處理[23]等領(lǐng)域取得非常大的成功。大量的研究顯示卷積神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的特征抽取和表達(dá)能力,能自動(dòng)從大量數(shù)據(jù)中學(xué)習(xí)得到特征[22]。本文中設(shè)計(jì)并實(shí)現(xiàn)了一套基于卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)文本隱寫(xiě)檢測(cè)算法,它能自動(dòng)對(duì)待檢測(cè)的文本進(jìn)行特征抽取進(jìn)而判斷是否隱藏信息。
本文最終采用的卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如下:一個(gè)輸入層、一個(gè)包含多個(gè)不同尺寸卷積核的卷積層、一個(gè)平均池化層、一個(gè)全連接層以及一個(gè)Softmax分類(lèi)器。輸入層將輸入文本轉(zhuǎn)換成一個(gè)適合后續(xù)卷積層操作的二維矩陣。卷積層用來(lái)對(duì)輸入矩陣進(jìn)行特征抽取,不同尺寸的卷積核能學(xué)到不同的上下文相關(guān)特征。平均池化層用來(lái)對(duì)學(xué)習(xí)的特征進(jìn)行下采樣,它能增強(qiáng)模型的魯棒性并顯著提升模型性能。全連接層用來(lái)對(duì)學(xué)習(xí)到的特征進(jìn)行融合并送給Softmax分類(lèi)器。Softmax分類(lèi)器的參數(shù)通過(guò)自學(xué)習(xí)完成之后,對(duì)輸入的特征向量進(jìn)行分類(lèi),判斷是否發(fā)生了信息隱寫(xiě)。卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。
模型的輸入是待檢測(cè)的文本,輸出是判斷是否發(fā)生隱寫(xiě)的概率。對(duì)于每一個(gè)輸入的待檢測(cè)文本S,將其表示成如式(1)所示的矩陣,其中矩陣的第i行表示文本S中第i個(gè)詞,每個(gè)詞表示成一個(gè)隨機(jī)初始化的D維的向量,即:
其中,P和T向量的維度都是2,分別表示有/沒(méi)有隱藏信息。T是輸入文本的標(biāo)簽,如:可以用向量[0,1]表示有隱寫(xiě),[1,0]表示沒(méi)有隱寫(xiě)。
模型的訓(xùn)練過(guò)程是通過(guò)在訓(xùn)練數(shù)據(jù)集上最小化LOSS函數(shù),采用的是帶動(dòng)量項(xiàng)的隨機(jī)梯度下降算法(SGD)。對(duì)模型中參數(shù)w的更新公式如下:
3 實(shí)驗(yàn)結(jié)果及評(píng)估
3.1 實(shí)驗(yàn)數(shù)據(jù)
在本次實(shí)驗(yàn)中,為了測(cè)試本文模型的性能,收集了全唐詩(shī)共13 342首五言詩(shī)作為正樣本,即不含隱藏信息的樣本。然后利用文獻(xiàn)[4]中的算法生成10 000首隱藏信息的五言詩(shī)作為負(fù)樣本。因此整個(gè)實(shí)驗(yàn)所用到的數(shù)據(jù)集共含有23 342首五言詩(shī),利用其中17 000首作為訓(xùn)練集訓(xùn)練本文模型,剩下6 342首作為測(cè)試集測(cè)試本文模型,具體劃分如表1所示。
3.2 實(shí)驗(yàn)設(shè)置
對(duì)于每首輸入模型的樣本,首先對(duì)其進(jìn)行去結(jié)構(gòu)化。具體來(lái)說(shuō),即去掉每首詩(shī)的標(biāo)題,并將剩下的4句話(huà)首尾相連,因此每首詩(shī)都轉(zhuǎn)化為一個(gè)包含20個(gè)字的文本。其次,將每個(gè)字映射成一個(gè)300維隨機(jī)初始化的向量,因此實(shí)際上模型的輸入是一個(gè)20×300的矩陣。卷積層中卷積核的寬度和輸入矩陣寬度一致,即300維。而卷積核的高度是可變的,實(shí)驗(yàn)中采用的卷積核高度是1,2,3,并且每個(gè)尺寸包含56個(gè)卷積核。最后輸出層的維度是2,對(duì)應(yīng)是否隱藏信息。訓(xùn)練過(guò)程中,采用隨機(jī)梯度下降方法訓(xùn)練模型參數(shù),初始學(xué)習(xí)率為0.01。
3.3 實(shí)驗(yàn)結(jié)果及分析
采用幾種分類(lèi)任務(wù)中常用的指標(biāo)來(lái)評(píng)價(jià)本文模型最后的性能,即Precision、Recall、F1-score和Accuracy。計(jì)算公式如下:
其中,TP表示正樣本被預(yù)測(cè)為正樣本的數(shù)量,F(xiàn)P表示負(fù)樣本被預(yù)測(cè)成正樣本的數(shù)量,F(xiàn)N表示正樣本預(yù)測(cè)成負(fù)樣本的數(shù)量,TN表示負(fù)樣本預(yù)測(cè)成負(fù)樣本的數(shù)量。
表2中展示了本文模型以及其他3種機(jī)器學(xué)習(xí)算法的測(cè)試結(jié)果,其中CNN表示本文模型的結(jié)果。從結(jié)果中可以看到,本文模型在各個(gè)指標(biāo)上取得了最好的實(shí)驗(yàn)結(jié)果,這充分證明了本文模型強(qiáng)大的特征抽取能力,能非常有效地應(yīng)用于文本隱寫(xiě)檢測(cè)任務(wù)上。
4 結(jié)論
文中提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的文本隱寫(xiě)分析算法。它能自動(dòng)從大量數(shù)據(jù)中提取到高層次的語(yǔ)義信息,并判斷輸入文本中是否隱藏信息。同時(shí),利用大量的數(shù)據(jù)訓(xùn)練并測(cè)試本文模型,結(jié)果反映該模型能非常高準(zhǔn)確率地檢測(cè)出文本中是否含有隱藏信息,證明了模型的有效性。
參考文獻(xiàn)
[1] PETITCOLAS F A P,ANDERSON R J,KUHN M G.Information hiding-a survey[J].Proceedings of the IEEE,1999,87(7):1062-1078.
[2] ZHOU Z,SUN H,HARIT R,et al.Coverless image stega-nography without embedding[C].International Conference on Cloud Computing and Security Nanjing University of Aeronautics and Astronautics,2015.
[3] PENG X,HUANG Y,LI F.A steganography scheme in a low-bit rate speech codec based on 3d-sudoku matrix[C].IEEE International Conference on Communication Software and Networks,2016:13-18.
[4] LUO Y,HUANG Y.Text steganography with high embedding rate: using recurrent neural networks to generate Chinese classic poetry[C].ACM Workshop on Information Hiding and Multimedia Security,2017:99-104.
[5] SHIRALI-SHAHREZA M H,SHIRALI-SHAHREZA M.A new approach to persian/arabic text steganography[C]. IEEE/ACIS International Conference on Computer and Information Science and IEEE/ACIS International Workshop on Component-Based Software Engineering,Software Architecture and Reuse,2006:310-315.
[6] KER A D,BOHME R.Revisiting weighted stego-image steganalysis[J].Proceedings of SPIE-The International Society for Optical Engineering,2008,6819:681905.
[7] ALTUN O,SHARMA G,CELIK M,et al.Morphological steganalysis of audio signals and the principle of diminishing marginal distortions[C].Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing,2005,2:21-24.
[8] CHOTIKAKAMTHORN N.Electronic document data hiding technique using inter-character space[C].The 1998 IEEE Asia-Pacific Conference on Circuits and Systems,1998.IEEE APCCAS 1998,1998:419-422.
[9] LOW S H,MAXEMCHUK N F,LAPONE A M.Document identification for copyright protection using centroid detection[J].IEEE Transactions on Commun.1998,46(3):372-383.
[10] MAHATO S,KHAN D A,YADAV D K.A modified approach to data hiding in microsoft word documents by change-tracking technique[J/OL].Journal of King Saud University.(2017-08-30)[2018-02-08].https://www.sciencedirect.com/science/article/pii/S1319157817300939?via%3Dihub.
[11] MURPHY B,VOGE C.The syntax of concealment: reliable methods for plain text information hiding[C].Proceedings of SPIE,2007:6505.
[12] GE X,JIAO R,TIAN H,et al.Research on information hiding[J].US-China Education Review,2006,3(5):77-81.
[13] LUO Y,HUANG Y,LI F,et al.Text steganography based on ci-poetry generation using markov chain model[J].Ksii Transactions on Internet & Information Systems,2016,10(9):4568-4584.
[14] YU Z S,HUANG L S.High embedding ratio text steganography by ci-poetry of the song dynasty[J].Journal of Chinese Information Processing,2009,23(4):55-62.
[15] DESOKY A.Notestega:notes-based steganography methodology[J].Information Systems Security Journal,A Global Perspective,2009,18(4):178-193.
[16] 吳明巧,金士堯.針對(duì)文本隱寫(xiě)工具Stego的隱寫(xiě)分析方法[J].計(jì)算機(jī)工程,2006,32(23):10-12.
[17] KWON H,KIM Y,LEE S,et al.A tool for the detection of hidden data in microsoft compound document file format[C].International Conference on Information Science and Security.IEEE,2008:141-146.
[18] 周繼軍,楊著,鈕心忻,等.文本信息隱藏檢測(cè)算法研究[J].通信學(xué)報(bào),2004,25(12):97-101.
[19] CHEN Z L,HUANG L S,YU Z S,et al.A statistical algorithm for linguistic steganography detection based on distribution of words[C].Third International Conference on Availability, Reliability and Security.IEEE Computer Society,2008:558-563.
[20] CHEN Z L,HUANG L S,YU Z S,et al.Effective linguistic steganography detection[C].IEEE,International Conference on Computer and Information Technology Workshops,2008,Cit Workshops.IEEE,2008:224-229.
[21] DESOKY A.Jokestega:automatic joke generation-based steganography methodology[J].International Journal of Security and Networks,2012,7(3):148-160.
[22] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc.2012:1097-1105.
[23] KIM Y.Convolutional neural networks for sentence classification[Z].arXiv:1408.5882,2014.
作者信息:
金 鵬1,2,楊忠良1,2,黃永峰1,2
(1.清華大學(xué) 電子工程系,北京100084;2.清華信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室,北京100084)