文獻標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.2017.07.022
中文引用格式: 蔣兆軍,成孝剛,彭雅琴,等. 基于深度學(xué)習(xí)的無人機識別算法研究[J].電子技術(shù)應(yīng)用,2017,43(7):84-87.
英文引用格式: Jiang Zhaojun,Cheng Xiaogang,Peng Yaqin,et al. A novel UAV recognition algorithm based on deep learning approach[J].Application of Electronic Technique,2017,43(7):84-87.
0 引言
無人機技術(shù)的發(fā)展十分迅速。從美軍無人機的使用,到現(xiàn)在無人機在研究、民用等多方面的普及,無人機已成為一種新的潮流[1-2]。隨之而來也帶來很多新問題,此前無人機險撞戰(zhàn)機事件的發(fā)生,就給人們敲響了警鐘。因此,無人機警察系統(tǒng)的搭建勢在必行。本文的研究重點為:建立視覺傳感網(wǎng),用于無人機的圖像捕捉和信息存儲;引入深度學(xué)習(xí)對無人機進行識別,及時發(fā)現(xiàn)“黑飛無人機”,并采取相應(yīng)報警措施,實現(xiàn)對無人機的全面監(jiān)管。
1 視覺傳感網(wǎng)
整個視覺傳感網(wǎng)(Visual Sensor Networks,VSNs)由多個節(jié)點組成,每個節(jié)點都將由攝像機陣列構(gòu)成,這將作為整個系統(tǒng)的基礎(chǔ)部分[3],如圖1。
城市環(huán)境下一個節(jié)點的安置示意圖如圖2。
為了減輕對居民的干擾,可以修改攝像機焦距參數(shù),從而限制攝像機的拍攝范圍。通過多臺攝像機交叉覆蓋,成功地將中間的空地區(qū)域全方位地納入監(jiān)控之中。
考慮到多節(jié)點所提供的龐大數(shù)據(jù)量以及優(yōu)化控制結(jié)構(gòu)的需要,將數(shù)據(jù)網(wǎng)絡(luò)設(shè)計成三層結(jié)構(gòu)。位于最底層的第三層由數(shù)量不等的節(jié)點構(gòu)成一系列簇組成,每個簇內(nèi)的節(jié)點統(tǒng)一將數(shù)據(jù)發(fā)往一臺次級處理服務(wù)器。整個網(wǎng)絡(luò)內(nèi)的次級處理服務(wù)器構(gòu)成網(wǎng)絡(luò)的第二層,將數(shù)據(jù)送往位于第一層的中央高級服務(wù)器。
2 基于深度學(xué)習(xí)的圖像識別中心
無人機警察系統(tǒng)中關(guān)鍵組成是圖像識別中心,其任務(wù)是將視覺傳感網(wǎng)中的圖像信息進行分析和處理,從圖像中識別出無人機,從而實現(xiàn)對無人機的監(jiān)控,屬于目標(biāo)識別領(lǐng)域。目前這一領(lǐng)域已經(jīng)有了大量的優(yōu)秀成果出現(xiàn)。最常見有行人檢測問題,可用的特征包括:Haar、HOG、CSS、LBP等多種,這些特征表達了人體的各個重要部分,并且充分考慮了遮擋等情形。王曉剛和歐陽萬里更提出了基于深度學(xué)習(xí)的行人檢測手段,通過聯(lián)合學(xué)習(xí)行人檢測中的4個重要組成部分——特征提取、人體部件形變處理、遮擋處理和分類,最大化了各自的作用[4]。他們在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,加入了形變處理層,最終習(xí)得的特征具有很強的判別力,優(yōu)于HOG等特征。王曉剛團隊的方案,是深度學(xué)習(xí)在目標(biāo)識別領(lǐng)域的成功應(yīng)用,給本文的研究提供了研究參考。再比如人臉識別問題[5-6],則具有更復(fù)雜的變化,因為人臉受種族、膚色、表情、情緒、光照環(huán)境、物體遮擋等眾多因素的影響。推廣到各種特定物體的識別乃至場景識別、深度學(xué)習(xí)也有很多方案[7]。由于無人機警察系統(tǒng)中圖片信息量豐富,且無人機的飛行狀態(tài)多樣,因此識別難度較大。為此,本文將引入深度學(xué)習(xí)算法,并以卷積神經(jīng)網(wǎng)絡(luò)作為圖像識別中心。
2.1 卷積神經(jīng)網(wǎng)絡(luò)
2006年,Hinton等人首次提出深度學(xué)習(xí)的概念[8],并開啟了深度學(xué)習(xí)的研究浪潮,其認為:多隱層的人工神經(jīng)網(wǎng)絡(luò)能夠更好地模擬人腦的思考過程,具有更加優(yōu)異的學(xué)習(xí)能力,能夠?qū)?shù)據(jù)進行更本質(zhì)的刻畫,從而提高可視化或者分類的能力。
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中第一個真正多層結(jié)構(gòu)學(xué)習(xí)算法,其在圖像識別領(lǐng)域優(yōu)勢明顯。它利用感受野、局部連接等概念極大地減少了參數(shù)量,降低了網(wǎng)絡(luò)模型的復(fù)雜度,提高了訓(xùn)練效率,且網(wǎng)絡(luò)對于平移、縮放的各種變形都具備高度不變性。
卷積神經(jīng)網(wǎng)絡(luò)屬于前饋多層神經(jīng)網(wǎng)絡(luò)的一種,每層由多個二維平面組成,多個神經(jīng)元組成了每個平面,其結(jié)構(gòu)如圖3所示。
卷積神經(jīng)網(wǎng)絡(luò)利用了一系列的卷積層,降采樣層構(gòu)建了多層網(wǎng)絡(luò),來模擬人腦感知視覺信號的逐層處理機制,從而提取圖像的多層次特征。
通過加入卷積層,可以實現(xiàn)局部連接網(wǎng)絡(luò),有效減少了需要訓(xùn)練的網(wǎng)絡(luò)參數(shù)。例如,對一張大的圖片輸入,其尺寸為r×c,隨機采樣為a×b的小圖片,如果隱含節(jié)點為k個,那么最終學(xué)習(xí)到的特征數(shù)為:
池化層是為了解決網(wǎng)絡(luò)輸出維數(shù)過大、造成分類器難以設(shè)計的問題。同樣是根據(jù)統(tǒng)計結(jié)果的相似性原理,池化操作對卷積得到的結(jié)果進行統(tǒng)計計算,減少了需要訓(xùn)練的系統(tǒng)參數(shù)。
權(quán)值更新采用BP反向傳播算法。反向傳播的誤差可看做每個神經(jīng)元的基的靈敏度(即誤差E對基b變化率的偏導(dǎo)函數(shù)),然后利用以下關(guān)系式:
最后的分類應(yīng)用了Logistic Regression擴展的一種多分類器:Softmax Regression。其系統(tǒng)方程及系統(tǒng)損失函數(shù)分別為:
2.2 基于深度學(xué)習(xí)的無人機識別流程
由于視覺傳感網(wǎng)獲得的一系列圖像中,關(guān)注的對象可能只占其中的一小部分像素區(qū)域,又由于對象具有運動性,故在識別中心操作之前將采取幀差法提取感興趣的對象,作為算法的正式輸入[10-11]。二幀差法基本原理如下:
其中i(t)、i(t-1)分別為t、t-1時刻對應(yīng)像素點的像素值,T為閾值。
基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的無人機識別流程如下所示。
步驟一:數(shù)據(jù)預(yù)處理
(1)幀差法提取目標(biāo)區(qū)域;
(2)數(shù)據(jù)格式轉(zhuǎn)換;
(3)預(yù)定義標(biāo)簽;
步驟二:深度網(wǎng)絡(luò)訓(xùn)練、測試
(1)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),確定網(wǎng)絡(luò)層次結(jié)構(gòu)和權(quán)重參數(shù)等;
(2)數(shù)據(jù)依次進入卷積層、池化層、全連接層,進行計算;
(3)采用Backpropagation Pass反向傳播,進行參數(shù)調(diào)整;
(4)當(dāng)誤差滿足或者迭代次數(shù)滿足時,網(wǎng)絡(luò)停止訓(xùn)練,進入Accuracy層計算準(zhǔn)確率并輸出(只在測試階段執(zhí)行,訓(xùn)練時不執(zhí)行)。
3 識別性能與結(jié)果分析
首先構(gòu)建了視覺傳感網(wǎng),設(shè)置了2個節(jié)點,目前系統(tǒng)僅限于白天工作。
輸入2 848張圖片進行訓(xùn)練,基礎(chǔ)學(xué)習(xí)率設(shè)置為0.001,迭代5 000次后獲得的模型用于之后的測試分析。測試時輸入712張圖片,模型正確分類的情形共有634例,可得:
由于目前無人機識別方面沒有其他現(xiàn)成的模型可供比較,因此本文分析了ROC曲線參數(shù)。在信號檢測理論中,接收者操作特征(Receiver Operating Characteristic,ROC)是一種對靈敏度進行描述的功能圖像,該圖像稱為ROC曲線。應(yīng)用ROC曲線來表示分類器的性能非常直觀。同時為了定量且簡潔地表達這種性能,Area Under roc Curve(AUC)被提出。AUC的值等于ROC曲線正下方的面積,AUC的數(shù)值越大,分類器的性能越好。圖4表示的是與ROC曲線繪制相關(guān)的一些量,依次為TP(True Positive)、FP(False Positive)、FN(False Negative)、TN(True Negative)。
在隨機分類模型,對于任一樣本輸入,模型對其的預(yù)測score是完全隨機的,假設(shè)預(yù)測score落在區(qū)間[0,1]上,則預(yù)測概率數(shù)學(xué)表達為:
因此本文的ROC曲線圖結(jié)果如圖5所示。圖中整個曲線越向點(0,1)逼近,模型的性能就越好。
4 結(jié)論
本文較好地將深度學(xué)習(xí)的方法應(yīng)用到了無人機警察系統(tǒng)這個新穎的概念上,對無人機的識別率比較高。在網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計上,可能存在冗余,導(dǎo)致模型收斂速度不夠快,訓(xùn)練效率有所損失。后期將繼續(xù)對網(wǎng)絡(luò)結(jié)構(gòu)的進行研究,希望能夠進一步提高模型的質(zhì)量,并使其具有更廣的適應(yīng)性。
參考文獻
[1] 閆玉巧.面向無人機的自動檢測系統(tǒng)設(shè)計與實現(xiàn)[D].西安:西安電子科技大學(xué),2011.
[2] 胡占雙.無人機飛行姿態(tài)檢測及控制研究[D].沈陽:沈陽航空航天大學(xué),2013.
[3] AHMAD N.Modelling and optimization of sky surveillance visual sensor network[D].Mid Sweden University,2012.
[4] OuYang Wanli,Wang Xiaogang.Joint deep learning for pedestrian detection[C].ICCV,2013.
[5] Li Ming,Yu Chengyang,Nian Fuzhong,et al.A face detection algorithm based on deep learning[C].IJHIT,2015.
[6] Nagpal Shruti,Singh Maneet,Singh Richa,et al.Regularized deep learning for face recognition with weight variations[J].IEEE Access,2015,3:3010-3018.
[7] Yuan Yuan,Mou Lichao,Lu Xiaoqiang.Scene recognition by manifold regularized deep learning architecture[J].IEEE Transactions on Networks & learning,2015,16(10):2222.
[8] HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313:504-507.
[9] SAXE A M,KOH P W.On random weights and unsupervised feature learing[C].International Conference on Machine Learing,2011:1089-1096.
[10] 王鑫.檢測不規(guī)則圖形的改進廣義Hough變換[D].北京:首都師范大學(xué),2012.
[11] 唐俐勒.視頻監(jiān)控中運動圖像檢測與測距技術(shù)的研究[D].西安:西安科技大學(xué),2010.
作者信息:
蔣兆軍1,成孝剛2,彭雅琴3,王 俊1,李 智2
(1.無錫職業(yè)技術(shù)學(xué)院 汽車與交通學(xué)院,江蘇 無錫 214121;
2.南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京210003;3.三江學(xué)院 計算機科學(xué)與工程學(xué)院,江蘇 南京 210012)