文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.182201
中文引用格式: 黃友文,萬超倫. 基于深度學(xué)習(xí)的人體行為識(shí)別算法[J].電子技術(shù)應(yīng)用,2018,44(10):1-5,10.
英文引用格式: Huang Youwen,Wan Chaolun. Human behavior recognition algorithm based on deep learning[J]. Application of Electronic Technique,2018,44(10):1-5,10.
0 引言
人體行為識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要的課題。其在行為檢測、視頻監(jiān)控等領(lǐng)域都有著廣泛的應(yīng)用價(jià)值。與單純的圖片識(shí)別不同,人體行為識(shí)別會(huì)受到諸多因素的干擾,例如光照、背景等。傳統(tǒng)方法中,通常通過手動(dòng)設(shè)計(jì)某些特定的特征,對(duì)數(shù)據(jù)集中特定的動(dòng)作進(jìn)行識(shí)別,典型的有HOG/HOF[1]等。文獻(xiàn)[2]提出一種基于稠密光流軌跡與稀疏編碼算法的行為識(shí)別方法,將融合框架提取出的行為特征進(jìn)行處理后,送入支持向量機(jī)中得到模型進(jìn)行分類;文獻(xiàn)[3]利用顯著性檢測獲取到動(dòng)作主體位置并提取稠密軌跡,采用Fisher Vector去增強(qiáng)特征,再利用SVM進(jìn)行識(shí)別;文獻(xiàn)[4]利用序列化的思想提取骨骼特征矢量,利用SVM訓(xùn)練并識(shí)別靜態(tài)特征。然而,傳統(tǒng)方法在面對(duì)諸多與現(xiàn)實(shí)場景接近的情況時(shí),往往很難取得好的識(shí)別效果[5]。
近些年,隨著人工智能技術(shù)的崛起,深度學(xué)習(xí)模型也被應(yīng)用到了人體行為識(shí)別任務(wù)中去。利用深度學(xué)習(xí)模型去自動(dòng)提取特征,良好地避免了人工設(shè)計(jì)特征過程中的盲目性和差異性。深度學(xué)習(xí)模型的一種——卷積神經(jīng)網(wǎng)絡(luò),通過對(duì)輸入數(shù)據(jù)的卷積操作,逐層提取特征,從而對(duì)圖像進(jìn)行識(shí)別分類,其在圖像識(shí)別領(lǐng)域已經(jīng)取得了優(yōu)異的成果。2012年的AlexNet網(wǎng)絡(luò)[6],將ImageNet數(shù)據(jù)集上的top-5錯(cuò)誤率降低到了16.4%;2015年的Inception v2網(wǎng)絡(luò)[7],提出了批量歸一化的方法;2017年的SeNet網(wǎng)絡(luò)[8],再次取得了ILSVRC比賽的冠軍。
而針對(duì)視頻人體行為識(shí)別問題,由于幀與幀之間具有著時(shí)間相關(guān)性,因此,單純將提取到的RGB數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類并不能得到一個(gè)很好的結(jié)果。文獻(xiàn)[9]將視頻數(shù)據(jù)的稠密光流與RGB數(shù)據(jù)分別送入CNN進(jìn)行訓(xùn)練,使網(wǎng)絡(luò)良好處理了時(shí)空信息,再將雙流網(wǎng)絡(luò)各自得到的結(jié)果進(jìn)行融合;文獻(xiàn)[10]將數(shù)據(jù)通過一組硬連接內(nèi)核進(jìn)行處理后,利用3D卷積網(wǎng)絡(luò)訓(xùn)練提取信息進(jìn)行人體行為識(shí)別。
除此之外,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)也經(jīng)常被采用來處理此類問題。RNN是一個(gè)具有循環(huán)的網(wǎng)絡(luò),可以被看作對(duì)同一神經(jīng)網(wǎng)絡(luò)的多次賦值,其允許了信息的持久化。然而,RNN有著梯度消失的問題,為此HOCHREITER S等人提出了一個(gè)新的RNN單元,長短期記憶遞歸神經(jīng)網(wǎng)絡(luò)單元[11],通過刻意的設(shè)計(jì)避免了長期依賴問題的出現(xiàn)。文獻(xiàn)[12]首次將CNN與LSTM進(jìn)行結(jié)合運(yùn)用在了視頻識(shí)別與視頻描述領(lǐng)域;文獻(xiàn)[13]用3D卷積提取數(shù)據(jù)特征,再送入LSTM網(wǎng)絡(luò)中,用于行為識(shí)別。
本文設(shè)計(jì)了一種采用批歸一化方法的CNN與LSTM結(jié)合的網(wǎng)絡(luò),將批歸一化處理運(yùn)用到了設(shè)計(jì)的CNN中,通過全連接層,送入LSTM單元對(duì)得到的特征序列進(jìn)行處理,采用Softmax層映射類別。算法提取視頻數(shù)據(jù)的RGB圖像作為空間流輸入,光流場圖像作為時(shí)間流輸入,再將各自得出的分類結(jié)果進(jìn)行加權(quán)融合,得出最終的分類結(jié)果,用于人體行為識(shí)別。該算法在KTH視頻數(shù)據(jù)集上的識(shí)別率達(dá)到了95.8%,可有效地運(yùn)用在人體行為識(shí)別任務(wù)上。
1 模型結(jié)構(gòu)
1.1 雙流模型框架
視頻數(shù)據(jù)具有時(shí)間和空間兩部分的特性。空間部分RGB圖像包含了物體的外觀信息,時(shí)間部分光流場圖像包含了物體的運(yùn)動(dòng)信息。因此,分別提取出視頻的光流場圖像與RGB圖像作為輸入數(shù)據(jù),得出各自分類結(jié)果后進(jìn)行加權(quán)融合,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)通常由卷積層、池化層、全連接層堆疊而成。卷積層利用多個(gè)不同的卷積核,提取目標(biāo)的特征,生成特征圖;池化層用來進(jìn)行下采樣,將相鄰特征圖的特征進(jìn)行合并,減小維度;全連接層起到將學(xué)到的分布式特征映射到樣本標(biāo)記空間的作用。
然而深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí),各層網(wǎng)絡(luò)的輸入分布會(huì)受到上一層的影響,隨著網(wǎng)絡(luò)的不斷加深,網(wǎng)絡(luò)層的微小變動(dòng)產(chǎn)生的影響會(huì)被放大,從而導(dǎo)致梯度消失、梯度爆炸、網(wǎng)絡(luò)收斂到一個(gè)局部最優(yōu)值等問題。為此,本文將批歸一化思想[7]從圖像分類領(lǐng)域引入到了行為識(shí)別領(lǐng)域,對(duì)網(wǎng)絡(luò)輸入的樣本進(jìn)行小批量歸一化處理。
傳統(tǒng)的批歸一化操作公式如下:
而對(duì)于此式,由于需要對(duì)全部的訓(xùn)練樣本集合進(jìn)行操作,計(jì)算其協(xié)方差矩陣,計(jì)算量極其龐大。對(duì)此,文獻(xiàn)[7]提出了兩點(diǎn)改進(jìn)措施:
(1)輸入數(shù)據(jù)的每一維進(jìn)行獨(dú)立的批歸一化處理;
(2)采用小批量(mini-batch)。
對(duì)于有d維輸入x=(x(1)…x(d))的神經(jīng)網(wǎng)絡(luò)層,利用式(3)去歸一化每一維:
式(3)的期望與方差在每個(gè)mini-batch上對(duì)每層進(jìn)行運(yùn)算得出。該歸一化操作能加速收斂,即使特征之間不具有相關(guān)性。并且通過mini-batch的方式,批歸一化所需的信息能被運(yùn)用在了反向傳播之中。
同時(shí),對(duì)每一個(gè)輸入?yún)?shù)x(k)都引入一對(duì)參數(shù)λ(k)和β(k),如式(4)所示:
1.3 長短期記憶神經(jīng)網(wǎng)絡(luò)
人體動(dòng)作識(shí)別的數(shù)據(jù)是一組連續(xù)的數(shù)據(jù),相鄰幀之間有著極大的相關(guān)性,因此遞歸神經(jīng)網(wǎng)絡(luò)被用來處理這種問題。傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)包含輸入序列X,隱藏序列H,輸出序列Y。其隱藏層中包含著時(shí)間序列的歷史信息,前向公式可表述為:
1.4 融合模型
本文的CNN結(jié)構(gòu)由卷積層、池化層、全連接層堆疊而成,并在每個(gè)卷積層之后加入batchnorm操作進(jìn)行小批量歸一化。
實(shí)驗(yàn)數(shù)據(jù)采用25 f/s的圖像序列,對(duì)提取的每幀圖片,將尺寸擴(kuò)充為227×227。輸入數(shù)據(jù)的維度為25×227×227×3。25為視頻數(shù)據(jù)幀數(shù),227×227為圖片尺寸,3為RGB圖片的3個(gè)通道。融合模型的CNN部分如圖2所示。
圖2中上方的是特征圖的維度大小,下方的是神經(jīng)網(wǎng)絡(luò)的操作層。人體行為識(shí)別CNN部分的模型一共有5個(gè)卷積層,每個(gè)卷積層后都有一個(gè)非線性激活函數(shù)ReLU去增加非線性,同時(shí),每個(gè)卷積層之后也都有一個(gè)batchnorm層與scale層組合共同完成小批量歸一化操作。CNN的最后是一個(gè)全連接層,將輸入的數(shù)據(jù)進(jìn)行矢量化操作后,再送入LSTM網(wǎng)絡(luò)中。
數(shù)據(jù)輸入LSTM中后,在長短期遞歸神經(jīng)網(wǎng)絡(luò)中按時(shí)序做遞歸運(yùn)算,每次遞歸運(yùn)算的結(jié)果是之前所有特征和當(dāng)前特征的總和。本文采用一層的LSTM模型,結(jié)構(gòu)如圖3所示。
融合后的模型如圖4所示,將視頻數(shù)據(jù)的光流場與RGB形式分別作為時(shí)間與空間兩種數(shù)據(jù)流輸入設(shè)計(jì)的網(wǎng)絡(luò)中進(jìn)行分別的訓(xùn)練,再將各自得到的分類結(jié)果進(jìn)行加權(quán)融合,最終用于人體行為識(shí)別任務(wù)。
2 實(shí)驗(yàn)過程
2.1 數(shù)據(jù)集
本文使用公開的KTH視頻數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)來檢驗(yàn)算法的效果,部分動(dòng)作的示意圖如圖5所示。數(shù)據(jù)集包含由固定攝像機(jī)拍攝的600個(gè)動(dòng)作視頻。視頻的幀數(shù)為25 f/s,視頻每幀圖片的分辨率都為160像素×120像素。共有25名不同的實(shí)驗(yàn)對(duì)象,4個(gè)不同的實(shí)驗(yàn)場景:室外、室內(nèi)、室外尺度變化、室外著裝變化,6種不同的人體行為:散步、慢跑、奔跑、揮手、拍手、拳擊。
2.2 實(shí)驗(yàn)結(jié)果與分析
本文在Linux系統(tǒng)下搭建的平臺(tái)上用單核GTX 1070 GPU進(jìn)行訓(xùn)練。將KTH數(shù)據(jù)集以動(dòng)作類別進(jìn)行劃分,每個(gè)動(dòng)作的前80%作為訓(xùn)練集,后20%作為測試集。視頻數(shù)據(jù)的光流場圖像與RGB圖像被預(yù)先提取出來,提取出的每張圖片被擴(kuò)充為227×227,在保證特征不損失的情況下,為加載該訓(xùn)練網(wǎng)絡(luò)的CNN部分在ImageNet數(shù)據(jù)集下訓(xùn)練30萬次的預(yù)訓(xùn)練模型參數(shù)做準(zhǔn)備,用以增強(qiáng)模型的魯棒性,防止過擬合,并加速收斂。
圖6顯示了訓(xùn)練過程中,光流場時(shí)間網(wǎng)絡(luò)和RGB空間網(wǎng)絡(luò)隨著訓(xùn)練次數(shù)的增加,對(duì)訓(xùn)練數(shù)據(jù)識(shí)別準(zhǔn)確率的變化情況。從圖中可以看出,在空間流上,當(dāng)?shù)螖?shù)接近10 000次時(shí),準(zhǔn)確率達(dá)到86%,趨于穩(wěn)定,隨著迭代的進(jìn)行,準(zhǔn)確率緩慢上升;在時(shí)間流上,當(dāng)?shù)螖?shù)接近16 000次時(shí),準(zhǔn)確率達(dá)到90%以上,隨著迭代的進(jìn)行,準(zhǔn)確率增長趨于平緩,收斂近乎飽和。
在得到時(shí)空網(wǎng)絡(luò)各自訓(xùn)練出的模型后,將雙流的分類結(jié)果進(jìn)行加權(quán)融合。圖7中, RGB空間網(wǎng)絡(luò)分類結(jié)果的權(quán)重以0.05的步長進(jìn)行增加,逐步提高占比。
可以看出,當(dāng)純粹以空間流網(wǎng)絡(luò)或者時(shí)間流網(wǎng)絡(luò)進(jìn)行人體行為識(shí)別時(shí),時(shí)間流網(wǎng)絡(luò)提取出的運(yùn)動(dòng)信息比空間流網(wǎng)絡(luò)提取出的外觀與背景信息具有更高的識(shí)別率,這也說明了在行為識(shí)別任務(wù)中,光流數(shù)據(jù)所包含的運(yùn)動(dòng)信息比RGB數(shù)據(jù)包含的外觀信息更為有效。當(dāng)識(shí)別的權(quán)重比為RGB:光流場=0.35:0.65時(shí),本文設(shè)計(jì)的模型達(dá)到最好的識(shí)別效果,以一定權(quán)重比融合的時(shí)空雙流神經(jīng)網(wǎng)絡(luò)能有效改善單獨(dú)的網(wǎng)絡(luò)在識(shí)別上的準(zhǔn)確率。
在表1中,本文選取了融合的時(shí)空雙流網(wǎng)絡(luò)在KTH數(shù)據(jù)集上得到的最好的識(shí)別結(jié)果與已有的一些算法模型進(jìn)行了對(duì)比。
可以看出,本文設(shè)計(jì)的基于批歸一化的卷積神經(jīng)網(wǎng)絡(luò)與LSTM結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu)在將其在RGB空間圖像與光流場時(shí)間圖像分別得到的分類結(jié)果以0.35:0.65的比例進(jìn)行加權(quán)融合之后,可以得到優(yōu)于文獻(xiàn)[2]與文獻(xiàn)[3]提出的兩種傳統(tǒng)算法的結(jié)果。在和同樣是以深度學(xué)習(xí)為基礎(chǔ)的算法進(jìn)行對(duì)比時(shí),本文設(shè)計(jì)的模型結(jié)構(gòu)同樣也優(yōu)于文獻(xiàn)[10]與文獻(xiàn)[13]提出的兩種算法。這充分說明本文提出的算法在人體行為識(shí)別任務(wù)上具有可行性。
表2所示的混淆矩陣對(duì)測試集中6種不同的動(dòng)作行為的識(shí)別結(jié)果做了可視化,對(duì)角線元素表示正確識(shí)別率。可以看出,在KTH數(shù)據(jù)集中模型對(duì)“拳擊”和“揮手”動(dòng)作的識(shí)別率最高,由于“拍手”與“揮手”之間有部分的相似性,因此,有部分“拍手”被識(shí)別成了“揮手”。 “慢跑”和“散步”、“跑步”之間相似性較高,因此,這三者之間產(chǎn)生了一些誤識(shí)別率。但就總體而言模型依舊具有良好的泛化能力和魯棒性。
3 結(jié)論
本文提出了一種采用批歸一化的卷積神經(jīng)網(wǎng)絡(luò)與LSTM網(wǎng)絡(luò)結(jié)合的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。采用視頻數(shù)據(jù)的RGB圖像與光流場圖像分別作為空間流網(wǎng)絡(luò)輸入與時(shí)間流網(wǎng)絡(luò)輸入,再將時(shí)空雙流網(wǎng)絡(luò)分別得到的分類結(jié)果以一定的權(quán)重比例進(jìn)行融合。本文模型在KTH數(shù)據(jù)集的測試集上的識(shí)別率達(dá)到了95.8%。相較于文中對(duì)比的兩種傳統(tǒng)方法與兩種深度學(xué)習(xí)方法,本文模型能更好地提取視頻中的時(shí)序特征與空間特征,識(shí)別率較好。整個(gè)模型基于深度神經(jīng)網(wǎng)絡(luò),無需先驗(yàn)經(jīng)驗(yàn),具有良好的泛化性與實(shí)用性。
參考文獻(xiàn)
[1] LAPTEV I,MARSZALEK M,SCHMID C,et al.Learning realistic human actions from movies[C].IEEE Conference on Computer Vision and Pattern Recognition,2008.CVPR 2008.IEEE,2008:1-8.
[2] 趙曉健,曾曉勤.基于稠密光流軌跡和稀疏編碼算法的行為識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2016,36(1):181-187.
[3] 鹿天然,于鳳芹,楊慧中,等.基于顯著性檢測和稠密軌跡的人體行為識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(4):163-167.
[4] 胡青松,張亮.人體行為序列化識(shí)別算法研究[J].電子技術(shù)應(yīng)用,2018,44(4):122-125.
[5] 羅海波,許凌云,惠斌,等.基于深度學(xué)習(xí)的目標(biāo)跟蹤方法研究現(xiàn)狀與展望[J].紅外與激光工程,2017(5):6-12.
[6] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Imagenet classification with deep convolutional neural networks[C].Advances in Neural Information Processing Systems,2012:1097-1105.
[7] IOFFE S,SZEGEDY C.Batch normalization: accelerating deep network training by reducing internal covariate shift[C].Proceedings of the 32nd International Conference on Machine Learning,2015:448-456.
[8] HU J,SHEN L,SUN G.Squeeze-and-excitation networks[J].arXiv preprint arXiv:1709.01507,2017,7.
[9] WANG L,XIONG Y,WANG Z,et al.Temporal segment networks:towards good practices for deep action recognition[C].European Conference on Computer Vision.Springer,Cham,2016:20-36.
[10] JI S,XU W,YANG M,et al.3D convolutional neural networks for human action recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-231.
[11] HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[12] DONAHUE J,ANNE HENDRICKS L,GUADARRAMA S,et al.Long-term recurrent convolutional networks for visual recognition and description[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:2625-2634.
[13] 秦陽,莫凌飛,郭文科,等.3D CNNs與LSTMs在行為識(shí)別中的組合及其應(yīng)用[J].測控技術(shù),2017(2):28-32.
作者信息:
黃友文,萬超倫
(江西理工大學(xué) 信息工程學(xué)院,江西 贛州341000)