《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于局部描述子的人體行為識(shí)別
基于局部描述子的人體行為識(shí)別
來源:電子技術(shù)應(yīng)用2012年第7期
齊美彬1,2, 朱啟兵1, 蔣建國1,2
1. 合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院, 安徽 合肥 230009; 2. 合肥工業(yè)大學(xué) 安全關(guān)鍵工業(yè)測控技術(shù)教育部工程研究中心, 安徽 合肥 230009
摘要: 提出一種新的局部時(shí)空特征描述方法對(duì)視頻序列進(jìn)行識(shí)別和分類。結(jié)合SURF和光流檢測圖像中的時(shí)空興趣點(diǎn),并利用相應(yīng)的描述子表示興趣點(diǎn)。用詞袋模型表示視頻數(shù)據(jù),結(jié)合SVM對(duì)包含不同行為的視頻進(jìn)行訓(xùn)練和分類。為了檢測這種時(shí)空特征的有效性,通過UCF YouTube數(shù)據(jù)集進(jìn)行了測試。實(shí)驗(yàn)結(jié)果表明,提出的算法能夠有效識(shí)別各種場景下的人體行為。
中圖分類號(hào): TP391.41
文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2012)07-0123-03
Human actions recognition based on local descriptor
Qi Meibin1,2, Zhu Qibing1, Jiang Jianguo1,2
1. School of Computer and Information, Hefei University of Technology, Hefei 230009, China; 2. Engineering Research Center of Safety Critical Industrial Measurement and Control Technology, Ministry of Education, Hefei University of Technology,Hefei 230009, China
Abstract: This paper presents a new local spatial-temporal feature for identifying and classifying video sequences. Spatial-temporal interest points are detected by combining SURF and optical flow. Corresponding descriptors are used to describe the interest points. Video data is represented by famous bag-of-words model. SVM is used to train and classify videos contained various human actions. To verify the efficiency of our descriptor, we test it on UCF YouTube datasheet. Experimental results show that proposed method can efficiently recognize human actions under different scenes.
Key words : actions recognition; optical flow; bag-of-words; spatial-temporal feature; interest point

    視頻監(jiān)控系統(tǒng)存儲(chǔ)了大量數(shù)據(jù),但是大部分情況下需要人工來對(duì)監(jiān)控場景中的目標(biāo)行為和事件做出分析和判斷。隨著監(jiān)控技術(shù)的發(fā)展,人們開始要求計(jì)算機(jī)能夠自動(dòng)識(shí)別監(jiān)控場景中不同類型的行為。

    人體行為識(shí)別面臨諸多困難和挑戰(zhàn)。首先,同一種行為表現(xiàn)各異,沒有固定的運(yùn)動(dòng)模式;此外,由于背景和光照等環(huán)境的不斷變化,目標(biāo)之間經(jīng)常發(fā)生遮擋,使得行為識(shí)別非常困難。人體行為識(shí)別的本質(zhì)是三維時(shí)空數(shù)據(jù)的分類問題,即將待識(shí)別的行為序列與預(yù)先標(biāo)記好的代表典型行為的參考序列進(jìn)行匹配。本文首先檢測圖像中的SURF興趣點(diǎn),再根據(jù)一定的運(yùn)動(dòng)量準(zhǔn)則選取能夠代表人體運(yùn)動(dòng)的興趣點(diǎn)來描述人體行為。
1 相關(guān)工作
    人體行為識(shí)別通常包括兩個(gè)步驟:(1)特征提取和圖像表示;(2)行為建模和識(shí)別。目前流行的特征提取和圖像表示方法是局部方法。
    局部方法通過許多相互獨(dú)立的斑塊集合來描述觀察結(jié)果,在計(jì)算時(shí)采用自下而上的方式,首先檢測時(shí)空興趣點(diǎn),再計(jì)算興趣點(diǎn)周圍的局部斑塊,最后按照一定規(guī)則將斑塊組合起來表示人體的行為。局部方法對(duì)噪聲和部分遮擋的敏感性較小,也不要求嚴(yán)格的背景減法和跟蹤。
    參考文獻(xiàn)[1]將描述圖像的方向梯度直方圖(HOG)擴(kuò)展到3D。將積分圖像的思想應(yīng)用到視頻數(shù)據(jù),計(jì)算任意尺度下的3D梯度,并基于規(guī)則正多面體對(duì)3D方向進(jìn)行量化。采用這種類似于HOG的3D描述子對(duì)人體行為進(jìn)行建模和分類。參考文獻(xiàn)[2]采用稱為方向矩形直方圖(HOR)的描述子表示和識(shí)別人體行為。參考文獻(xiàn)[3]用局部運(yùn)動(dòng)特征的分布以及特征的時(shí)空排列表示視頻序列的幀。首先檢測當(dāng)前幀的運(yùn)動(dòng)特征,再檢測該幀的相鄰幀的運(yùn)動(dòng)特征,并根據(jù)相鄰幀到當(dāng)前幀的時(shí)間距離對(duì)相鄰幀的運(yùn)動(dòng)特征進(jìn)行加權(quán)。
2 局部時(shí)空特征描述
2.1 興趣點(diǎn)檢測方法

    圖像配準(zhǔn)領(lǐng)域使用的SURF描述子[4]對(duì)圖像旋轉(zhuǎn)、平移、縮放具有不變性,本文基于SURF提出一種新的局部特征檢測方法以及特征描述子。局部特征通常是指時(shí)空范圍內(nèi)具有某種典型特性的興趣點(diǎn)。本文檢測時(shí)空興趣點(diǎn)的方法包括兩個(gè)步驟:(1)用SURF算法尋找多尺度空間的極值點(diǎn),以獲得候選興趣點(diǎn);(2)計(jì)算連續(xù)兩幀圖像的光流,只有超過最小運(yùn)動(dòng)量的候選興趣點(diǎn)才是最終的時(shí)空興趣點(diǎn)。
    SURF算法使用快速海森檢測器來尋找空間極值點(diǎn)。圖像I在像素點(diǎn)x=(x,y)處的海森矩陣為:

       SURF算法檢測到的興趣點(diǎn)代表了圖像中的典型特征,稱為候選興趣點(diǎn)。視頻中雜亂的靜止背景圖像包含大量的候選興趣點(diǎn),但這些候選興趣點(diǎn)對(duì)于描述圖像中的運(yùn)動(dòng)沒有任何作用。為了描述圖像中的運(yùn)動(dòng)模式,必須根據(jù)一定準(zhǔn)則剔除代表背景的候選興趣點(diǎn)。對(duì)于視頻中的第n幀圖像In(n=1…N-1)(N是視頻的幀長度),利用SURF算法檢測到的興趣點(diǎn)集合為S。結(jié)合下一幀圖像In+1可以計(jì)算出集合S中每個(gè)候選興趣點(diǎn)的光流矢量。如果光流矢量的幅度值小于某個(gè)確定的閾值,則認(rèn)為這樣的候選點(diǎn)為背景像素或者近似于背景的像素,從集合S中剔除代表背景的興趣點(diǎn)之后,就獲得了最終的時(shí)空興趣點(diǎn)。本文提取的時(shí)空興趣點(diǎn)與其他方法提取的興趣點(diǎn)的對(duì)比如圖1所示。

2.2 特征描述子
    為了達(dá)到圖像旋轉(zhuǎn)不變性,SURF描述子首先計(jì)算每個(gè)興趣點(diǎn)的主方向。以檢測到的興趣點(diǎn)為圓心,在6δ(δ是檢測興趣點(diǎn)時(shí)確定的尺度)半徑范圍內(nèi)計(jì)算所有像素的harr小波響應(yīng),并把響應(yīng)分為沿橫坐標(biāo)的水平響應(yīng)和沿縱坐標(biāo)的垂直響應(yīng)。用一個(gè)覆蓋60°的滑動(dòng)扇形窗口不斷移動(dòng),在其覆蓋的范圍內(nèi)計(jì)算水平響應(yīng)和垂直響應(yīng)的和。這兩個(gè)響應(yīng)和就產(chǎn)生了一個(gè)新的矢量,將其中最長的矢量作為興趣點(diǎn)的主方向。

 

 

3 行為建模和分類
    本文采用著名的詞袋模型BoW來表示人體行為。詞袋模型把一篇文檔表示為一些無序詞匯的集合,不考慮詞匯之間的順序,也不考慮句子中的語法關(guān)系。
    詞袋模型基于詞典對(duì)文本進(jìn)行建模,將每個(gè)文本看作是一個(gè)裝滿了詞的袋子,文本中的詞來自于詞典。和文本處理的方法類似,可以將一個(gè)視頻看作一個(gè)文本,將視頻圖像中提取的局部時(shí)空特征映射到詞,而局部時(shí)空特征就是2.2節(jié)闡述的描述子矢量。假設(shè)有M個(gè)包含人體行為的視頻,采用本文的方法檢測所有視頻幀中的興趣點(diǎn),并用描述子對(duì)興趣點(diǎn)進(jìn)行描述,再對(duì)所有描述子矢量進(jìn)行K均值聚類,聚類中心就是詞,所有的詞合并在一起就形成了詞典??紤]單個(gè)視頻,根據(jù)視頻中出現(xiàn)的詞以及每個(gè)詞出現(xiàn)的次數(shù)可以建立一個(gè)反映詞頻分布的直方圖。
    對(duì)詞袋模型進(jìn)行學(xué)習(xí)和分類的典型方法是支持向量機(jī)(SVM)。訓(xùn)練時(shí)將訓(xùn)練視頻的詞頻直方圖以及視頻的類別標(biāo)簽輸入SVM,通過訓(xùn)練建立每種行為的模型;測試時(shí)將測試視頻的詞頻直方圖輸入SVM,就會(huì)輸出測試視頻的行為類別。
4 實(shí)驗(yàn)結(jié)果分析
    本文選擇更為復(fù)雜的UCF YouTube體育活動(dòng)數(shù)據(jù)集[6]來進(jìn)行行為識(shí)別和分類。該數(shù)據(jù)集有如下特點(diǎn):(1)攝像機(jī)運(yùn)動(dòng);(2)環(huán)境復(fù)雜、場景變化;(3)目標(biāo)尺度不斷變化;(4)視角變化;(5)光照變化。該數(shù)據(jù)集包含11種行為,每種行為在25種不同的場景下完成。其樣例圖像如圖3所示。

    根據(jù)2.1節(jié)所述,需要確定一個(gè)光流矢量的幅度閾值。在實(shí)驗(yàn)中,水平方向和垂直方向的光流閾值分別為圖像寬度和高度的0.2%。在進(jìn)行人體行為的訓(xùn)練和分類時(shí),對(duì)數(shù)據(jù)集中的視頻采用10折交叉驗(yàn)證:將所有視頻分成10組,其中9組作為訓(xùn)練集,剩余1組作為測試集,重復(fù)這種過程10次,取10次的平均值作為最終的行為分類精度。本文的算法對(duì)行為分類的混淆矩陣如圖4所示。

    從混淆矩陣中發(fā)現(xiàn),分類精度最高的行為是tennis-swing,分類精度最低的行為是biking,它與diving、horse-riding、walking、swinging都發(fā)生了混淆。導(dǎo)致混淆的原因是詞袋模型的假設(shè)沒有考慮文本中詞的順序。
    本文結(jié)合SURF和光流提出一種新的局部時(shí)空特征檢測和描述方法。檢測出的時(shí)空興趣點(diǎn)既代表了空間上的顯著特征,也代表了人體運(yùn)動(dòng)的模式。在UCF YouTube數(shù)據(jù)集上進(jìn)行了測試。實(shí)驗(yàn)結(jié)果表明,本文的描述子能夠有效地表征人體運(yùn)動(dòng)模式,對(duì)背景變化、光照變化、視角變化具有一定的魯棒性。行為分類精度相比高于當(dāng)前最好的分類方法。
參考文獻(xiàn)
[1] KL SER A, MARSZALEK M, SCHMID C. A spatio-temporal descriptor based on 3d-gradients[C]. Proceedings of the  British Machine Vision Conference (BMVC), 2008, 995-1004.
[2] IKIZLER N, DUYGULU P. Histogram of oriented rectangles:a new pose descriptor for human action recognition[J]. Image and Vision Computing, 2009,27(10):1515-1526.
[3] ZHAO Z P, ELGAMMAL A. Human activity recognition from frame’s spatiotemporal representation[C]. Proceedings of the International Conference on Pattern Recognition(ICPR), 2008.
[4] BAY H, TUYTELAARS T, VAN Gl L. Surf: speeded up robust features[C]. European Conference on Computer Vision, 2006.
[5] LAPTEV I, LINDEBERG T. Space-time interest points[C]. Proceedings of the International Conference on Computer Vision(ICCV), 2003.
[6] LIU J, LUO J, SHAH M. Recognizing realistic actions from videos "in the wild"[C]. Proceedings of the Computer Vision and Pattern Recognition(CVPR),2009.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。