文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2012)07-0123-03
視頻監(jiān)控系統(tǒng)存儲(chǔ)了大量數(shù)據(jù),但是大部分情況下需要人工來對(duì)監(jiān)控場景中的目標(biāo)行為和事件做出分析和判斷。隨著監(jiān)控技術(shù)的發(fā)展,人們開始要求計(jì)算機(jī)能夠自動(dòng)識(shí)別監(jiān)控場景中不同類型的行為。
人體行為識(shí)別面臨諸多困難和挑戰(zhàn)。首先,同一種行為表現(xiàn)各異,沒有固定的運(yùn)動(dòng)模式;此外,由于背景和光照等環(huán)境的不斷變化,目標(biāo)之間經(jīng)常發(fā)生遮擋,使得行為識(shí)別非常困難。人體行為識(shí)別的本質(zhì)是三維時(shí)空數(shù)據(jù)的分類問題,即將待識(shí)別的行為序列與預(yù)先標(biāo)記好的代表典型行為的參考序列進(jìn)行匹配。本文首先檢測圖像中的SURF興趣點(diǎn),再根據(jù)一定的運(yùn)動(dòng)量準(zhǔn)則選取能夠代表人體運(yùn)動(dòng)的興趣點(diǎn)來描述人體行為。
1 相關(guān)工作
人體行為識(shí)別通常包括兩個(gè)步驟:(1)特征提取和圖像表示;(2)行為建模和識(shí)別。目前流行的特征提取和圖像表示方法是局部方法。
局部方法通過許多相互獨(dú)立的斑塊集合來描述觀察結(jié)果,在計(jì)算時(shí)采用自下而上的方式,首先檢測時(shí)空興趣點(diǎn),再計(jì)算興趣點(diǎn)周圍的局部斑塊,最后按照一定規(guī)則將斑塊組合起來表示人體的行為。局部方法對(duì)噪聲和部分遮擋的敏感性較小,也不要求嚴(yán)格的背景減法和跟蹤。
參考文獻(xiàn)[1]將描述圖像的方向梯度直方圖(HOG)擴(kuò)展到3D。將積分圖像的思想應(yīng)用到視頻數(shù)據(jù),計(jì)算任意尺度下的3D梯度,并基于規(guī)則正多面體對(duì)3D方向進(jìn)行量化。采用這種類似于HOG的3D描述子對(duì)人體行為進(jìn)行建模和分類。參考文獻(xiàn)[2]采用稱為方向矩形直方圖(HOR)的描述子表示和識(shí)別人體行為。參考文獻(xiàn)[3]用局部運(yùn)動(dòng)特征的分布以及特征的時(shí)空排列表示視頻序列的幀。首先檢測當(dāng)前幀的運(yùn)動(dòng)特征,再檢測該幀的相鄰幀的運(yùn)動(dòng)特征,并根據(jù)相鄰幀到當(dāng)前幀的時(shí)間距離對(duì)相鄰幀的運(yùn)動(dòng)特征進(jìn)行加權(quán)。
2 局部時(shí)空特征描述
2.1 興趣點(diǎn)檢測方法
圖像配準(zhǔn)領(lǐng)域使用的SURF描述子[4]對(duì)圖像旋轉(zhuǎn)、平移、縮放具有不變性,本文基于SURF提出一種新的局部特征檢測方法以及特征描述子。局部特征通常是指時(shí)空范圍內(nèi)具有某種典型特性的興趣點(diǎn)。本文檢測時(shí)空興趣點(diǎn)的方法包括兩個(gè)步驟:(1)用SURF算法尋找多尺度空間的極值點(diǎn),以獲得候選興趣點(diǎn);(2)計(jì)算連續(xù)兩幀圖像的光流,只有超過最小運(yùn)動(dòng)量的候選興趣點(diǎn)才是最終的時(shí)空興趣點(diǎn)。
SURF算法使用快速海森檢測器來尋找空間極值點(diǎn)。圖像I在像素點(diǎn)x=(x,y)處的海森矩陣為:
SURF算法檢測到的興趣點(diǎn)代表了圖像中的典型特征,稱為候選興趣點(diǎn)。視頻中雜亂的靜止背景圖像包含大量的候選興趣點(diǎn),但這些候選興趣點(diǎn)對(duì)于描述圖像中的運(yùn)動(dòng)沒有任何作用。為了描述圖像中的運(yùn)動(dòng)模式,必須根據(jù)一定準(zhǔn)則剔除代表背景的候選興趣點(diǎn)。對(duì)于視頻中的第n幀圖像In(n=1…N-1)(N是視頻的幀長度),利用SURF算法檢測到的興趣點(diǎn)集合為S。結(jié)合下一幀圖像In+1可以計(jì)算出集合S中每個(gè)候選興趣點(diǎn)的光流矢量。如果光流矢量的幅度值小于某個(gè)確定的閾值,則認(rèn)為這樣的候選點(diǎn)為背景像素或者近似于背景的像素,從集合S中剔除代表背景的興趣點(diǎn)之后,就獲得了最終的時(shí)空興趣點(diǎn)。本文提取的時(shí)空興趣點(diǎn)與其他方法提取的興趣點(diǎn)的對(duì)比如圖1所示。
2.2 特征描述子
為了達(dá)到圖像旋轉(zhuǎn)不變性,SURF描述子首先計(jì)算每個(gè)興趣點(diǎn)的主方向。以檢測到的興趣點(diǎn)為圓心,在6δ(δ是檢測興趣點(diǎn)時(shí)確定的尺度)半徑范圍內(nèi)計(jì)算所有像素的harr小波響應(yīng),并把響應(yīng)分為沿橫坐標(biāo)的水平響應(yīng)和沿縱坐標(biāo)的垂直響應(yīng)。用一個(gè)覆蓋60°的滑動(dòng)扇形窗口不斷移動(dòng),在其覆蓋的范圍內(nèi)計(jì)算水平響應(yīng)和垂直響應(yīng)的和。這兩個(gè)響應(yīng)和就產(chǎn)生了一個(gè)新的矢量,將其中最長的矢量作為興趣點(diǎn)的主方向。
3 行為建模和分類
本文采用著名的詞袋模型BoW來表示人體行為。詞袋模型把一篇文檔表示為一些無序詞匯的集合,不考慮詞匯之間的順序,也不考慮句子中的語法關(guān)系。
詞袋模型基于詞典對(duì)文本進(jìn)行建模,將每個(gè)文本看作是一個(gè)裝滿了詞的袋子,文本中的詞來自于詞典。和文本處理的方法類似,可以將一個(gè)視頻看作一個(gè)文本,將視頻圖像中提取的局部時(shí)空特征映射到詞,而局部時(shí)空特征就是2.2節(jié)闡述的描述子矢量。假設(shè)有M個(gè)包含人體行為的視頻,采用本文的方法檢測所有視頻幀中的興趣點(diǎn),并用描述子對(duì)興趣點(diǎn)進(jìn)行描述,再對(duì)所有描述子矢量進(jìn)行K均值聚類,聚類中心就是詞,所有的詞合并在一起就形成了詞典??紤]單個(gè)視頻,根據(jù)視頻中出現(xiàn)的詞以及每個(gè)詞出現(xiàn)的次數(shù)可以建立一個(gè)反映詞頻分布的直方圖。
對(duì)詞袋模型進(jìn)行學(xué)習(xí)和分類的典型方法是支持向量機(jī)(SVM)。訓(xùn)練時(shí)將訓(xùn)練視頻的詞頻直方圖以及視頻的類別標(biāo)簽輸入SVM,通過訓(xùn)練建立每種行為的模型;測試時(shí)將測試視頻的詞頻直方圖輸入SVM,就會(huì)輸出測試視頻的行為類別。
4 實(shí)驗(yàn)結(jié)果分析
本文選擇更為復(fù)雜的UCF YouTube體育活動(dòng)數(shù)據(jù)集[6]來進(jìn)行行為識(shí)別和分類。該數(shù)據(jù)集有如下特點(diǎn):(1)攝像機(jī)運(yùn)動(dòng);(2)環(huán)境復(fù)雜、場景變化;(3)目標(biāo)尺度不斷變化;(4)視角變化;(5)光照變化。該數(shù)據(jù)集包含11種行為,每種行為在25種不同的場景下完成。其樣例圖像如圖3所示。
根據(jù)2.1節(jié)所述,需要確定一個(gè)光流矢量的幅度閾值。在實(shí)驗(yàn)中,水平方向和垂直方向的光流閾值分別為圖像寬度和高度的0.2%。在進(jìn)行人體行為的訓(xùn)練和分類時(shí),對(duì)數(shù)據(jù)集中的視頻采用10折交叉驗(yàn)證:將所有視頻分成10組,其中9組作為訓(xùn)練集,剩余1組作為測試集,重復(fù)這種過程10次,取10次的平均值作為最終的行為分類精度。本文的算法對(duì)行為分類的混淆矩陣如圖4所示。
從混淆矩陣中發(fā)現(xiàn),分類精度最高的行為是tennis-swing,分類精度最低的行為是biking,它與diving、horse-riding、walking、swinging都發(fā)生了混淆。導(dǎo)致混淆的原因是詞袋模型的假設(shè)沒有考慮文本中詞的順序。
本文結(jié)合SURF和光流提出一種新的局部時(shí)空特征檢測和描述方法。檢測出的時(shí)空興趣點(diǎn)既代表了空間上的顯著特征,也代表了人體運(yùn)動(dòng)的模式。在UCF YouTube數(shù)據(jù)集上進(jìn)行了測試。實(shí)驗(yàn)結(jié)果表明,本文的描述子能夠有效地表征人體運(yùn)動(dòng)模式,對(duì)背景變化、光照變化、視角變化具有一定的魯棒性。行為分類精度相比高于當(dāng)前最好的分類方法。
參考文獻(xiàn)
[1] KL SER A, MARSZALEK M, SCHMID C. A spatio-temporal descriptor based on 3d-gradients[C]. Proceedings of the British Machine Vision Conference (BMVC), 2008, 995-1004.
[2] IKIZLER N, DUYGULU P. Histogram of oriented rectangles:a new pose descriptor for human action recognition[J]. Image and Vision Computing, 2009,27(10):1515-1526.
[3] ZHAO Z P, ELGAMMAL A. Human activity recognition from frame’s spatiotemporal representation[C]. Proceedings of the International Conference on Pattern Recognition(ICPR), 2008.
[4] BAY H, TUYTELAARS T, VAN Gl L. Surf: speeded up robust features[C]. European Conference on Computer Vision, 2006.
[5] LAPTEV I, LINDEBERG T. Space-time interest points[C]. Proceedings of the International Conference on Computer Vision(ICCV), 2003.
[6] LIU J, LUO J, SHAH M. Recognizing realistic actions from videos "in the wild"[C]. Proceedings of the Computer Vision and Pattern Recognition(CVPR),2009.