文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.2017.06.033
中文引用格式: 張莉,魏艷鳴,周兵. 結(jié)合輪廓粗篩和HOG細(xì)分的快速行人檢測方法[J].電子技術(shù)應(yīng)用,2017,43(6):130-133,137.
英文引用格式: Zhang Li,Wei Yanming,Zhou Bin. A fast pedestrian detection method combining contour rough selection and HOG fine classification[J].Application of Electronic Technique,2017,43(6):130-133,137.
0 引言
行人檢測是依靠視頻圖像處理與機(jī)器學(xué)習(xí)等方法從視頻或圖像中自動發(fā)現(xiàn)行人目標(biāo)的技術(shù),廣泛應(yīng)用于視頻監(jiān)控、人工智能等領(lǐng)域[1]。特征提取與分類是行人檢測的核心,現(xiàn)有行人檢測方法主要圍繞這兩個方面進(jìn)行深入研究,如文獻(xiàn)[2]-[4]結(jié)合Haar特征和Adaboost分類器進(jìn)行行人檢測,文獻(xiàn)[5]-[8]結(jié)合梯度方向直方圖特征(Histogram of Oriented Gradients,HOG)和支持向量機(jī)(Support Vector Machines,SVM)分類器進(jìn)行行人檢測,文獻(xiàn)[9]-[10]采用深度學(xué)習(xí)方法進(jìn)行行人檢測。不同的應(yīng)用場合對行人檢測性能的要求往往也不同,現(xiàn)有方法在實際應(yīng)用過程中還存在一些問題,譬如視頻監(jiān)控、圖像搜索等應(yīng)用場合對行人檢測的運算效率要求較高,同時希望虛警率盡可能低,從而降低后續(xù)分析處理的工作量,現(xiàn)有行人檢測方法的虛警率和運算效率還難以滿足這些應(yīng)用場合的要求。本文主要針對這些對行人檢測的虛警率和運算效率要求較高的應(yīng)用場合,提出一種結(jié)合輪廓粗篩和HOG細(xì)分的快速行人檢測方法,解決現(xiàn)有基于圖像的行人檢測方法運算效率低、虛警率高的問題。基本思路是:在輪廓粗篩階段,依據(jù)輪廓特征剔除部分干擾目標(biāo),降低虛警率和提高運算效率;在HOG細(xì)分階段,依據(jù)HOG特征和線性SVM分類器進(jìn)一步降低虛警率。通過結(jié)合輪廓粗篩和HOG細(xì)分,降低行人檢測的虛警率并提高運算效率。
1 本文方法
本文方法的設(shè)計思想是采用運算效率高的輪廓粗篩方法快速定位圖像中的可疑區(qū)域,然后僅針對可疑區(qū)域進(jìn)行HOG細(xì)分,降低全圖HOG特征提取的耗時,提高運算效率。同時融合輪廓特征和HOG特征進(jìn)行行人檢測,降低虛警率。本文方法主要包括圖像預(yù)處理、邊緣檢測、輪廓提取、輪廓粗篩、可疑圖像塊裁剪、HOG細(xì)分和行人窗口濾波7個環(huán)節(jié),詳細(xì)描述如下。
1.1 圖像預(yù)處理
圖像預(yù)處理主要是對圖像光照進(jìn)行歸一化,避免不同場景下光照差異大引起的行人誤檢。本文僅使用圖像的亮度信息進(jìn)行行人檢測,故僅采用Gamma標(biāo)準(zhǔn)化方法校正圖像的亮度信息,校正公式為:
其中,f0(x,y)和f(x,y)分別表示校正前后像素點(x,y)處的亮度值。γ為校正系數(shù)。本文為了增強(qiáng)行人目標(biāo)邊緣的亮度差異,選擇小于1的γ值。在本文中,γ取經(jīng)驗值0.75。
1.2 邊緣檢測
在實際圖像中,往往背景區(qū)域所占面積比目標(biāo)區(qū)域大很大。這樣在背景區(qū)域上檢測行人目標(biāo)不僅有可能會造成虛警,而且耗費了大量的時間。因此,本文先對圖像進(jìn)行邊緣檢測,目標(biāo)是將背景區(qū)域和目標(biāo)區(qū)域區(qū)分開來,避免在背景區(qū)域上進(jìn)行行人檢測造成的時間消耗和虛警現(xiàn)象。具體是采用Prewitt梯度算子來檢測目標(biāo)區(qū)域的邊緣。記Gx和Gy分別表示圖像f在像素點(x,y)處沿x和y方向的梯度,則梯度模值m(x,y)可以表示為:
其中,W和H分別表示圖像的寬度和高度。當(dāng)像素點對應(yīng)的梯度模值大于設(shè)定閾值TE時,認(rèn)為像素點為邊緣點,否則為背景點。本文取閾值TE=0.35。邊緣圖像e為二值圖像,為了便于后續(xù)的輪廓提取,本文采用數(shù)學(xué)形態(tài)學(xué)的擊中與擊不中變換對邊緣圖像進(jìn)行細(xì)化處理。
1.3 輪廓提取
輪廓提取采用貪婪搜索方法,從圖像中任一邊緣點開始,采用8-鄰接跟蹤搜索方式,記錄跟蹤到的每一個邊緣點,直到邊緣點滿足輪廓跟蹤終止條件為止。其中,邊緣點的輪廓跟蹤終止條件為:
(1)邊緣點在8鄰域內(nèi)無可跟蹤的邊緣點(需要說明的是:已經(jīng)跟蹤過的邊緣點不再重復(fù)跟蹤,實際操作過程中將跟蹤過的邊緣點像素值置為0);
(2)邊緣點為圖像的邊界點。
在輪廓跟蹤過程中,一旦當(dāng)前跟蹤的邊緣點滿足上述兩個條件之一,則終止該輪廓的跟蹤過程,然后記錄輪廓上的所有像素點的坐標(biāo),用該像素點坐標(biāo)集合來描述該輪廓,表示為:
其中,Kn表示第n個輪廓Cn的像素點總數(shù)。
按照上述思路,提取邊緣圖像中所有輪廓,直至邊緣圖像中無未被跟蹤過的邊緣點。
1.4 輪廓粗篩
輪廓粗篩是指依據(jù)目標(biāo)的輪廓特征粗篩選出可能包含行人的目標(biāo)。本文采用兩層輪廓粗篩策略,具體描述如下。
(1)先驗知識篩選
本文只考慮正常行走姿態(tài)下的行人檢測,在該姿態(tài)下,行人目標(biāo)輪廓的外接矩形框的寬度和高度滿足一些先驗知識。記第n個輪廓Cn的寬度和高度分別為wn、hn,則有:
其中,max和min分別表示取最大值和取最小值操作。本文依據(jù)行人輪廓寬度和高度的統(tǒng)計結(jié)果,制定一個寬松的先驗知識篩選條件,目標(biāo)是避免剔除行人目標(biāo)。篩選條件可以表示為:
其中,Thigh和Tlow分別表示輪廓高寬比的上、下限,取值在實驗部分討論。如果輪廓的外接矩形寬度和高度不滿足上述篩選條件,則剔除該輪廓,也即判定該輪廓不可能包含行人目標(biāo)。
(2)輪廓不變矩特征分類
記:
得到每一個輪廓的不變矩特征之后,將其代入已訓(xùn)練好的分類器進(jìn)行分類。因此,該部分的實現(xiàn)過程可以分為訓(xùn)練和驗證兩個階段,具體描述如下。
在訓(xùn)練階段,構(gòu)建一個包含行人目標(biāo)輪廓正樣本和非行人目標(biāo)輪廓負(fù)樣本的訓(xùn)練樣本集(具體在實驗部分討論),然后提取正負(fù)樣本中輪廓的不變矩特征,最后采用SVM對不變矩特征進(jìn)行分類(實現(xiàn)過程參考文獻(xiàn)[11],其中SVM的核函數(shù)選擇徑向基函數(shù)),得到輪廓特征分類器。
在驗證階段,對當(dāng)前圖像中提取到的每一個輪廓,提取不變矩特征,然后采用SVM方法進(jìn)行分類(分類器用訓(xùn)練階段生成的輪廓特征分類器)。分類結(jié)果為正的輪廓可能包含行人目標(biāo),將其保留。而分類結(jié)果為負(fù)的輪廓不包含行人目標(biāo),將其剔除。
1.5 可疑圖像塊裁剪
經(jīng)過輪廓粗篩后,保留的輪廓可能存在行人目標(biāo),為了降低行人檢測的虛警率,本文再采用HOG細(xì)分策略對這些輪廓區(qū)域的圖像特性進(jìn)行進(jìn)一步的分析,確認(rèn)該輪廓區(qū)域是否確實包含了行人目標(biāo)。考慮到HOG特征一般從灰度圖像中提取,因此先要裁剪可疑圖像塊,也即從原始灰度圖像中裁剪出可疑輪廓外接矩形框所框出的圖像塊。為了避免漏檢行人目標(biāo),在裁剪可疑圖像塊時對輪廓的外接矩形框進(jìn)行了擴(kuò)充,這樣可以將行人目標(biāo)完整地保留在可疑圖像塊中。具體地,對于第n個輪廓Cn,得到的裁剪矩形框為(xrn,yrn,wrn,hrn),其中,(xrn,yrn)表示裁剪矩形框的左上角頂點坐標(biāo),wrn、hrn分別表示裁剪矩形框的寬度和高度,求解公式為:
其中,χ表示矩形框的擴(kuò)充量??紤]到目標(biāo)距離攝像機(jī)遠(yuǎn)近不同時,其尺度差異很大。因此,參數(shù)χ不宜取固定值??紤]到圖像中行人的高度比寬度穩(wěn)定(因為人的手部和腿部運動都會導(dǎo)致行人外接矩形框的寬度發(fā)生較大變化),故本文取參數(shù)χ=0.1hn,這樣不同尺寸目標(biāo)的參數(shù)χ取值與輪廓外接矩形框的高度比例固定,從而避免了不同位置目標(biāo)裁剪矩形框擴(kuò)充比例差異大的問題。
1.6 HOG細(xì)分
HOG特征在行人檢測領(lǐng)域取得了很好的應(yīng)用效果,本文也采用HOG特征進(jìn)行行人的細(xì)分類。與文獻(xiàn)[5]中所述的基于HOG特征和SVM分類器進(jìn)行行人檢測的方法的區(qū)別在于,本文采用輪廓粗篩選定了圖像中的可疑圖像塊,而可疑圖像塊的尺寸遠(yuǎn)小于原圖像的尺寸,這樣降低了特征提取的運算量,進(jìn)而提高了運算效率。與文獻(xiàn)[5]相比,這里中沒有進(jìn)行亮度校正操作,因為在本文的圖像預(yù)處理階段已經(jīng)進(jìn)行了亮度校正操作。另外,這里又進(jìn)行了一次梯度運算,原因是HOG特征提取時常采用一維梯度模板:(-1,0,1)。該模板提取的梯度特征能更好地描述行人和其他目標(biāo)的差異。而本文在提取輪廓時不宜采用一維梯度模板,因為一維梯度模板的抗干擾能力較弱。其他操作與文獻(xiàn)[5]的描述相同,其中,梯度方向投票是在6×6單元格內(nèi),統(tǒng)計空間和方向上所有像素點梯度模值的累加和;對比度歸一化是對各單元格的梯度模值進(jìn)行歸一化;HOG特征計算是計算單元格內(nèi)的方向梯度直方圖;線性SVM分類器是采用訓(xùn)練好的HOG特征分類器對當(dāng)前HOG特征進(jìn)行分類,當(dāng)分類器的輸出為正時,表明檢測到行人目標(biāo),記錄檢測到的行人窗口,也即前一節(jié)計算得到的裁剪矩形框(xrn,yrn,wrn,hrn)。否則,丟棄該可疑圖像塊。
1.7 行人窗口濾波
考慮到前述步驟檢測到的行人窗口可能存在單一行人目標(biāo)被檢測多次的情況,因此需要對檢測到的行人窗口進(jìn)行濾波,基本思路是將重合度較大的行人窗口合并,具體實現(xiàn)方法是:對于檢測到的任一行人窗口,計算其與檢測到的其他行人窗口的重合度(也即兩個窗口交叉部分的面積與兩個窗口所包圍的總面積的比值),如果重合度大于閾值TS(在本文中,閾值TS取經(jīng)驗值70%),則判定兩個檢測窗口所包含的行人為同一人,此時將兩個檢測窗口合并,合并后的行人檢測窗口表示為:
其中,(xi,yi,wi,hi)和(xj,yj,wj,hj)表示合并前的兩個行人檢測窗口。合并之后,保留合并后的行人檢測窗口,刪除合并前的兩個行人檢測窗口。
所有行人檢測窗口經(jīng)過濾波之后,余下的行人檢測窗口即為檢測到的行人窗口。
2 仿真實驗
2.1 實驗說明
本文方法用到了兩個分類器:(1)輪廓粗篩階段用到的輪廓特征分類器,(2)HOG細(xì)分階段用到的HOG特征分類器。這兩個分類器是在特征訓(xùn)練階段得到的。特征訓(xùn)練所用的數(shù)據(jù)集是國際上流行的INRIA數(shù)據(jù)集。因為該數(shù)據(jù)集中的每一幅正樣本圖像中只包含一個人工裁剪的直立行人,易于訓(xùn)練。該數(shù)據(jù)集中包含行人的圖像有3 548幅,不包含行人的圖像有1 716幅。在訓(xùn)練HOG特征分類器時,正樣本集為包含行人的圖像,負(fù)樣本集為不包含行人的圖像。訓(xùn)練過程參照文獻(xiàn)[5]。在訓(xùn)練輪廓特征分類器時,先按照本文1.1~1.3節(jié)描述的步驟提取圖像中的輪廓,然后人工標(biāo)記行人輪廓和非行人輪廓,分別建立行人輪廓的正樣本集和非行人輪廓的負(fù)樣本集。接著采用1.4節(jié)所述的第二層篩選方法提取輪廓不變矩特征并進(jìn)行訓(xùn)練,得到輪廓特征分類器。另外,按照1.4節(jié)所述的第一層篩選方法計算輪廓正樣本集中各個輪廓的高寬比,如圖1所示。為了保證第一層輪廓粗篩選不會漏選行人目標(biāo),圖1中各輪廓高寬比要在輪廓高寬比的上下限閾值之內(nèi),也即,Thigh≥2.4,Tlow≤1.6。為進(jìn)一步降低漏檢,本文再增加40%的容差,取Thigh=3.4,Tlow=1.0。
考慮到本文主要是針對實際應(yīng)用而設(shè)計,因此算法的測試數(shù)據(jù)集選用實景拍攝的街景圖像數(shù)據(jù)集Caltech。該數(shù)據(jù)集為640×480分辨率的視頻,幀率為30 f/s,約有250 000幀圖像,共標(biāo)記了2 300個行人。
算法的性能評價選用虛警率、漏警率和檢測耗時3個指標(biāo)。虛警率是指檢測結(jié)果中非行人窗口所占的比例,漏警率是指數(shù)據(jù)集中標(biāo)記的行人目標(biāo)中未被檢測出的行人目標(biāo)所占的比例,檢測耗時是指平均檢測一幅圖像所耗費的時間。仿真實驗所用的計算機(jī)性能參數(shù)為:Windows 7操作系統(tǒng)、Intel Core-i5 CPU 3.20 GHz、16 G 內(nèi)存、Visual Studio 2012軟件平臺。其中,當(dāng)檢測結(jié)果中行人窗口與數(shù)據(jù)集中標(biāo)記的行人目標(biāo)窗口的重合度超過50%時,才認(rèn)為該行人目標(biāo)被正確檢測。
2.2 算法性能分析
下面將本文方法與目前應(yīng)用廣泛的Haar+Adaboost方法[3]、HOG+SVM方法[5]和深度學(xué)習(xí)方法[9]進(jìn)行性能對比分析。圖2顯示了不同方法的虛警率和漏警率測試結(jié)果。
從圖2可以看出,本文方法的虛警率是4種方法中最低的,原因是本文方法采用輪廓篩選剔除了一些干擾目標(biāo),從而降低了虛警率。在漏警率方面,本文方法的漏警率高于Haar+Adaboost方法,但與其他兩種方法相當(dāng)。本文方法得到的虛警率和漏警率的平均值要小于其他3種方法。
表1給出了不同方法的檢測耗時對比結(jié)果,可見,本文方法的檢測耗時明顯低于其他3種方法。
綜上分析,本文方法在檢測行人時具有虛警率低和檢測速度快的優(yōu)點,漏警率指標(biāo)也與現(xiàn)有方法相當(dāng)。
3 結(jié)束語
本文提出了一種結(jié)合輪廓粗篩和HOG細(xì)分的快速行人檢測方法。設(shè)計思路是先采用運算效率高的輪廓粗篩策略初步選出可疑的圖像塊,這樣可以剔除部分干擾目標(biāo),降低虛警率。然后對可疑圖像塊進(jìn)行HOG細(xì)分,在進(jìn)一步降低虛警率的同時,由于僅在可疑圖像塊上執(zhí)行運算量大的HOG特征提取操作,與在原圖像上提取HOG特征相比,運算量大幅降低。實驗結(jié)果表明,本文方法的虛警率低、運算效率高,適合于對虛警率和運算效率要求較高的行人檢測場合。后續(xù)研究將進(jìn)一步降低行人檢測的漏警率。
參考文獻(xiàn)
[1] 張麗紅,李林.基于Adaboost算法選取和組合SVM的行人檢測算法[J].測試技術(shù)學(xué)報,2013(1):73-78.
[2] XING W,ZHAO Y,CHENG R,et al.Fast pedestrian detection based on Haar pre-detection[J].International Journal of Computer and Communication Engineering,2012,1(3):207-209.
[3] HOANG V D,VAVILIN A,JO K H.Pedestrian detection approach based on modified Haar-like features and AdaBoost[C].International Conference on Control,Automation and Systems,2012:614-618.
[4] RAKATE G R,BORHADE S R,JADHAV P S,et al.Advanced pedestrian detection system using combination of Haar-like features,Adaboost algorithm and Edgelet-Shapelet[C].IEEE International Conference on Computational Intelligence & Computing Research,2012:1-5.
[5] 徐淵,許曉亮,李才年,等.結(jié)合SVM分類器與HOG特征提取的行人檢測[J].計算機(jī)工程,2016,42(1):56-60.
[6] ZHOU Z,XU L.Pedestrian detection based on HOG and weak-label structural SVM[J].Journal of Computational Information Systems,2014,10(1):367-374.
[7] YAN J,ZHANG X,LEI Z,et al.Robust multi-resolution pedestrian detection in traffic scenes[C].IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2013:3033-3040.
[8] YADAV R P,KUTTY K,UGALE S P.Implementation of robust HOG-SVM based pedestrian classification[J].International Journal of Computer Applications,2015,114(19):10-16.
[9] TIAN Y,LUO P,WANG X,et al.Pedestrian detection aided by deep learning semantic tasks[C].Computer Vision and Pattern Recognition.IEEE,2015:5079-5087.
[10] 曾敏,周益龍.基于深度學(xué)習(xí)模型的行人檢測研究與仿真[J].南京郵電大學(xué)學(xué)報(自然科學(xué)版),2015,35(6):111-116.
[11] WANG Y Q,TIAN D,SONG D Y,et al.Application of improved moment invariants and SVM in the recognition of solar cell debris[C].Advanced Materials Research,2013,805-806:21-26.
作者信息:
張 莉1,魏艷鳴2,周 兵3
(1.浙江長征職業(yè)技術(shù)學(xué)院 計算機(jī)與信息技術(shù)系,浙江 杭州310012;
2.河南經(jīng)貿(mào)職業(yè)學(xué)院 信息管理系,河南 鄭州450018;3.鄭州大學(xué) 信息工程學(xué)院,河南 鄭州450001)