劉楊
?。ㄖ袊V業(yè)大學(xué) 信息與電氣工程學(xué)院,江蘇 徐州 221116)
摘要:針對(duì)復(fù)雜場(chǎng)景下,由于文字背景復(fù)雜性而帶來的文字定位不準(zhǔn)確的問題,提出了一種Radon傾斜校正與MSER(最大穩(wěn)定極值區(qū)域)結(jié)合的算法,基于該算法識(shí)別出文字在所處復(fù)雜背景中的位置。首先,對(duì)圖像進(jìn)行預(yù)處理,采用Canny算子對(duì)圖像進(jìn)行邊緣檢測(cè),并利用Radon變換對(duì)傾斜圖像進(jìn)行校正。然后通過二進(jìn)小波變換對(duì)圖像進(jìn)行增強(qiáng)處理,去除噪聲。最后提取MSER,經(jīng)過粗處理、細(xì)處理后,檢測(cè)出文本所處位置。實(shí)驗(yàn)結(jié)果表明,基于Radon傾斜校正與MSER結(jié)合的方法,能夠有效提高文本定位的準(zhǔn)確率。
關(guān)鍵詞:Radon傾斜校正;Canny算子;二進(jìn)小波變換;最大極值區(qū)域;文本定位
0引言
對(duì)于簡單背景中的文字(如文檔圖像),其布局設(shè)計(jì)是相對(duì)固定的,方便讀者閱讀,降低了文本區(qū)域分割的難度[1]。
復(fù)雜場(chǎng)景中,存在著各種豐富的信息,如車牌號(hào)、指示牌等。因此獲取復(fù)雜場(chǎng)景下的文本區(qū)域位置,有利于有效信息的提取。然而,由于光照、拍攝角度、背景過于復(fù)雜等原因,復(fù)雜場(chǎng)景下的文本定位與文字識(shí)別,相對(duì)于簡單的背景,實(shí)現(xiàn)的難度更高,且識(shí)別的準(zhǔn)確度較低。
1相關(guān)研究
文本定位算法,主要包括基于連通域的定位方法、基于紋理特征的定位方法和基于邊緣特征的定位方法?;谏鲜龇椒?,人們做了大量的研究與應(yīng)用[2-8]。然而上述方法在復(fù)雜場(chǎng)景中,存在文本定位精度不高、算法運(yùn)行較慢等缺點(diǎn)。正是基于上述分析,提出了本文的定位算法。
2文字定位算法
2.1算法設(shè)計(jì)
采用Radon傾斜校正與連通域分析相結(jié)合的算法對(duì)復(fù)雜場(chǎng)景中的文字進(jìn)行定位。文字定位算法流程圖如圖1所示。
本文算法的文字闡述如下:首先對(duì)圖像進(jìn)行預(yù)處理。由于拍攝角度的問題,所獲得的圖像或多或少會(huì)有一定的傾斜,所以利用Radon傾斜校正,檢測(cè)水平邊和垂直邊,得到校正后的圖像。
預(yù)處理之后得到的仍為彩色圖像,且Radon傾斜校正中利用了Canny邊緣檢測(cè)算子,產(chǎn)生了噪聲,造成圖像部分信息的丟失。所以需要對(duì)圖像進(jìn)行增強(qiáng)處理,即利用二進(jìn)小波變換處理圖像。圖像增強(qiáng)處理之后,需要對(duì)圖像進(jìn)行MSER提取,然后再進(jìn)行粗處理、細(xì)處理,最后通過連通域分析,得到文本區(qū)域在圖像中所處的位置。
2.2Radon傾斜校正
Radon傾斜校正對(duì)幾何旋轉(zhuǎn)、JPEG壓縮、濾波等有較好的魯棒性[9]。本文采用Canny算子先對(duì)灰度化處理后的圖像進(jìn)行水平和垂直兩個(gè)方向上的邊緣檢測(cè)[10]。經(jīng)過預(yù)處理后,進(jìn)行Radon傾斜校正。
2.3基于二進(jìn)小波變換的圖像增強(qiáng)算法
經(jīng)過圖像傾斜校正處理后,圖像不可避免地出現(xiàn)了噪聲。為了增加文本區(qū)域定位的準(zhǔn)確率,采用二進(jìn)小波變換算法對(duì)圖像進(jìn)行增強(qiáng)處理[11]。每層的小波分解需要將待分解圖像分解為:水平、垂直方向均是低頻分量,水平低頻、垂直高頻,水平高頻、垂直低頻,水平與垂直均是高頻分量的4個(gè)子帶圖像。并將這4個(gè)子帶圖像分別記為:LL、LH、HL、HH。
二維二進(jìn)小波變換的重構(gòu)公式:
在圖像處理過程中,增強(qiáng)系數(shù)可以由圖像的噪聲水平與感興趣細(xì)節(jié)所在的尺度來進(jìn)行選擇。設(shè)增強(qiáng)系數(shù)為Wj,i,加入該系數(shù)后,重構(gòu)公式變換為:
其中,j為尺度系數(shù),i表示LH、HL、HH三個(gè)圖像,可取值為1,2,3。
利用二進(jìn)小波對(duì)圖像進(jìn)行增加處理的主要步驟有:
?。?)基于a′trous算法,對(duì)圖像進(jìn)行小波分解。
?。?)引入增強(qiáng)系數(shù)Wj,i,得到每層的二進(jìn)小波系數(shù),然后按如下公式變換:
?。?)將得到的小波系數(shù)進(jìn)行逆二進(jìn)小波變換,獲得增強(qiáng)處理后的圖像。
2.4基于MSER(最大極值穩(wěn)定區(qū)域)算法進(jìn)行文本定位
通過二進(jìn)小波,圖像質(zhì)量有了明顯改善。在這之后,通過MSER算法對(duì)圖像中的文本區(qū)域進(jìn)行定位。
2.4.1MSER提取
MSER算法包括MSER+和MSER-兩個(gè)區(qū)域。添加新增像素點(diǎn)時(shí),判斷其屬于哪個(gè)區(qū)域,并將其合并到該區(qū)域中。當(dāng)像素點(diǎn)越來越多時(shí),區(qū)域不斷增大并彼此合并,然后根據(jù)最大穩(wěn)定條件來判斷該區(qū)域是否為最大極值穩(wěn)定區(qū)域[12]。
2.4.2粗處理
通過對(duì)MSER的提取,圖像中出現(xiàn)多個(gè)MSER。計(jì)算出每一個(gè)MSER的外界矩形的位置及其高度,同時(shí)分別將這些MSER歸類于對(duì)應(yīng)的MSER+、MSER-。由于復(fù)雜場(chǎng)景中,字符分布同樣符合水平連續(xù)間隔的特性,所以這里采用參考文獻(xiàn)[13]中的粗處理方法。
先分析出每兩個(gè)MSER的位置關(guān)系,設(shè)提取到的MSER個(gè)數(shù)為N,則可以得到N×N的矩陣。若第i個(gè)MSER到第j個(gè)MSER間的中心距離滿足條件:
則將M[i][j]和M[j][i]的值設(shè)為1。
其中,verticalDistance和horizontalDistance分別表示垂直距離和水平距離。maxPlateWidth和maxPlateHeight分別表示文本區(qū)域可能的最大寬高。
根據(jù)上述分析,所求的候選區(qū)域即為N×N矩陣右上角所有的四領(lǐng)域連通點(diǎn)對(duì)應(yīng)的MSER。
2.4.3細(xì)處理
對(duì)得到的結(jié)果進(jìn)行連通域分析。圖像中有多個(gè)矩形候選區(qū)域,由先驗(yàn)知識(shí)設(shè)定以下限制:
?。?)由于現(xiàn)實(shí)中字符數(shù)都比較多,字符數(shù)小于等于2個(gè)時(shí),認(rèn)定為非文本區(qū)域,將其剔除;
(2)將前景點(diǎn)像素個(gè)數(shù)與候選區(qū)中像素點(diǎn)個(gè)數(shù)之比大于50%的,判斷為非文本區(qū)域,同樣將其剔除;
?。?)候選區(qū)域的寬高之比在120~20之間的,視為非文本區(qū),需要剔除。
3仿真環(huán)境與實(shí)驗(yàn)結(jié)果及分析
利用MATLAB仿真平臺(tái),對(duì)本文提出的算法進(jìn)行仿真。圖像經(jīng)過本文算法處理的每一步過程如圖2~圖7所示。
4結(jié)束語
針對(duì)復(fù)雜場(chǎng)景下文本區(qū)域定位精度不夠的情況,本文提出了基于Radon傾斜校正與MSER相結(jié)合的算法,能降低因拍攝角度不同而對(duì)定位精度造成的影響,采用二進(jìn)小波變換算法對(duì)圖像進(jìn)行增強(qiáng)處理,進(jìn)一步消除噪聲影響,最后利用MSER算法,快速有效地定位出了文本所在區(qū)域。文本區(qū)域的高效定位,有利于后續(xù)文本識(shí)別準(zhǔn)確度的提高。
參考文獻(xiàn)
[1] 賈文靜,曾超,敖永霞,等.室外場(chǎng)景中標(biāo)識(shí)牌文字的檢測(cè)與提取技術(shù)綜述[J].云南民族大學(xué)學(xué)報(bào)(自然學(xué)科版),2010,19(3): 157-161. [2] 王靜,田洋洋,皇甫海燕.基于連通域閾值的自然場(chǎng)景文本圖像分割技術(shù)[J].新疆師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,34(1):12-15.
?。?] MATAS J, CHUM O, URBAN M, et al. Robust widebaseline stereo from maximally stable external regions[C].Proceedings of the British Machine Vision Conference, Cardiff, UK, 2002:384 393.
?。?] 莫會(huì)宇,王祝萍.一種結(jié)合MSER與SIFT算子的特征檢測(cè)方法[J]. 東華大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,37(5):624-628.
[5] BAI Y P. BP network based on handwritten digital image feature extraction[J]. Advances in Applied Mathematics, 2014, 3(2):104-111.
?。?] 王建,周源華.一種基于紋理能量的JPEG圖像文本定位算法[J].上海交通大學(xué)學(xué)報(bào),2004,38(9):1492-1495.
?。?] 何立強(qiáng),劉浩,陳永.邊緣與灰度檢測(cè)相結(jié)合的場(chǎng)景圖像文本定位[J].中國圖象圖形學(xué)報(bào),2013,18(2):1601-1609.
[8] 賈冬勤,王洪元,程起才.基于自適應(yīng)閾值Canny算子的視頻文本定位方法[J].常州大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,26(1):47-52.
?。?] 何冰, 王晅, 趙杰. 基于Radon變換的抗旋轉(zhuǎn)攻擊零水印算法[J]. 計(jì)算機(jī)工程, 2009, 35(16):128-129.
[10] 陳宏希.基于邊緣保持平滑濾波的Canny算子邊緣檢測(cè)[J].蘭州交通大學(xué)學(xué)報(bào),2006,25(1):86-90.
?。?1] 吐爾洪江,艾斯卡爾,吾吉買買提,等. 基于二進(jìn)小波變換的增強(qiáng)技術(shù)[J].新疆師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,25(4):6-13.
[12] 肖誠求,吉立新,高超,等.基于樹修剪和多特征融合的場(chǎng)景文本檢測(cè)[J].信息工程大學(xué)學(xué)報(bào),2015,16(5):590-595.
?。?3] 肖意,姜軍.基于最大穩(wěn)定極值區(qū)域的車牌定位與字符分割[J].計(jì)算機(jī)與數(shù)字工程,2015,43(12):2272-2274.