摘 要: 利用固定區(qū)域坐標(biāo)提取固定區(qū)域的單行數(shù)據(jù)字符塊;基于高斯模糊提取隨機(jī)手寫黑子信息字符區(qū);結(jié)合Hough變換與投影技術(shù)完成隨機(jī)手寫區(qū)域中包含多個(gè)黑子記錄字符塊的分割,并將包含單個(gè)黑子記錄字符塊分割為3個(gè)僅包含單行數(shù)據(jù)的字符塊;利用顏色填充分割算法分割出單行數(shù)據(jù)字符塊中的單個(gè)字符和粘連字符,結(jié)合平均字符寬度信息進(jìn)一步分割粘連字符。實(shí)驗(yàn)結(jié)果表明,每幅手繪太陽黑子圖的固定區(qū)域和隨機(jī)區(qū)域的字符分割平均正確率分別達(dá)到95.5%和79.6%。
關(guān)鍵詞: Hough變換;投影算法;顏色填充分割算法;粘連字符;字符寬度
0 引言
在光球觀測照相之前,太陽黑子觀測長期以來一直采用投影法手工描跡黑子的大小、形狀和位置[1]。對(duì)手繪太陽黑子圖進(jìn)行數(shù)字化具有極為重要的意義,可降低珍貴數(shù)據(jù)丟失的風(fēng)險(xiǎn),快捷簡單地查詢有關(guān)黑子的信息,匯聚各個(gè)天文臺(tái)的觀測數(shù)據(jù)進(jìn)行有效的整理,為科學(xué)家和用戶提供數(shù)據(jù)服務(wù)。
國際上較早開展了手繪太陽黑子圖的數(shù)字化研究工作,西班牙和比利時(shí)分別開發(fā)出了HSUNSPOTS和DigiSun的手繪太陽黑子圖數(shù)字化軟件。中國自20世紀(jì)30年代末開始太陽黑子觀測,云南天文臺(tái)已積累圖1所示的手繪太陽黑子圖[2]達(dá)20 000多張。由圖1可見,手寫黑子信息可分為固定區(qū)域和隨機(jī)區(qū)域兩部分,分別如圖1中類似矩形框標(biāo)記部分和類似橢圓框標(biāo)記部分。提取手寫記錄信息并保存在計(jì)算機(jī)中是手繪太陽黑子圖數(shù)字化的重要內(nèi)容,因此手寫字符的提取和分割是其中一個(gè)重要的環(huán)節(jié)。
目前關(guān)于手寫字符分割的方法有很多[3-5]。基于投影和輪廓特征的方法對(duì)具體的應(yīng)用對(duì)象缺乏針對(duì)性,如投影分析法對(duì)字符發(fā)生嚴(yán)重傾斜或交錯(cuò)的情況無法處理;外輪廓分析法在字符間粘連筆劃為直線的情況下,因找不到輪廓線上的凹點(diǎn)而不太適用?;诮Y(jié)構(gòu)特征的方法由于缺乏識(shí)別的指導(dǎo),往往導(dǎo)致分割質(zhì)量不高?;谀0遄R(shí)別的方法是以字符識(shí)別器提供的置信度作為分割的度量,選取真實(shí)反映識(shí)別結(jié)果的置信度是提高分割正確率的關(guān)鍵。考慮上述字符分割方法的缺點(diǎn)和復(fù)雜性,以及隨機(jī)手寫黑子信息區(qū)字符中帶有圓圈的特殊性,本文研究圖1所示的固定區(qū)域和隨機(jī)區(qū)域手寫字符的提取與分割方法。
1 固定區(qū)域手寫黑子信息字符提取與分割
1.1 基于坐標(biāo)的固定區(qū)域手寫字符區(qū)提取
將原始圖進(jìn)行大小歸一化,每幅圖中各固定區(qū)域的相對(duì)位置相同,計(jì)算出圖中各固定區(qū)域橫縱坐標(biāo)最小和最大兩像素點(diǎn),提取兩坐標(biāo)點(diǎn)確定矩形框中原始圖像的像素值,即字符塊,如圖2(a)所示。
1.2 基于CFS算法與平均字符寬度的固定區(qū)域字符分割
利用顏色填充分割[6](Color Filling Segmentation,CFS)算法進(jìn)行分割,若字符寬度小于最小字符寬度43,則為干擾字符(小數(shù)點(diǎn)、度符號(hào)、撇符號(hào)和等號(hào)),刪除;若字符寬度大于最大字符寬度61,則為粘連字符,結(jié)合平均字符寬度利用投影分割粘連字符,若其中存在干擾字符,刪除;其他則為單個(gè)字符。部分結(jié)果如圖2(b)所示。
2 隨機(jī)區(qū)域手寫黑子信息字符提取與分割
2.1 基于高斯模糊的隨機(jī)區(qū)域手寫字符區(qū)提取
對(duì)提取出固定區(qū)域字符塊后的圖利用全局閾值轉(zhuǎn)換為黑白圖,利用高斯模糊算法[7],使用大小為901×901、標(biāo)準(zhǔn)偏差為300的高斯模糊算子進(jìn)行卷積運(yùn)算,尋找所有的八鄰接連通域,刪除面積小于一定閾值的連通域,通過標(biāo)注連接分量標(biāo)記所有的連通域,利用標(biāo)號(hào)尋找各連通域中橫縱坐標(biāo)最小和最大兩像素點(diǎn),提取稍大于兩坐標(biāo)點(diǎn)確定矩形框范圍中原始圖像像素點(diǎn)的值,即字符塊,部分結(jié)果如圖3所示。
2.2 基于Hough變換與投影的隨機(jī)區(qū)域字符塊分割
2.2.1 包含多個(gè)黑子記錄字符塊的分割
部分類似圖3(b)所示字符塊含有多個(gè)黑子記錄,需將其分割為類似圖3(a)所示僅包含單個(gè)黑子記錄的字符塊,利用Hough變換[8]來檢測圖中的圓圈,利用圓心坐標(biāo)來判斷黑子的分布結(jié)構(gòu)。若兩圓心縱坐標(biāo)差的絕對(duì)值遠(yuǎn)大于兩圓心橫坐標(biāo)差的絕對(duì)值,則為上下結(jié)構(gòu),以第二個(gè)圓圈圓心縱坐標(biāo)減去半徑值為投影分割點(diǎn)進(jìn)行垂直投影分割;反之,則為左右結(jié)構(gòu),以第二個(gè)圓圈圓心橫坐標(biāo)減去半徑值為投影分割點(diǎn)進(jìn)行水平投影分割。
2.2.2 包含單個(gè)黑子記錄字符塊的分割
由于圓圈的高度大于緊隨其后的行數(shù)據(jù)高度,對(duì)具有單個(gè)黑子記錄的字符塊進(jìn)行垂直投影分割前需將圓圈去除;通過Hough變換檢測圓圈,利用圓心和半徑提取圓圈及圓圈中數(shù)據(jù),為第一行數(shù)據(jù);通過垂直投影選取合適的局部極小值點(diǎn)作為分割點(diǎn),對(duì)剩余字符塊進(jìn)行分割得到單行數(shù)據(jù)字符塊,分別為第二行數(shù)據(jù)和第三行數(shù)據(jù)字符塊,部分結(jié)果如圖4所示。
2.3 基于CFS算法與平均字符寬度的隨機(jī)區(qū)域字符分割
利用CFS算法進(jìn)行分割,若第二行字符塊中字符滿足寬度<13或者>31且高度均≤100且字符面積處于574~2 170之間或者第三行字符塊中字符滿足高度≥42且字符面積處于574~2 170之間,則認(rèn)為單個(gè)字符或者粘連字符,保留并判斷字符的寬度,若寬度>62,則為是粘連字符,結(jié)合平均字符寬度利用投影對(duì)粘連字符分割,若其中存在干擾字符,刪除;反之,則為是單個(gè)字符,部分結(jié)果如圖5所示。
3 手寫字符分割實(shí)驗(yàn)結(jié)果及分析
選取中國科學(xué)院云南天文臺(tái)2000年2月至4月共43張分辨率達(dá)到5 000×6 000的手繪太陽黑子圖,人工統(tǒng)計(jì)共有13 717個(gè)字符,固定區(qū)域共有2 279個(gè)字符,隨機(jī)手寫區(qū)域共有11 438個(gè)字符。利用投影和本文方法分別對(duì)固定區(qū)域和隨機(jī)區(qū)域的手寫字符進(jìn)行分割,以人工對(duì)比和確認(rèn)的方式對(duì)字符分割的結(jié)果進(jìn)行統(tǒng)計(jì)。
采用投影算法進(jìn)行字符分割,固定區(qū)域字符分割正確的字符共2 156個(gè),分割錯(cuò)誤的字符共123個(gè),分割正確率達(dá)94.6%;隨機(jī)區(qū)域字符分割正確的字符共 8 716個(gè),分割錯(cuò)誤的字符共2 722個(gè),正確分割率達(dá)76.2%。采用本文方法進(jìn)行字符分割,固定區(qū)域字符分割正確的字符共2 176個(gè),分割錯(cuò)誤的字符共103個(gè),分割正確率達(dá)95.5%;隨機(jī)手寫區(qū)域字符分割正確的字符共9 109個(gè),分割錯(cuò)誤的字符共2 329個(gè),正確分割率達(dá)79.6%。
4 結(jié)論
本文方法使固定區(qū)域字符和隨機(jī)區(qū)域字符分割平均正確率分別提高了0.9%和3.4%,表明采用方法得當(dāng),能較好地將包含單行數(shù)據(jù)的字符塊分割為多個(gè)完整的單個(gè)字符。
參考文獻(xiàn)
[1] 劉學(xué)富.太陽黑子觀測[J].天文愛好者,1999(6):24-26.
[2] 云南天文臺(tái)太陽觀測數(shù)據(jù)服務(wù)系統(tǒng)[EB/OL].(2015-05-25).http://www1.ynao.ac.cn/~solar/datadownload.php.
[3] 丁杰,楊靜宇.一種基于模糊規(guī)則的手寫體粘連數(shù)字串分割[J].中國圖象圖形學(xué)報(bào),2009,14(11):2292-2298.
[4] 胡濤,呂紅,孫小虎,等.基于水平垂直灰度開運(yùn)算的車牌字符分割算法[J].電子技術(shù)應(yīng)用,2012,38(10):109-111.
[5] 高慶吉,王曉華,趙為平.對(duì)粘連和缺損數(shù)字串分割的研究[J].模式識(shí)別與人工智能,2000,13(1):99-1021.
[6] YAN J, AHMAD A S E. A low-cost attack on a Microsoft CAPTCHA[C]. Proceedings of the 15th ACM Conference on Computer and Communications Security, 2008: 543-554.
[7] 丁怡心,廖勇毅.高斯模糊算法優(yōu)化及實(shí)現(xiàn)[J].現(xiàn)代計(jì)算機(jī),2010(8):76-78.
[8] 姜文,盧朝陽,李靜.基于Hough變換的手寫體維文字符傾斜校正算法[J].微型機(jī)與應(yīng)用,2013,32(8):29-31.