文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.08.014
引用格式: 張辰,陳陽. 基于模板匹配OCR的報(bào)告自動(dòng)歸檔系統(tǒng)研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(8):84-89.
0 引言
光學(xué)字符識(shí)別(Optical Character Recognition,OCR)是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過程。亦即將圖像中的文字進(jìn)行識(shí)別,并以文本的形式返回。其在文檔歸檔應(yīng)用背景下具有廣闊的市場(chǎng)前景。OCR字符識(shí)別技術(shù)經(jīng)過多年發(fā)展,已有LeNet[1]、RRPN[2]、DMPNet[3]、CTPN[4]等OCR網(wǎng)絡(luò)結(jié)構(gòu)被提出。其中,CTPN是目前應(yīng)用最廣的文本檢測(cè)模型之一。其基本假設(shè)是單個(gè)字符相較于異質(zhì)化程度更高的文本行更容易被檢測(cè),因此先對(duì)單個(gè)字符進(jìn)行類似R-CNN的檢測(cè),并在檢測(cè)網(wǎng)絡(luò)中加入雙向LSTM[5],使檢測(cè)結(jié)果形成序列提供了文本的上下文特征,便可以將多個(gè)字符進(jìn)行合并得到文本行。LeNet網(wǎng)絡(luò)提出時(shí)間較早,在銀行票據(jù)手寫體字符識(shí)別方面有著長(zhǎng)期的應(yīng)用。上述網(wǎng)絡(luò)結(jié)構(gòu)可以在通用背景下有效識(shí)別場(chǎng)景中的字符,對(duì)于非垂直文本也能進(jìn)行檢測(cè)。對(duì)于大多數(shù)OCR的應(yīng)用場(chǎng)景,并不需要對(duì)圖片中的所有字符進(jìn)行識(shí)別,往往只需要對(duì)部分ROI區(qū)域的字符進(jìn)行檢測(cè),但OCR技術(shù)對(duì)ROI區(qū)域的位移與旋轉(zhuǎn)適應(yīng)性較差,需要訓(xùn)練單獨(dú)的網(wǎng)絡(luò)來對(duì)ROI區(qū)域進(jìn)行定位。機(jī)器視覺技術(shù)在制造業(yè)領(lǐng)域有著廣泛的應(yīng)用,特別是在工件定位、視覺測(cè)量等方面有大量成熟的算法,其中,模板匹配算法則針對(duì)工業(yè)定位[6-7]的應(yīng)用背景,提出了基于灰度[8]、邊緣[9]、變換域[10]的模板匹配算法,能適應(yīng)各種工業(yè)定位需求[11-15]。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://theprogrammingfactory.com/resource/share/2000003731
作者信息:
張 辰1,陳 陽2
(1.廣東省建設(shè)工程質(zhì)量安全檢測(cè)總站有限公司,廣東 廣州510500;
2.廣東省建筑科學(xué)研究院集團(tuán)股份有限公司,廣東 廣州510500)