文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.222903
中文引用格式: 陳紅順,陳觀明. 基于深度學(xué)習(xí)的詞語(yǔ)級(jí)中文唇語(yǔ)識(shí)別[J].電子技術(shù)應(yīng)用,2022,48(12):54-58.
英文引用格式: Chen Hongshun,Chen Guanming. Chinese word-level lip reading based deep learning[J]. Application of Electronic Technique,2022,48(12):54-58.
0 引言
語(yǔ)言是人類溝通交流的主要方式,語(yǔ)音是人類語(yǔ)言交流的主要載體之一。在無(wú)聲或噪聲干擾嚴(yán)重的環(huán)境下,或?qū)τ诖嬖诼犛X障礙的人群,如何利用通過(guò)嘴唇運(yùn)動(dòng)進(jìn)行語(yǔ)言識(shí)別至關(guān)重要。唇語(yǔ)識(shí)別是指通過(guò)觀察和分析人說(shuō)話時(shí)唇部運(yùn)動(dòng)的特征變化,識(shí)別出人所說(shuō)話的內(nèi)容。唇語(yǔ)識(shí)別具有廣闊的應(yīng)用前景:在醫(yī)療健康領(lǐng)域,可以借助唇語(yǔ)識(shí)別輔助患有聽力障礙的病人溝通交流[1];在安防領(lǐng)域,人臉識(shí)別同時(shí)通過(guò)唇語(yǔ)識(shí)別以提高活體識(shí)別的安全性[2];在視頻合成領(lǐng)域, 利用唇語(yǔ)識(shí)別可以合成特定人物講話場(chǎng)景的視頻[3],或者合成高真實(shí)感的虛擬人物動(dòng)畫等。
唇語(yǔ)識(shí)別主要包含4個(gè)步驟[4]:人臉關(guān)鍵點(diǎn)檢測(cè)與跟蹤、唇語(yǔ)區(qū)域提取、時(shí)空特征提取和分類與解碼。其中,時(shí)空特征提取和分類與解碼是唇語(yǔ)識(shí)別的研究重點(diǎn)。近年來(lái),隨著大規(guī)模數(shù)據(jù)集[5]的出現(xiàn),基于深度學(xué)習(xí)的方法可以自動(dòng)抽取深層特征,逐漸成為唇語(yǔ)識(shí)別研究的主流方法[6]。如圖1所示,基于深度學(xué)習(xí)的唇語(yǔ)學(xué)習(xí)方法將一系列的唇部圖像送入前端以提取特征,然后傳遞給后端以進(jìn)行分類預(yù)測(cè),并以端到端的形式進(jìn)行訓(xùn)練。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://theprogrammingfactory.com/resource/share/2000005040。
作者信息:
陳紅順1,陳觀明1,2
(1.北京師范大學(xué)珠海分校 信息技術(shù)學(xué)院,廣東 珠海519087;2.珠海歐比特宇航科技股份有限公司,廣東 珠海519080)