中文引用格式: 王立喜,劉云平,湯琴琴,等. 基于Transformer殘差網(wǎng)絡(luò)的事件重建算法[J]. 電子技術(shù)應(yīng)用,2024,50(11):28-34.
英文引用格式: Wang Lixi,Liu Yunping,Tang Qinqin,et al. Event reconstruction algorithm based on Transformer residual network[J]. Application of Electronic Technique,2024,50(11):28-34.
引言
在過去的十年里,由于現(xiàn)代深度學(xué)習(xí)方法和神經(jīng)體系結(jié)構(gòu)優(yōu)化,計(jì)算機(jī)視覺領(lǐng)域在許多不同的任務(wù)中取得了驚人的進(jìn)步。但與生物系統(tǒng)相比,目前的人工視覺系統(tǒng)仍然無法處理一些涉及高速運(yùn)動(dòng)場(chǎng)景和高動(dòng)態(tài)范圍的真實(shí)世界場(chǎng)景。這是因?yàn)閭鹘y(tǒng)的基于幀的傳感器存在諸如運(yùn)動(dòng)模糊和低動(dòng)態(tài)范圍等問題。事件相機(jī)具有消除上述問題的能力。它輸出異步像素且彼此獨(dú)立工作[1]。每個(gè)像素對(duì)局部相對(duì)光強(qiáng)度變化很敏感,當(dāng)這種變化超過閾值時(shí),它們會(huì)連續(xù)產(chǎn)生稱為事件的信號(hào)。因其高動(dòng)態(tài)范圍、高時(shí)間分辨率和低延遲的優(yōu)勢(shì),事件數(shù)據(jù)已越來越多地被納入各種識(shí)別任務(wù)中,包括目標(biāo)檢測(cè)[2]、語義分割[3]等。此外,事件數(shù)據(jù)還被用于需要高速感知的挑戰(zhàn)性機(jī)器人應(yīng)用中,例如能夠捕捉對(duì)象的四足機(jī)器人[4]和能夠避開動(dòng)態(tài)障礙物的撲翼機(jī)器人[5]。
盡管事件相機(jī)具有令人滿意的特性,但不能像處理強(qiáng)度圖像那樣直接處理事件流,而高質(zhì)量的強(qiáng)度圖像是理解視覺數(shù)據(jù)的最自然的方式。因此,從事件中重建強(qiáng)度圖像一直是基于事件的視覺研究的基石。重建高質(zhì)量強(qiáng)度圖像的另一個(gè)好處是可以立即將成功的基于幀的計(jì)算機(jī)視覺方法應(yīng)用于重建結(jié)果,以解決各種任務(wù)。
目前基于事件相機(jī)的圖像重建分為兩類:基于濾波的傳統(tǒng)方法和基于深度學(xué)習(xí)的方法?;跒V波的方法是通過對(duì)事件數(shù)據(jù)進(jìn)行濾波處理來還原圖像序列,包括中值濾波和高斯濾波[6],但這些方法在處理復(fù)雜或動(dòng)態(tài)場(chǎng)景的圖像時(shí)易失效。最近,基于深度學(xué)習(xí)的方法在基于事件的視頻重建任務(wù)中取得了顯著成果,為行人檢測(cè)和行人動(dòng)作識(shí)別[7]等工作做出貢獻(xiàn)。Rebecq等[8]提出了一種新穎的遞歸網(wǎng)絡(luò)(E2VID)用于從大量事件中重建視頻,這是一種直接處理事件的端到端網(wǎng)絡(luò)。Cadena等[9]提出了一種基于條件生成對(duì)抗網(wǎng)絡(luò)的重建方法,將事件流數(shù)據(jù)用不同的表達(dá)方式來生成不同的灰度圖像。由于僅當(dāng)像素的強(qiáng)度發(fā)生變化時(shí)才會(huì)異步生成事件,因此生成的事件體素柵格是稀疏張量,僅包含場(chǎng)景中變化部分的信息。這些體素柵格的稀疏性也非常不同。這使得神經(jīng)網(wǎng)絡(luò)很難適應(yīng)新的數(shù)據(jù),并導(dǎo)致包含模糊、低對(duì)比度或涂抹偽影的問題。同時(shí)這些算法有初始化時(shí)間,此過程需要20到30幀,且第一幀的質(zhì)量很差。
綜上所述,本文提出了一種基于Transformer殘差模塊的自監(jiān)督重建算法,將光流估計(jì)與事件重建結(jié)合共同訓(xùn)練學(xué)習(xí)實(shí)現(xiàn)自監(jiān)督重建。本文的創(chuàng)新在于使用聯(lián)合訓(xùn)練獲取高質(zhì)量的初始幀并提高對(duì)特征的長(zhǎng)期相關(guān)性學(xué)習(xí)能力,有效捕捉視頻上下幀的時(shí)空關(guān)聯(lián)特征。同時(shí)設(shè)計(jì)去噪預(yù)處理與亞像素上采樣操作模塊,抑制噪聲,減少信息損失,共同提高重建質(zhì)量。實(shí)驗(yàn)結(jié)果表明,在公開數(shù)據(jù)集上本文方法可以有效提高事件流的重建效果。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://theprogrammingfactory.com/resource/share/2000006206
作者信息:
王立喜1,劉云平1,湯琴琴2,李家豪1
(1.南京信息工程大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210016;
2.無錫學(xué)院 軌道交通學(xué)院, 江蘇 無錫 214015)