《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 設(shè)計(jì)應(yīng)用 > 基于Transformer殘差網(wǎng)絡(luò)的事件重建算法
基于Transformer殘差網(wǎng)絡(luò)的事件重建算法
電子技術(shù)應(yīng)用
王立喜1,劉云平1,湯琴琴2,李家豪1
1.南京信息工程大學(xué) 自動(dòng)化學(xué)院;2.無錫學(xué)院 軌道交通學(xué)院
摘要: 目前的人工視覺系統(tǒng)仍然無法處理一些涉及高速運(yùn)動(dòng)場(chǎng)景和高動(dòng)態(tài)范圍的真實(shí)世界場(chǎng)景。事件相機(jī)因其低延遲和高動(dòng)態(tài)范圍捕捉高速運(yùn)動(dòng)的優(yōu)勢(shì)具有消除上述問題的能力。然而,由于事件數(shù)據(jù)的高度稀疏和變化性質(zhì),在保證其快速性的同時(shí)將事件重建為視頻仍然具有挑戰(zhàn)性。因此提出了一種基于Transformer殘差網(wǎng)絡(luò)和光流估計(jì)的事件流重建算法,通過光流估計(jì)和事件重建的聯(lián)合訓(xùn)練,實(shí)現(xiàn)自監(jiān)督的重建過程,并引入去模糊預(yù)處理和亞像素上采樣模塊來提高重建質(zhì)量。實(shí)驗(yàn)結(jié)果表明,在公開數(shù)據(jù)集上,提出的方法可以有效提高事件流的重建效果。
中圖分類號(hào):TP193.41 文獻(xiàn)標(biāo)志碼:A DOI: 10.16157/j.issn.0258-7998.245292
中文引用格式: 王立喜,劉云平,湯琴琴,等. 基于Transformer殘差網(wǎng)絡(luò)的事件重建算法[J]. 電子技術(shù)應(yīng)用,2024,50(11):28-34.
英文引用格式: Wang Lixi,Liu Yunping,Tang Qinqin,et al. Event reconstruction algorithm based on Transformer residual network[J]. Application of Electronic Technique,2024,50(11):28-34.
Event reconstruction algorithm based on Transformer residual network
Wang Lixi1,Liu Yunping1,Tang Qinqin2,Li Jiahao1
(1.School of Automation, Nanjing University of Information Science & Technology; 2.School of Rail Transportation, Wuxi University
Abstract: Current artificial visual systems still struggle to handle real-world scenarios involving high-speed motion and high dynamic range scenes. Event cameras have the capability to address these challenges due to their low latency and high dynamic range for capturing fast-moving objects. However, reconstructing events into videos while maintaining their speed presents a challenge due to the highly sparse and dynamic nature of event data. Therefore, this paper proposes an event stream reconstruction algorithm based on Transformer residual networks and optical flow estimation. By jointly training optical flow estimation and event reconstruction, a self-supervised reconstruction process has been achieved. Additionally, deblurring preprocessing and subpixel upsampling modules are introduced to enhance the quality of reconstruction. Experimental results demonstrate that the proposed approach effectively improves the reconstruction quality of event streams on public datasets.
Key words : event camera;video reconstruction;deep learning;optical flow estimation

引言

在過去的十年里,由于現(xiàn)代深度學(xué)習(xí)方法和神經(jīng)體系結(jié)構(gòu)優(yōu)化,計(jì)算機(jī)視覺領(lǐng)域在許多不同的任務(wù)中取得了驚人的進(jìn)步。但與生物系統(tǒng)相比,目前的人工視覺系統(tǒng)仍然無法處理一些涉及高速運(yùn)動(dòng)場(chǎng)景和高動(dòng)態(tài)范圍的真實(shí)世界場(chǎng)景。這是因?yàn)閭鹘y(tǒng)的基于幀的傳感器存在諸如運(yùn)動(dòng)模糊和低動(dòng)態(tài)范圍等問題。事件相機(jī)具有消除上述問題的能力。它輸出異步像素且彼此獨(dú)立工作[1]。每個(gè)像素對(duì)局部相對(duì)光強(qiáng)度變化很敏感,當(dāng)這種變化超過閾值時(shí),它們會(huì)連續(xù)產(chǎn)生稱為事件的信號(hào)。因其高動(dòng)態(tài)范圍、高時(shí)間分辨率和低延遲的優(yōu)勢(shì),事件數(shù)據(jù)已越來越多地被納入各種識(shí)別任務(wù)中,包括目標(biāo)檢測(cè)[2]、語義分割[3]等。此外,事件數(shù)據(jù)還被用于需要高速感知的挑戰(zhàn)性機(jī)器人應(yīng)用中,例如能夠捕捉對(duì)象的四足機(jī)器人[4]和能夠避開動(dòng)態(tài)障礙物的撲翼機(jī)器人[5]。

盡管事件相機(jī)具有令人滿意的特性,但不能像處理強(qiáng)度圖像那樣直接處理事件流,而高質(zhì)量的強(qiáng)度圖像是理解視覺數(shù)據(jù)的最自然的方式。因此,從事件中重建強(qiáng)度圖像一直是基于事件的視覺研究的基石。重建高質(zhì)量強(qiáng)度圖像的另一個(gè)好處是可以立即將成功的基于幀的計(jì)算機(jī)視覺方法應(yīng)用于重建結(jié)果,以解決各種任務(wù)。

目前基于事件相機(jī)的圖像重建分為兩類:基于濾波的傳統(tǒng)方法和基于深度學(xué)習(xí)的方法?;跒V波的方法是通過對(duì)事件數(shù)據(jù)進(jìn)行濾波處理來還原圖像序列,包括中值濾波和高斯濾波[6],但這些方法在處理復(fù)雜或動(dòng)態(tài)場(chǎng)景的圖像時(shí)易失效。最近,基于深度學(xué)習(xí)的方法在基于事件的視頻重建任務(wù)中取得了顯著成果,為行人檢測(cè)和行人動(dòng)作識(shí)別[7]等工作做出貢獻(xiàn)。Rebecq等[8]提出了一種新穎的遞歸網(wǎng)絡(luò)(E2VID)用于從大量事件中重建視頻,這是一種直接處理事件的端到端網(wǎng)絡(luò)。Cadena等[9]提出了一種基于條件生成對(duì)抗網(wǎng)絡(luò)的重建方法,將事件流數(shù)據(jù)用不同的表達(dá)方式來生成不同的灰度圖像。由于僅當(dāng)像素的強(qiáng)度發(fā)生變化時(shí)才會(huì)異步生成事件,因此生成的事件體素柵格是稀疏張量,僅包含場(chǎng)景中變化部分的信息。這些體素柵格的稀疏性也非常不同。這使得神經(jīng)網(wǎng)絡(luò)很難適應(yīng)新的數(shù)據(jù),并導(dǎo)致包含模糊、低對(duì)比度或涂抹偽影的問題。同時(shí)這些算法有初始化時(shí)間,此過程需要20到30幀,且第一幀的質(zhì)量很差。

綜上所述,本文提出了一種基于Transformer殘差模塊的自監(jiān)督重建算法,將光流估計(jì)與事件重建結(jié)合共同訓(xùn)練學(xué)習(xí)實(shí)現(xiàn)自監(jiān)督重建。本文的創(chuàng)新在于使用聯(lián)合訓(xùn)練獲取高質(zhì)量的初始幀并提高對(duì)特征的長(zhǎng)期相關(guān)性學(xué)習(xí)能力,有效捕捉視頻上下幀的時(shí)空關(guān)聯(lián)特征。同時(shí)設(shè)計(jì)去噪預(yù)處理與亞像素上采樣操作模塊,抑制噪聲,減少信息損失,共同提高重建質(zhì)量。實(shí)驗(yàn)結(jié)果表明,在公開數(shù)據(jù)集上本文方法可以有效提高事件流的重建效果。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://theprogrammingfactory.com/resource/share/2000006206


作者信息:

王立喜1,劉云平1,湯琴琴2,李家豪1

(1.南京信息工程大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210016;

2.無錫學(xué)院 軌道交通學(xué)院, 江蘇 無錫 214015)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。