文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2097-1788.2023.02.011
引用格式: 何嘯林,吳麗君. 基于三維時(shí)空注意的密集連接視頻超分算法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2023,42(2):70-75.
0 引言
視頻超分辨(Video Super-Resolution,VSR)算法是一項(xiàng)具有挑戰(zhàn)性的課題,倍受人們的關(guān)注。相較于單圖像的超分辨率重建,視頻超分辨率重建可以利用幀之間的相關(guān)性和連續(xù)幀間的時(shí)間信息。視頻超分的目標(biāo)是在相鄰的低分辨率幀(Low Resolution,LR)的幫助下,重建出高分辨率幀(High Resolution,HR)。早期的研究[1-3]將視頻超分視為圖像重建的簡(jiǎn)單擴(kuò)展,并沒(méi)有考慮到物體運(yùn)動(dòng),性能較差。對(duì)此,人們開始研究一些顯式運(yùn)動(dòng)補(bǔ)償?shù)姆椒?,最為廣泛的是使用光流來(lái)估計(jì)幀之間的運(yùn)動(dòng)并執(zhí)行變形。然而,對(duì)光流進(jìn)行準(zhǔn)確的預(yù)測(cè)是比較困難的,尤其是在存在遮擋或大運(yùn)動(dòng)時(shí),當(dāng)對(duì)光流量的不準(zhǔn)確預(yù)測(cè)時(shí)可能會(huì)引入偽影[4]。為了解決這個(gè)問(wèn)題,研究人員開始研究隱式運(yùn)動(dòng)補(bǔ)償方法。在隱式補(bǔ)償方法中,可變形卷積較為常用[5]。時(shí)序可變形對(duì)齊視頻超分網(wǎng)絡(luò)(Temporally Deformable Alignment Network,TDAN)[4]首次將可變形卷積引入視頻超分任務(wù)中;增強(qiáng)型可變形卷積視頻超分網(wǎng)絡(luò)(Video Restoration with Enhanced Deformable Convolutional Networks,EDVR)[6]將跨幀信息與可變形網(wǎng)絡(luò)和注意力機(jī)制融合在一起。相比光流法,可變形卷積的方法解決了偽影問(wèn)題,但注意力機(jī)制的設(shè)計(jì)仍有改進(jìn)空間。對(duì)于連續(xù)幀的視頻任務(wù),視頻的序列信息是至關(guān)重要的。由于在時(shí)間注意力模塊中僅僅采用二維卷積,無(wú)法提取時(shí)間序列維度的信息,以往方法中的時(shí)空注意力模塊僅僅只是在兩幀之間進(jìn)行自注意力加權(quán)。
本文設(shè)計(jì)了一種具有三維空間順序注意機(jī)制的密集可變形視頻超分辨率重建網(wǎng)絡(luò)。在視頻幀對(duì)齊模塊之后引入空間時(shí)序注意力模塊,利用三維卷積操作來(lái)捕獲幀間序列信息。在超分任務(wù)中,引入空間注意力中金字塔結(jié)構(gòu)使得網(wǎng)絡(luò)能夠獲得更大的感受野,但也帶來(lái)了冗余參數(shù)。本文通過(guò)幾個(gè)卷積層和池化層的組合來(lái)重新設(shè)計(jì)空間注意模塊,利用更少的參數(shù)保持一個(gè)大的感受野。此外,為了在特征重建階段充分利用分層特征,設(shè)計(jì)了一個(gè)由密集連接和殘差組成的密集連接重建模塊。
綜上所述,本文設(shè)計(jì)了一種三維空間時(shí)序注意力機(jī)制。應(yīng)用三維卷積來(lái)獲取時(shí)間注意模塊中的幀間序列信息。在空間注意力模塊中,修改卷積的步長(zhǎng),使用卷積組結(jié)合池化來(lái)實(shí)現(xiàn)輕量化。同時(shí)設(shè)計(jì)密集連接重建模塊,通過(guò)密集連接充分利用分層特征信息,更好地完成特征重建。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://theprogrammingfactory.com/resource/share/2000005216
作者信息:
何嘯林,吳麗君
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州350116)