《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 設(shè)計(jì)應(yīng)用 > 基于YOLOX融合自注意力機(jī)制的FSA-FPN重構(gòu)方法
基于YOLOX融合自注意力機(jī)制的FSA-FPN重構(gòu)方法
電子技術(shù)應(yīng)用 2023年3期
安鶴男1,管聰2,鄧武才1,楊佳洲2,馬超2
(1.深圳大學(xué) 電子與信息工程學(xué)院,廣東 深圳 518000;2.深圳大學(xué) 微納光電子學(xué)研究院,廣東 深圳 518000)
摘要: 隨著目前目標(biāo)檢測(cè)任務(wù)輸入圖像分辨率的不斷增大,在特征提取網(wǎng)絡(luò)的感受野不變的情況下,網(wǎng)絡(luò)提取的特征信息會(huì)越來(lái)越局限,相鄰特征點(diǎn)之間的信息重合度也會(huì)越來(lái)越高。提出一種FSA(Fusion Self-Attention)-FPN,設(shè)計(jì)SAU(Self-Attention Upsample)模塊,SAU內(nèi)部結(jié)構(gòu)通過(guò)CNN與自注意力機(jī)制(Self-Attention)進(jìn)行交叉計(jì)算以進(jìn)一步進(jìn)行特征融合,并通過(guò)重構(gòu)FCU(Feature Coupling Unit)消除二者之間的特征錯(cuò)位,彌補(bǔ)語(yǔ)義差距。以YOLOX-Darknet53為主干網(wǎng)絡(luò),在Pascal VOC2007數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,對(duì)比原網(wǎng)絡(luò)的FPN,替換FSA-FPN后的平均精度值mAP@[.5:.95]提升了1.5%,預(yù)測(cè)框的位置也更為精準(zhǔn),在需要更高精度的檢測(cè)場(chǎng)景下有更為出色的使用價(jià)值。
中圖分類(lèi)號(hào):TP391.4 文獻(xiàn)標(biāo)志碼:A DOI: 10.16157/j.issn.0258-7998.223139
中文引用格式: 安鶴男,管聰,鄧武才,等. 基于YOLOX融合自注意力機(jī)制的FSA-FPN重構(gòu)方法[J]. 電子技術(shù)應(yīng)用,2023,49(3):61-66.
英文引用格式: An Henan,Guan Cong,Deng Wucai,et al. FSA-FPN reconstruction method that fused self-attention mechanism based on YOLOX[J]. Application of Electronic Technique,2023,49(3):61-66.
FSA-FPN reconstruction method that fused self-attention mechanism based on YOLOX
An Henan1,Guan Cong2,Deng Wucai1,Yang Jiazhou2,Ma Chao2
(1.College of Electronics and Information Engineering,Shenzhen University,Shenzhen 518000,China; 2.Institute of Microscale Optoelectronics,Shenzhen University,Shenzhen 518000,China)
Abstract: Abstract: With the increasing resolution of the input image of the current target detection task,the feature information extracted from the feature extraction network will become more and more limited under the condition that the receptive field of the feature extraction network remains unchanged,and the information coincidence degree between adjacent feature points will also become higher and higher.This paper proposes an FSA(fusion self-attention)-FPN,and designs SAU(self-attention upsample) module.The internal structure of SAU performs cross calculation with self-attention mechanism and CNN to further Feature fusion,and reconstructs FCU(feature coupling unit) to eliminate feature dislocation between them and bridge semantic gap. In this paper,a comparative experiment is carried out on Pascal VOC2007 data set using YOLOX-Darknet 53 as the main dry network. The experimental results show that compared with the FPN of the original network,the average accuracy of MAP@ [.5:.95] after replacing FSA-FPN is improved by 1.5%,and the position of the prediction box is also more accurate.It has better application value in detection scenarios requiring higher accuracy.
Key words : FSA-feature pyramid networks;feature fusion;SAU;self-attention mechanism

0 引言

目標(biāo)檢測(cè)是致力于解決確定圖像中所需物體類(lèi)別并標(biāo)識(shí)出物體具體位置的一類(lèi)任務(wù)。自從以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)為代表的深度學(xué)習(xí)技術(shù)在多個(gè)領(lǐng)域取得突破性成功后,基于CNN的目標(biāo)檢測(cè)方法也憑著卷積運(yùn)算的特性做到對(duì)圖像特征信息的深層次提取,從而達(dá)到較為優(yōu)秀的檢測(cè)性能。目前主流目標(biāo)檢測(cè)任務(wù)大多還是分為兩類(lèi),分別是以Faster-RCNN[1]為代表的雙階段檢測(cè)與以YOLO和SSD為代表的單階段檢測(cè)算法,它們都以CNN作為特征提取核心。FPN(Feature Pyramid Network)是自頂向下的一種特征融合方式,通過(guò)將不同尺寸的特征信息進(jìn)行融合,對(duì)不同尺寸的物體檢測(cè)均有較為出色的適應(yīng)性。整體來(lái)說(shuō),CNN受制于其卷積層的大小,感受野有限,所以更多地是對(duì)局部特征的提取。

Transformer開(kāi)創(chuàng)了自注意力機(jī)制(Self-attention)的先河,在全局特征的提取上有著CNN無(wú)法比擬的優(yōu)勢(shì)。而現(xiàn)在的目標(biāo)檢測(cè)算法大部分還是以CNN為主要特征提取手段,雖然也有以ViT、Swin-Transformer等以Self-attention為特征提取核心的目標(biāo)檢測(cè)算法,但是其計(jì)算量巨大,且實(shí)際落地受到硬件設(shè)施、計(jì)算資源的限制,通用性不如Faster-RCNN和YOLOv3、SSD等以CNN為特征提取核心的目標(biāo)檢測(cè)算法。

本文對(duì)Conformer提出的一種CNN分支與Transformer分支互相彌補(bǔ)語(yǔ)義差距、 消除特征錯(cuò)位的方法做出改進(jìn),并結(jié)合Darknet-53的結(jié)構(gòu),在其FPN的特征融合過(guò)程中引入自注意力機(jī)制,設(shè)計(jì)了SAU(Self-Attention Upsample)模塊,通過(guò)對(duì)特征圖進(jìn)行重新編碼以對(duì)齊自注意力輸入的特征維度,同時(shí)設(shè)計(jì)多次的自注意力計(jì)算與上下層之間的聯(lián)動(dòng)結(jié)合,提出的FSA-FPN在融合不同尺寸物體的特征時(shí)同時(shí)也注重了自身全局信息的特征提取以提升其整體檢測(cè)效果,在需要更高精度的檢測(cè)場(chǎng)景下有更大的使用價(jià)值。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://theprogrammingfactory.com/resource/share/2000005230




作者信息:

安鶴男1,管聰2,鄧武才1,楊佳洲2,馬超2

(1.深圳大學(xué) 電子與信息工程學(xué)院,廣東 深圳 518000;2.深圳大學(xué) 微納光電子學(xué)研究院,廣東 深圳 518000)



微信圖片_20210517164139.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。