基于X-Linear和語義嵌入的視頻描述算法 | |
所屬分類:技術(shù)論文 | |
上傳者:zhoubin333 | |
文檔大?。?span>608 K | |
標(biāo)簽: 視頻描述 語義嵌入 X-Linear注意力 | |
所需積分:0分積分不夠怎么辦? | |
文檔介紹:注意力機(jī)制和視頻語義嵌入使得視頻描述任務(wù)取得了顯著的提升,為更好地利用時(shí)序動(dòng)態(tài)特征和語義信息,提出一種基于X-Linear的語義嵌入視頻描述算法(X-Linear Semantic Embedding Network,XLSNet)。該算法以基于編碼解碼器網(wǎng)絡(luò)為基礎(chǔ),使用X-Linear注意力模塊對視頻特征進(jìn)行編碼,該模塊使用雙線性池化來增加視頻時(shí)序特征的高階交互,最終提取豐富的時(shí)序動(dòng)態(tài)特征;為充分利用視頻語義信息,使用語義嵌入的GRU和X-Linear作為解碼器對視頻描述進(jìn)行生成。為防止過擬合現(xiàn)象,對解碼器的GRU使用了層歸一化和變分Dropout。所提出的算法僅僅使用了視頻幀特征,在公開視頻描述數(shù)據(jù)集MSVD上取得了很好的效果。 | |
現(xiàn)在下載 | |
VIP會員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計(jì)算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號-2