文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.06.008
引用格式: 楊尚彤,王子磊. 聯(lián)合隨機(jī)性策略的深度強(qiáng)化學(xué)習(xí)探索方法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(6):43-49.
0 引言
目前,強(qiáng)化學(xué)習(xí)(reinforcement learning)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)研究熱點(diǎn),已經(jīng)在序列決策問題中取得了巨大的進(jìn)步,廣泛應(yīng)用于游戲博弈[1]、機(jī)器人控制[2]、工業(yè)應(yīng)用[3]等領(lǐng)域。近年來,許多強(qiáng)化學(xué)習(xí)方法利用神經(jīng)網(wǎng)絡(luò)來提高其性能,于是有了一個(gè)新的研究領(lǐng)域,被稱為深度強(qiáng)化學(xué)習(xí)(Deep Reinfor-
cement Learning,DRL)[4]。但是強(qiáng)化學(xué)習(xí)仍然面臨一個(gè)主要的問題:探索利用困境(exploration-exploitation dilemma)。在智能體學(xué)習(xí)過程中,探索(exploration)意味著智能體嘗試之前沒有做過的動(dòng)作,有可能獲得更高的利益,而利用(exploitation)是指智能體根據(jù)之前的經(jīng)驗(yàn)選擇當(dāng)前最優(yōu)的動(dòng)作。目前,深度強(qiáng)化學(xué)習(xí)方法的研究主要集中在結(jié)合深度學(xué)習(xí)提高強(qiáng)化學(xué)習(xí)算法的泛化能力,如何有效地探索狀態(tài)空間仍然是一個(gè)關(guān)鍵的挑戰(zhàn)。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://theprogrammingfactory.com/resource/share/2000003599
作者信息:
楊尚彤,王子磊
(中國科學(xué)技術(shù)大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,安徽 合肥230027)