文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2022.06.008
引用格式: 曹歡. 交通場(chǎng)景下基于深度強(qiáng)化學(xué)習(xí)的感知型路徑分配算法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2022,41(6):43-49.
0 引言
目前我國(guó)交通環(huán)境日益復(fù)雜,現(xiàn)有交通體系的服務(wù)能力難以滿(mǎn)足城市居民的出行期望,城市面臨日益嚴(yán)峻的交通管理挑戰(zhàn)。研究者們希望借助交通數(shù)字孿生技術(shù),通過(guò)數(shù)據(jù)驅(qū)動(dòng)、精準(zhǔn)建模,實(shí)現(xiàn)交通的模擬、預(yù)測(cè)診斷和優(yōu)化[1]。然而在交通仿真模擬層次,現(xiàn)有的路徑分配模塊不能反映出現(xiàn)實(shí)交通的多變狀況。在人-車(chē)-路的核心體系中,天氣氣候、交通管制、突發(fā)事故等影響因子將時(shí)刻影響駕駛員的判斷以及路網(wǎng)的狀態(tài)[2]。
在當(dāng)前的交通數(shù)字孿生系統(tǒng)中,現(xiàn)有的路徑分配方法主要分為兩類(lèi),第一類(lèi)為用于實(shí)現(xiàn)靜態(tài)全局路徑最優(yōu)的傳統(tǒng)算法,如經(jīng)典的蟻群算法、Floyd算法、A-Star、粒子群算法、Dijkstra及其改進(jìn)算法等,本質(zhì)為基于圖論中重要的最短路徑問(wèn)題所提出的各種方案,也即在一個(gè)加權(quán)有向圖中,按一定要求尋找一條權(quán)重總和最短的路徑[3]。如Xu[4]等基于二叉樹(shù)結(jié)構(gòu),通過(guò)雙向搜索方法加快搜索效率,作為A-Star改進(jìn)算法;Lee[5]等基于遺傳算法實(shí)現(xiàn)蟻群算法中的參數(shù)調(diào)節(jié)優(yōu)化。在路網(wǎng)信息發(fā)生變化時(shí),該類(lèi)算法難以做出及時(shí)反饋。如果需要滿(mǎn)足動(dòng)態(tài)路徑規(guī)劃的需求,則需要施加額外的更新優(yōu)化和重規(guī)劃?rùn)C(jī)制。第二類(lèi)指的是通過(guò)機(jī)器學(xué)習(xí)、時(shí)空神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)等技術(shù)來(lái)實(shí)現(xiàn)路徑分配。這一類(lèi)更加強(qiáng)調(diào)數(shù)據(jù)的搜集、分析和處理,通過(guò)提取海量歷史數(shù)據(jù)的價(jià)值信息,為解決路徑規(guī)劃問(wèn)題提供了一個(gè)新的思路[6]。
本文的中心工作是研究了一種基于傳統(tǒng)路徑算法與深度強(qiáng)化學(xué)習(xí)的感知型路徑分配算法,首先通過(guò)改進(jìn)版Dijkstra算法為所有車(chē)輛分配初始路徑,路網(wǎng)中的車(chē)輛在不斷感知當(dāng)前位置、行駛軌跡以及目標(biāo)路網(wǎng)中各路段的車(chē)流等信息后,通過(guò)DDQN(Double DQN)將自動(dòng)選擇是否重新進(jìn)行全局的路徑規(guī)劃,實(shí)現(xiàn)路徑更新。與現(xiàn)有的經(jīng)典路徑規(guī)劃方法相比,本文提出的規(guī)劃方案填補(bǔ)了傳統(tǒng)模型在路況變化下的泛化性、拓展性不足,優(yōu)化了深度學(xué)習(xí)型方法的資源損耗,同時(shí)基于強(qiáng)化學(xué)習(xí)模型在長(zhǎng)期收益方面的優(yōu)越性,本文模型更加滿(mǎn)足路徑分配模型對(duì)當(dāng)今城市路網(wǎng)交通出行的各種需求。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://theprogrammingfactory.com/resource/share/2000004534
作者信息:
曹 歡
(中國(guó)科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥230026)