《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 交通場(chǎng)景下基于深度強(qiáng)化學(xué)習(xí)的感知型路徑分配算法
交通場(chǎng)景下基于深度強(qiáng)化學(xué)習(xí)的感知型路徑分配算法
信息技術(shù)與網(wǎng)絡(luò)安全 6期
曹 歡
(中國(guó)科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥230026)
摘要: 路徑分配問(wèn)題是交通數(shù)字孿生系統(tǒng)的重要研究方向之一,其重點(diǎn)是綜合考量行駛需求的動(dòng)態(tài)變化以及路網(wǎng)信息的實(shí)時(shí)改變,實(shí)現(xiàn)高效合理的路徑規(guī)劃。現(xiàn)階段一些經(jīng)典的分配算法如粒子群、Dijkstra等算法及其優(yōu)化模型僅能達(dá)到全局靜態(tài)最優(yōu),忽略了現(xiàn)實(shí)交通中的復(fù)雜變化。而逐漸推出的各種深度學(xué)習(xí)算法雖能進(jìn)行全面的時(shí)空預(yù)測(cè),但受限于海量歷史數(shù)據(jù)的歸納分析以及較高的運(yùn)算成本,難以大規(guī)模應(yīng)用。鑒于此,提出了一種靜態(tài)分配算法與深度強(qiáng)化學(xué)習(xí)算法結(jié)合的感知型路徑分配算法,在行駛中依據(jù)實(shí)時(shí)路網(wǎng)信息和車(chē)輛當(dāng)前狀態(tài),實(shí)現(xiàn)全局路徑動(dòng)態(tài)再分配及更新,相關(guān)算法的精度和效率在仿真實(shí)驗(yàn)中得到驗(yàn)證。
中圖分類(lèi)號(hào): TP181
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2022.06.008
引用格式: 曹歡. 交通場(chǎng)景下基于深度強(qiáng)化學(xué)習(xí)的感知型路徑分配算法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2022,41(6):43-49.
Perceptual path allocation algorithm based on deep reinforcement learning in traffic scene
Cao Huan
(School of Information Science and Technology,University of Science and Technology of China,Hefei 230026,China)
Abstract: Path allocation problem is one of the important research directions of traffic digital twin system. Its focus is to comprehensively consider the dynamic changes of driving demand and the real-time changes of road network information, so as to realize efficient and reasonable path planning. At present, some classical allocation algorithms such as particle swarm optimization, Dijkstra and their optimization models can only achieve global static optimization, ignoring the complex changes in real traffic. Although various depth learning algorithms gradually introduced can carry out comprehensive spatio-temporal prediction, they are difficult to be applied on a large scale due to the inductive analysis of massive historical data and high operation cost. In view of this, this paper proposes a perceptual path allocation algorithm based on the combination of static allocation algorithm and deep reinforcement learning algorithm. During driving, the global path is dynamically redistributed and updated according to the real-time road network information and the current state of vehicles. The accuracy and efficiency of the proposed algorithm are verified in the simulation experiment.
Key words : path allocation;deep reinforcement learning;road network;traffic perception

0 引言

目前我國(guó)交通環(huán)境日益復(fù)雜,現(xiàn)有交通體系的服務(wù)能力難以滿(mǎn)足城市居民的出行期望,城市面臨日益嚴(yán)峻的交通管理挑戰(zhàn)。研究者們希望借助交通數(shù)字孿生技術(shù),通過(guò)數(shù)據(jù)驅(qū)動(dòng)、精準(zhǔn)建模,實(shí)現(xiàn)交通的模擬、預(yù)測(cè)診斷和優(yōu)化[1]。然而在交通仿真模擬層次,現(xiàn)有的路徑分配模塊不能反映出現(xiàn)實(shí)交通的多變狀況。在人-車(chē)-路的核心體系中,天氣氣候、交通管制、突發(fā)事故等影響因子將時(shí)刻影響駕駛員的判斷以及路網(wǎng)的狀態(tài)[2]。

在當(dāng)前的交通數(shù)字孿生系統(tǒng)中,現(xiàn)有的路徑分配方法主要分為兩類(lèi),第一類(lèi)為用于實(shí)現(xiàn)靜態(tài)全局路徑最優(yōu)的傳統(tǒng)算法,如經(jīng)典的蟻群算法、Floyd算法、A-Star、粒子群算法、Dijkstra及其改進(jìn)算法等,本質(zhì)為基于圖論中重要的最短路徑問(wèn)題所提出的各種方案,也即在一個(gè)加權(quán)有向圖中,按一定要求尋找一條權(quán)重總和最短的路徑[3]。如Xu[4]等基于二叉樹(shù)結(jié)構(gòu),通過(guò)雙向搜索方法加快搜索效率,作為A-Star改進(jìn)算法;Lee[5]等基于遺傳算法實(shí)現(xiàn)蟻群算法中的參數(shù)調(diào)節(jié)優(yōu)化。在路網(wǎng)信息發(fā)生變化時(shí),該類(lèi)算法難以做出及時(shí)反饋。如果需要滿(mǎn)足動(dòng)態(tài)路徑規(guī)劃的需求,則需要施加額外的更新優(yōu)化和重規(guī)劃?rùn)C(jī)制。第二類(lèi)指的是通過(guò)機(jī)器學(xué)習(xí)、時(shí)空神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)等技術(shù)來(lái)實(shí)現(xiàn)路徑分配。這一類(lèi)更加強(qiáng)調(diào)數(shù)據(jù)的搜集、分析和處理,通過(guò)提取海量歷史數(shù)據(jù)的價(jià)值信息,為解決路徑規(guī)劃問(wèn)題提供了一個(gè)新的思路[6]。

本文的中心工作是研究了一種基于傳統(tǒng)路徑算法與深度強(qiáng)化學(xué)習(xí)的感知型路徑分配算法,首先通過(guò)改進(jìn)版Dijkstra算法為所有車(chē)輛分配初始路徑,路網(wǎng)中的車(chē)輛在不斷感知當(dāng)前位置、行駛軌跡以及目標(biāo)路網(wǎng)中各路段的車(chē)流等信息后,通過(guò)DDQN(Double DQN)將自動(dòng)選擇是否重新進(jìn)行全局的路徑規(guī)劃,實(shí)現(xiàn)路徑更新。與現(xiàn)有的經(jīng)典路徑規(guī)劃方法相比,本文提出的規(guī)劃方案填補(bǔ)了傳統(tǒng)模型在路況變化下的泛化性、拓展性不足,優(yōu)化了深度學(xué)習(xí)型方法的資源損耗,同時(shí)基于強(qiáng)化學(xué)習(xí)模型在長(zhǎng)期收益方面的優(yōu)越性,本文模型更加滿(mǎn)足路徑分配模型對(duì)當(dāng)今城市路網(wǎng)交通出行的各種需求。




本文詳細(xì)內(nèi)容請(qǐng)下載http://theprogrammingfactory.com/resource/share/2000004534





作者信息:

曹  歡

(中國(guó)科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥230026)




微信圖片_20210517164139.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。