受疫情影響,人工智能頂級學(xué)術(shù)會議 NeurIPS 2020 將通過線上的形式進行。隨著會議召開時間臨近,該會議承辦的競賽也陸續(xù)揭曉結(jié)果。今年新增的電網(wǎng)調(diào)度競賽(Learning To Run a Power Network Challenge)共包含兩個賽道:魯棒能力賽道和泛化能力賽道,經(jīng)過三個月的激烈比拼,最終來自百度的 PARL 團隊拿下全部兩個賽道的冠軍。同時,這也是該團隊在 NeurIPS 上拿下的第三個強化學(xué)習(xí)賽事冠軍,實現(xiàn)三連冠的里程碑。
NeurIPS 2020 電網(wǎng)調(diào)度大賽主要是由 RTE(法國電網(wǎng)公司)、EPRI(美國電力研究協(xié)會)和 TenneT(德國 - 荷蘭電網(wǎng)公司)等能源企業(yè)聯(lián)合 INRIA(法國國家信息與自動化研究所)、谷歌研究、UCL 和卡塞爾大學(xué)等人工智能研究機構(gòu)共同舉辦。賽事共吸引了來自全球的上百支隊伍,參賽選手中有來自各個地區(qū)的人工智能研究機構(gòu),還有來自清華大學(xué)、國家電網(wǎng)北美研究院等機構(gòu)的電網(wǎng)領(lǐng)域?qū)<?。本次賽事的舉辦主旨是探索強化學(xué)習(xí)在能源調(diào)度領(lǐng)域的應(yīng)用,希望結(jié)合強化學(xué)習(xí)技術(shù)實現(xiàn)電網(wǎng)傳輸?shù)淖詣踊刂?,保障整個電網(wǎng)系統(tǒng)在各種突發(fā)狀況下都能穩(wěn)定運行。
PARL 開源倉庫地址:https://github.com/PaddlePaddle/PARL
競賽任務(wù)
電能是現(xiàn)代化的重要標志之一,與我們每個人的日常生活息息相關(guān)。電網(wǎng)在不同地區(qū),國家甚至大洲之間輸送電力,是配電的中堅力量,通過向工業(yè)和消費者提供可靠的電力來發(fā)揮重要的經(jīng)濟和社會作用。但由于受突發(fā)狀況、自然災(zāi)害和人為災(zāi)害等不確定性事件的影響,電網(wǎng)系統(tǒng)需要大量的監(jiān)控人員和電網(wǎng)專家,結(jié)合領(lǐng)域知識和歷史經(jīng)驗,針對不同突發(fā)場景進行干預(yù)和維護。根據(jù)主辦方發(fā)布的競賽白皮書,電網(wǎng)系統(tǒng)平均每運行一小時便需要實施人工干預(yù)操作,不然可能導(dǎo)致局部甚至整個城市的停電。電網(wǎng)調(diào)度競賽的目的便是探索 AI 在復(fù)雜的電網(wǎng)調(diào)度場景上的智能決策能力。
電網(wǎng)事故示例和電網(wǎng)控制室。
本次電網(wǎng)調(diào)度競賽的總體任務(wù)目標是維持整個電網(wǎng)仿真系統(tǒng)的供需平衡,并應(yīng)對各種突發(fā)事件。在電網(wǎng)仿真環(huán)境運行的每一個時刻,參賽選手需要根據(jù)觀測到的電網(wǎng)狀態(tài)(供電 / 用電數(shù)據(jù)、電網(wǎng)拓撲結(jié)構(gòu)和電線負載等信息),選擇合適的動作(包括變電站拓撲修改和發(fā)電廠發(fā)電功率修改等)來保持電網(wǎng)的穩(wěn)定運行。NeurIPS 2020 舉辦的電網(wǎng)調(diào)度賽事相比前兩屆的電網(wǎng)調(diào)度賽事具有更大的挑戰(zhàn)難度,不僅電網(wǎng)規(guī)模更大,動作空間也更復(fù)雜,而且根據(jù)電網(wǎng)的真實場景,分別設(shè)置了更具有現(xiàn)實意義的魯棒性(Robustness)和適應(yīng)性(Adaptability)兩個挑戰(zhàn)賽道。兩個賽道的設(shè)置分別如下:
Track 1(賽道一):采用中型電網(wǎng)(相當于三分之一的美國中西部電網(wǎng)),離散動作空間數(shù)量有 6 萬多個。該賽道中,每天電網(wǎng)的不同線路會因隨機的攻擊而斷開,以此模擬現(xiàn)實生活中電網(wǎng)系統(tǒng)受到不可預(yù)期的事故(例如被閃電擊中),對決策系統(tǒng)在各種突發(fā)事件下的魯棒性而言,是個很大的挑戰(zhàn)。
Track 2(賽道二):采用大型電網(wǎng)(相當于整個美國中西部電網(wǎng)),離散動作空間數(shù)量高達 7 萬多個。該賽道中,發(fā)電廠的可再生能源比例是動態(tài)變化的(比如風(fēng)能在夏季發(fā)電效率高,冬季則下降),為了保持整個電網(wǎng)的供需平衡,這個賽道對決策系統(tǒng)在不同能源比例下的自動適應(yīng)能力有很高的要求。
電網(wǎng)調(diào)度系列賽事。
競賽結(jié)果
從官方榜單中可以看到,百度 PARL 團隊拿下了兩個賽道的冠軍,在比賽階段的公榜以及評估階段的私榜上都名列第一,體現(xiàn)了強大的技術(shù)能力,以及針對實際場景的技術(shù)實用性。
百度 PARL 拿下電網(wǎng)調(diào)度大賽雙料冠軍。
冠軍方案:融合專家知識的大規(guī)模進化神經(jīng)網(wǎng)絡(luò)
在參賽過程中,百度 PARL 團隊注意到專家系統(tǒng)方案以及純強化學(xué)習(xí)方案很難解決這次的挑戰(zhàn)。傳統(tǒng)的專家系統(tǒng)解決方案主要是利用專家先驗知識進行候選動作的篩選,然后根據(jù)電網(wǎng)系統(tǒng)的預(yù)仿真(simulate)功能來評估不同動作給電網(wǎng)系統(tǒng)帶來的影響,這種方案需要有一定的專家經(jīng)驗,并且存在搜索耗時長和無法考慮長遠收益等缺點。純強化學(xué)習(xí)方案雖然可以考慮長遠收益,但在大規(guī)模電網(wǎng)調(diào)度場景中,動作空間復(fù)雜,電網(wǎng)系統(tǒng)運行過程中不確定性大,這個方案存在探索難度大和價值函數(shù)訓(xùn)練方差大等問題,很難在數(shù)萬個候選動作中直接選擇一個最優(yōu)動作。
百度 PARL 團隊提出了一種融合專家系統(tǒng)和強化學(xué)習(xí)兩者優(yōu)點的解決方案:融合專家知識的大規(guī)模進化神經(jīng)網(wǎng)絡(luò),該方案首先采用模仿學(xué)習(xí)(Imitation learning)來學(xué)習(xí)專家知識,得到一個用神經(jīng)網(wǎng)絡(luò)表示的策略之后,通過進化算法迭代這個策略。需要注意的是,一般強化學(xué)習(xí)算法是每次采樣一個動作然后根據(jù)反饋(reward)進行更新,在該方案的進化算法中,每次會采樣多個動作(動作組合)進行優(yōu)化。當選出動作組合之后,后續(xù)的策略依然可以拼接多種專家經(jīng)驗,選出更優(yōu)的動作。得益于進化算法的黑盒優(yōu)化特點,整個策略可以直接把電網(wǎng)平穩(wěn)運行時長作為反饋來更新策略。這個解決方案不僅可以克服強化學(xué)習(xí)選擇單一動作風(fēng)險高的問題,還可以考慮電網(wǎng)系統(tǒng)的長期獎勵,有利于尋找維持電網(wǎng)系統(tǒng)穩(wěn)定運行的最優(yōu)解。
大規(guī)模進化算法圖示。
在大規(guī)模進化訓(xùn)練過程中,百度利用 PARL 高性能并行框架同時在上千 CPU 上對近 500 萬參數(shù)的較大規(guī)模神經(jīng)網(wǎng)絡(luò)進行進化學(xué)習(xí)。在此過程中,需要先對網(wǎng)絡(luò)參數(shù)進行不同的高斯噪聲擾動,然后將擾動后網(wǎng)絡(luò)作為專家系統(tǒng)新的動作打分模型,分別和電網(wǎng)系統(tǒng)進行交互,并計算噪聲擾動后網(wǎng)絡(luò)相比原始網(wǎng)絡(luò)在電網(wǎng)系統(tǒng)中的平穩(wěn)運行時長增益,作為該采樣噪聲的獎勵;最后,整合不同噪聲方向的獎勵來決定下一輪網(wǎng)絡(luò)參數(shù)的進化方向。據(jù)悉,一個這樣的電網(wǎng)調(diào)度打分模型需要進行 60 萬個 episode 迭代, 合計總的電網(wǎng)模擬時長一萬多年,包含 10 億多步探索。而這些僅僅需要 10 個小時左右的時間就能完成。
奪冠背后:飛槳強化學(xué)習(xí)框架 PARL 加持
PARL 是基于百度飛槳深度學(xué)習(xí)平臺(PaddlePaddle)自主研發(fā)的強化學(xué)習(xí)框架,匯聚了百度多年來在強化學(xué)習(xí)領(lǐng)域的技術(shù)深耕和產(chǎn)品應(yīng)用經(jīng)驗。PARL 采用模塊式的編碼設(shè)計,已復(fù)現(xiàn)的算法覆蓋了包括 Multi-gent、Model-based、Evolution Strategy 和 Distributed RL 等不同方向的主流強化學(xué)習(xí)算法。除了強可擴展性和高質(zhì)量算法復(fù)現(xiàn),PARL 框架更提供了高性能且便捷靈活的并行支持能力。開發(fā)者只需要通過數(shù)行代碼和命令就能搭建起集群,并行調(diào)度資源,低成本地實現(xiàn)數(shù)百倍的性能加速。正是基于這樣的能力,PARL 團隊連續(xù)拿下了 NeurIPS 2018/2019 仿生人 Learning To Run 挑戰(zhàn)和 NeurIPS 2020 L2RPN 挑戰(zhàn)三連冠。
PARL 框架概覽。
據(jù)悉,PARL 框架已經(jīng)應(yīng)用在信息流推薦、智能打車、智能機器人等多個行業(yè)領(lǐng)域,也將致力于把強化學(xué)習(xí)運用在能源調(diào)度、供應(yīng)鏈和交通等更多場景,將強化學(xué)習(xí)獨有的決策能力賦予到各行各業(yè)。
開源鏈接:https://github.com/PaddlePaddle/PARL
競賽地址:https://l2rpn.chalearn.org/competitions