No.45
智源社區
強化學習組
強
化
學
習

研究
觀點
資源
活動
周刊訂閱
告訴大家一個好消息,《強化學習周刊》已經開啟「訂閱功能」,以後我們會向您自動推送最新版的《強化學習周刊》。訂閱方法:
方式1:掃描下面二維碼,進入《強化學習周刊》主頁,選擇「關注TA」。

方式2:點擊本文下方的「閱讀原文」,進入《強化學習周刊》Hub社區版,根據內附的詳細訂閱步驟,完成訂閱。





關於周刊
強化學習作為人工智能領域研究熱點之一,其研究進展與成果也引發了眾多關注。為幫助研究與工程人員了解該領域的相關進展和資訊,智源社區結合領域內容,撰寫為第45期《強化學習周刊》。本期周刊整理了強化學習領域相關的最新論文推薦,以饗諸位。
周刊採用社區協作的模式產生,歡迎感興趣的朋友們參與我們的工作,一起來推動強化學習社群的分享、學習和交流活動。可以掃描文末的二維碼加入強化學習社區群。
本期貢獻者:李明、劉青、小胖





論文推薦
強化學習近年來取得了令人矚目的成就,其應用於各個領域的研究也取得較大的進步,比如非策略強化學習、基於深度強化學習的供應鏈應用、多智能體強化學習相關的理論及其最新應用等。
本次推薦了14篇強化學習領域的相關論文,我們介紹了非策略強化學習高斯混合批評方法、 6GAN: 基於強化學習生成對抗網絡、逆強化學習的分層貝葉斯方法、SAAC:安全強化學習的對抗遊戲、COptiDICE:離線約束強化學習、CCLF:新穎的強化學習框架、自適應交通信號控制、非馬爾可夫決策過程中PAC強化學習及MARL在混合電廠的高效應用等。
標題:Revisiting Gaussian mixture critic in off-policy reinforcement learning: a sample-based approach(DeepMind:Bobak Shahriari, Abbas Abdolmaleki | 非策略強化學習中的高斯混合批評:基於樣本的方法)了解詳情
簡介:在許多具有挑戰性的控制任務中,使用分配策略評估的參與者批評算法經常被證明優於非分配算法。然而,這兩個智能體都依賴C51批評家進行價值評估。C51方法的主要缺點是,它需要事先了解策略可以達到的最小值和最大值,以及使用的箱子數量,這就固定了分布估計的分辨率。雖然DeepMind control任務套件利用了標準化的獎勵和事件長度,因此可以通過這些超參數的單一設置來解決整個套件,但情況往往並非如此。本文提出了消除這一要求的自然替代方案,即高斯混合,以及簡單的基於樣本的損失函數,用於在非政策制度下對其進行訓練。通過對其在廣泛的連續控制任務中的性能進行了經驗評估,並證明其消除了對這些分布超參數的需要,並在各種具有挑戰性的任務(例如,仿人、狗、四足動物和操縱器領域)中實現了最先進的性能。最後,在Acme智能體庫進行實現。
論文鏈接:https://arxiv.org/pdf/2204.10256.pdf
標題:6GAN: IPv6 Multi-Pattern Target Generation via Generative Adversarial Nets with Reinforcement Learning(中科院苟高鵬團隊 | 6GAN: IPv6多模式目標生成(通過強化學習生成對抗網絡))了解詳情
簡介:由於網絡速度和計算能力有限,全球 IPv6 掃描一直是研究人員面臨的挑戰。最近提出的目標生成算法,通過預測要掃描的候選集來克服 Internet 評估的問題。然而,IPv6 自定義地址配置出現了多種尋址模式,阻礙了算法推斷。廣泛的 IPv6 別名也可能誤導算法發現別名區域而不是有效的主機目標。本文介紹了 6GAN,一種使用生成對抗網絡 (GAN) 和強化學習構建的用於多模式目標生成的新型架構。6GAN 強制多個生成器使用多類鑑別器和別名檢測器進行訓練,以生成具有不同尋址模式類型的非別名活動目標。鑑別器和別名檢測器的獎勵有助於監督地址序列決策過程。經過對抗訓練,6GAN 的生成器對每個模式都保持了很強的模仿能力,6GAN 的判別器獲得了出色的模式判別能力,準確率為 0.966。實驗表明,該研究通過達到更高質量的候選集而優於最先進的目標生成算法。
論文鏈接:https://arxiv.org/pdf/2204.09839.pdf
標題:Deep Reinforcement Learning for a Two-Echelon Supply Chain with Seasonal Demand(米蘭比可卡大學:Francesco Stranieri |具有季節性需求的兩級供應鏈的深度強化學習)了解詳情
簡介:本文利用強化學習和深度學習的最新發展來解決供應鏈庫存管理問題,這是一個複雜的順序決策問題,包括確定在給定時間範圍內生產和運送到不同倉庫的最佳產品數量。給出了隨機兩級供應鏈環境的數學表達式,允許管理任意數量的倉庫和產品類型。此外,提出了一個與深度強化學習算法接口的開源庫,並將其公開用於解決庫存管理問題。通過對綜合生成的數據進行豐富的數值實驗,比較了最先進的深度強化學習算法所取得的性能。設計並實施了實驗計劃,包括供應鏈的不同結構、拓撲、需求、能力和成本。結果表明,PPO算法能夠很好地適應環境的不同特點。VPG算法幾乎總是收斂到局部最大值,即使它通常達到可接受的性能水平。數值實驗表明,深度強化學習的表現始終優於標準的庫存管理策略,如靜態(s,Q)-策略。因此,它可以被認為是解決隨機兩級供應鏈問題的一個實用而有效的選擇。
論文鏈接:https://arxiv.org/pdf/2204.09603.pdf
標題:A Hierarchical Bayesian Approach to Inverse Reinforcement Learning with Symbolic Reward Machines(波士頓大學:Weichao Zhou | 基於符號獎賞機制的逆強化學習的分層貝葉斯方法)了解詳情
簡介:在強化學習(RL)問題中,錯誤指定的獎勵會降低樣本效率並導致不期望的行為。本文提出了符號獎勵機制,用於在指定獎勵信號時結合高級任務知識。符號獎勵機通過允許轉換攜帶謂詞和符號獎勵輸出來擴充現有的獎勵機形式。這種形式很適合反向強化學習,其中的關鍵挑戰是確定一些專家演示中符號值的適當分配。其提出了一種分層貝葉斯方法來推斷最可能的分配,以便具體化的獎勵機制可以高精度地將專家演示的軌跡與其他軌跡區分開來。實驗結果表明,學習的獎勵機制可以顯著提高複雜RL任務的訓練效率,並在不同任務環境配置下具有良好的通用性。
論文鏈接:https://arxiv.org/pdf/2204.09772.pdf
標題:SAAC: Safe Reinforcement Learning as an Adversarial Game of Actor-Critics(斯坦福大學:Yannis Flet-Berliac | SAAC:安全強化學習作為演員-評論家的對抗遊戲)了解詳情
簡介:儘管強化學習(RL)對不確定性條件下的連續決策問題有效,但它仍然無法在風險或安全是約束約束的現實世界系統中蓬勃發展。本文將具有安全約束的RL問題描述為一個非零和博弈。雖然使用最大熵RL部署,但該公式會產生安全的對抗引導軟參與者批評框架,稱為SAAC。其對手的旨在打破安全約束,而RL智能體的目標是在對手的策略下最大化約束價值函數。對智能體價值函數的安全約束只表現為代理人和對手策略之間的排斥項。與先前方法不同,SAAC可以解決不同的安全標準,如安全勘探、均值-方差風險敏感性和類似CVaR的一致性風險敏感性。舉例說明了對手針對這些約束的設計。並在每一種變體中,展示了智能體除了學習解決任務之外,還將自己與對手的不安全行為區分開來。最後,對於具有挑戰性的連續控制任務,我研究表明了SAAC比風險規避分布RL和風險中性軟參與者批評算法收斂更快、效率更高,且在滿足安全約束方面的失敗次數更少。
論文鏈接:https://arxiv.org/pdf/2204.09424.pdf
標題:COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation(KAIST:Jongmin Lee &DeepMind:Cosmin Paduraru | COptiDICE:通過平穩分布校正估計的離線約束強化學習)了解詳情
簡介:本文考慮離線約束強化學習(RL)問題,其中智能體的目的是計算一個最大化預期收益的策略,同時滿足給定的成本約束,只從預先收集的數據集學習。這種問題設置在許多現實場景中都很有吸引力,在這些場景中,與環境的直接交互代價高昂或存在風險,並且由此產生的策略應符合安全約束。然而,由於非策略評估本身具有估計誤差,因此計算保證滿足離線RL設置中的成本約束的策略具有挑戰性。本文提出了一種離線約束的RL算法,該算法在平穩分布空間中優化策略。該算法COptiDICE在約束成本上界的同時,直接估計最優策略相對於收益的平穩分布修正,目的是產生一個成本保守的策略,以滿足實際約束。實驗結果表明,COptiDICE在約束滿足和收益最大化方面獲得了更好的策略,優於基線算法。
論文鏈接:https://arxiv.org/pdf/2204.08957.pdf
標題:CCLF: A Contrastive-Curiosity-Driven Learning Framework for Sample-Efficient Reinforcement Learning(阿里巴巴&南洋理工大學:Chenyu Sun | CCLF:一個對比好奇心驅動的強化學習框架)了解詳情
簡介:在強化學習(RL)中,直接從高維觀測中學習是一項挑戰,最近的研究表明,數據增強可以通過編碼原始像素的不變性來彌補這一點。然而從經驗上,並非所有樣本都同等重要,因此簡單地注入更多的增強輸入可能會導致Q學習的不穩定性。本文通過開發一個模型不可知的對比好奇心驅動學習框架(CCLF)系統地研究了這個問題,該框架可以充分利用樣本的重要性,並以自我監督的方式提高學習效率。CCLF能夠對體驗重放進行優先級排序,選擇信息量最大的增強輸入,更重要的是將Q函數和編碼器規範化,以便更專注於學習不足的數據。此外,它還鼓勵代理以好奇心為基礎進行探索。因此,智能體可以專注於更多信息樣本,並更有效地學習表示不變性,同時顯著減少了增強輸入。與其他最先進的方法相比,本文的方法展示了優越的樣本效率和學習性能。
論文鏈接:https://arxiv.org/pdf/2205.00943.pdf
標題:TinyLight: Adaptive Traffic Signal Control on Devices with Extremely Limited Resources(浙大:Dong Xing|TinyLight:資源極其有限的設備上的自適應交通信號控制)了解詳情
簡介:深度強化學習(DRL)的最新進展極大地提高了自適應交通信號控制(ATSC)的性能。然而,關於實現,大多數工作在存儲和計算方面都很麻煩。這阻礙了它們在資源有限的情況下的部署。在這項工作中,作者提出了TinyLight,其為首次基於DRL的ATSC模型,專為資源極其有限的設備設計。TinyLight首先構造一個超級圖,將一組豐富的候選特徵與一組加權較輕的網絡塊相關聯。然後,為了減少模型的資源消耗,使用一個新的熵最小化目標函數自動去除超級圖中的邊。這使得TinyLight能夠在一個只有2KB RAM和32KB ROM的獨立微控制器上工作。本文評估了TinyLight在多個道路網絡上的實際交通需求。實驗表明,即使資源極其有限,TinyLight仍能獲得具有競爭力的性能。
論文鏈接:https://arxiv.org/pdf/2205.00427.pdf
標題:ASE: Large-Scale Reusable Adversarial Skill Embeddings for Physically Simulated Characters(加州大學&NVIDIA:Xue Bin Peng | ASE:用於物理模擬角色的大規模可重用對抗性技能嵌入)了解詳情
簡介:通過多年的實踐和經驗,人類展示了令人難以置信的運動技能,這些技能不僅使人類能夠執行複雜的任務,還為指導他們學習新任務時的行為提供了強大的先驗知識。這與基於物理的角色動畫中的常見做法形成了鮮明對比,在基於物理的角色動畫中,控制策略通常是針對每個任務從頭開始訓練的。本文提出了大規模的數據驅動框架,用於學習物理模擬角色的通用和可重用的技能嵌入。並結合了來自對抗性模仿學習和無監督強化學習的技術,開發出能夠產生逼真行為的技能嵌入,同時還提供了易於控制的表示,用於新的下游任務。該模型可以使用非結構化運動剪輯的大型數據集進行訓練,而無需對運動數據進行任何特定於任務的注釋或分割。通過利用基於GPU的大規模並行模擬器,能夠使用超過十年的模擬經驗來培訓技能嵌入,使模型能夠學習到豐富且多功能的技能。
論文鏈接:https://arxiv.org/pdf/2205.01906.pdf
標題:Markov Abstractions for PAC Reinforcement Learning in Non-Markov Decision Processes(羅馬大學:Alessandro Ronca | 非馬爾可夫決策過程中PAC強化學習的馬爾可夫抽象)了解詳情
簡介:本文的工作旨在開發不依賴馬爾可夫假設的強化學習算法。其考慮一類非馬爾可夫決策過程,其中歷史可以抽象為一組有限的狀態,同時保持動態。作者稱之為馬爾可夫抽象,因為它在編碼非馬爾可夫動態的一組狀態上誘導了馬爾可夫決策過程。這種現象是最近引入的規則決策過程(以及只有有限個信念狀態可到達的POMDP)的基礎。在所有此類決策過程中,使用馬爾可夫抽象的代理可以依賴馬爾可夫屬性來實現最佳行為。本文證明了馬爾可夫抽象可以在強化學習中學習。對於這兩項任務,可以使用滿足某些基本要求的任何算法。作者證明了當所採用的算法具有PAC保證時,本文的方法具有PAC保證,並且還提供了一個實驗評估。
論文鏈接:https://arxiv.org/pdf/2205.01053.pdf
標題:Multi-agent deep reinforcement learning for efficient multi-timescale bidding of a hybrid power plant in day-ahead and real-time markets(UTFSM :Tomás Ochoa | 多智能體深度強化學習用於在日前和實時市場中對混合電廠進行高效的多時間尺度投標)了解詳情
簡介:本研究涉及通過提供能源和輔助服務 (AS) 產品參與多時間尺度電力市場的有效投標。能源管理系統 (EMS) 通過在日前和實時市場中有效投標,最大限度地提高工廠的利潤。EMS 的投標決策通常來自傳統的數學優化框架。然而,由於此問題多階段隨機程序,解決困難並且遭受維度災難的問題。並提出了新穎的多智能體深度強化學習 (MADRL) 框架,用於高效的多時間尺度投標。兩個基於具有循環層的多視圖人工神經網絡 (MVANN) 的智能體被調整以將環境觀察映射到動作。此類映射使用與電力市場產品、投標決策、太陽能發電、儲能和在兩個電力市場投標的時間表示相關的可用信息作為輸入。具有有限時間範圍的共享累積獎勵函數用於在學習階段同時調整兩個 MVANN 的權重。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0306261922004603#!
標題:Partial Consistency for Stabilizing Undiscounted Reinforcement Learning(清華大學:Haichuan Gao | 穩定無折扣強化學習的部分一致性)了解詳情
簡介:無折扣獎勵是強化學習(RL)中的一個重要設置,它表徵了許多現實問題。然而,優化無折扣獎勵往往會導致訓練不穩定。現有研究尚未深入分析這種不穩定問題的原因。本文從價值評估的角度對這一問題進行了分析。分析結果表明,這種不穩定性源於不一致選擇的動作引起的瞬態陷阱。然而,在同一個狀態選擇一個一致的行動會限制探索。為了平衡探索有效性和訓練穩定性,提出了一種新的採樣方法,稱為最後訪問採樣(LVS),以確保在相同狀態下一致地選擇部分動作。LVS方法將狀態動作值分解為兩部分,即最後一次訪問(LV)值和重新訪問值。分解確保LV值由一致選擇的動作確定。本文證明了LVS方法可以消除瞬態陷阱,同時保持最優性。
論文鏈接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9762369
標題:Fully Decentralized Multiagent Communication via Causal Inference(南京大學:Han Wang | 基於因果推理的完全分散多智能體通信)了解詳情
簡介:現實中的許多任務都可以轉化為多智能體(MA)強化學習問題,該領域的大多數算法都遵循集中學習和分散執行的框架。然而,在許多情況下,實施集中學習是不切實際的。因為它需要整合來自智能體的信息,而由於隱私問題,智能體可能不希望共享本地信息。因此,本文提出了一種新的方法,通過強化學習實現基於多個智能體之間通信的完全分散學習。得益於因果關係分析,智能體會選擇對他人交流信息影響最大的反事實。本文發現,這種方法可以應用於經典或複雜的MA場景,以及目前備受關注的聯合學習領域。
論文鏈接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9761961
標題:Multistep Multiagent Reinforcement Learning for Optimal Energy Schedule Strategy of Charging Stations in Smart Grid(西安交大:Yang Zhang | 多步多智能體強化學習用於智能電網充電站最優能量調度策略)了解詳情
簡介:充電站的高效能源調度策略對於穩定電力市場和滿足電動汽車(EV)的充電需求至關重要。現有的能源調度策略研究大多未能協調能源採購和分配過程,從而無法平衡能源供需。此外,在複雜場景中存在多個充電站,難以為不同的充電站制定統一的調度策略。本文提出了一種多智能體強化學習(MARL)方法來學習最優能源購買策略和一種在線啟發式調度方案來制定能源分配策略。不同於傳統的調度方式,兩種提議的策略在時間和空間維度上相互協調,以制定充電站統一的能源調度策略。具體來說,所提出的 MARL 方法結合了用於學習購買策略的多智能體深度確定性策略梯度 (MADDPG) 原理和用於預測電動汽車充電需求的長短期記憶 (LSTM) 神經網絡。此外,開發了多步獎勵功能以加速學習過程。
論文鏈接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9764664&tag=1





資源推薦
標題:加州大學河濱分校:Yuanqi Gao | 基於強化學習的 Volt-VAR 控制數據集和測試環境了解詳情
簡介:為了促進基於強化學習 (RL) 的配電系統 Volt-VAR 控制 (VVC) 的開發,本文介紹了一套用於基於 RL 的 VVC 算法研究的開源數據集,該數據集具有樣本效率、安全性和魯棒性。其由兩部分組成:1. 用於 IEEE-13、123 和 8500 總線測試饋線的類似 Gym 的 VVC 測試環境;2. 每個饋線的歷史運行數據集。數據集和測試環境的潛在用戶可以首先在歷史數據集上訓練一個樣本高效的離線(批量)RL 算法,然後評估訓練後的 RL 代理在測試環境中的性能。該數據集可作為一個有用的試驗平台,用於模擬電力公司面臨的實際運營挑戰,開展基於RL的VVC研究。同時,它允許研究人員在不同算法之間進行公平的性能比較。
論文鏈接:
https://arxiv.org/pdf/2204.09500.pdf
數據集鏈接:
https://github.com/yg-smile/rl_vvc_dataset

如果你正在從事或關注 強化學習研究、實現與應用,歡迎加入「智源社區-強化學習-交流群」。在這裡,你可以:
學習前沿知識、求解疑難困惑
分享經驗心得、展示風貌才華
參與專屬活動、結識研究夥伴
掃描下方二維碼,加入強化學習興趣群。
