數據派THU - 【新書】分布式強化學習－鑽石舞台

來源：專知

本文附鏈接，建議閱讀5分鐘

本書為你系統介紹分布式強化學習。

本書分為三個部分。第一部分介紹了分布式強化學習的構建模塊。我們首先介紹了我們的基本研究對象，收益分布和分布Bellman方程(第二章)。第三章介紹了分類時間差分學習，一種簡單的學習收益分布的算法。在第三章結束時，讀者應該理解分布式強化學習的基本原則，並且應該能夠在簡單的實際設置中使用它。

第二部分是對分布式強化學習理論的發展。第4章介紹了一種用於測量返回分布之間距離的語言，以及與這些分布交互的操作符。第5章介紹了實現分布式強化學習所需的概率表示的概念;在此基礎上，研究了用這種表示來計算和近似收益分布的問題，並引入了分布動態規劃的框架。第6章研究了如何從樣本中以增量的方式學習返回分布，給出了類別時間差分學習的正式結構，以及其他算法，如分位數時間差異學習。第7章將這些思想擴展到最優決策的設置(也稱為控制設置)。最後，第8章介紹了基於統計泛函概念的分布強化學習的不同視角。在第二部分結束時，讀者應該理解在設計分布式強化學習算法時出現的挑戰，以及解決這些挑戰的可用工具。

第三部分和最後一部分為實際場景ios開發了分布式強化學習。第九章回顧了線性值函數逼近的原理，並將這些思想推廣到分布環境中。第10章討論了如何將分布方法與深度神經網絡相結合來獲得深度強化學習的算法，並提出了一個模型來研究這種結合所產生的現象。第11章討論了分布式強化學習在兩個進一步研究領域(多主體學習和神經科學)的新興應用，並得出結論。

https://www.distributional-rl.org/