官术网_书友最值得收藏!

第8章 DQN擴展

自DeepMind于2015年發布了深度Q-network(Deep Q-network,DQN)模型的論文(https://deepmind.com/research/publications/playing-atari-deep-reinforcement-learning)以來,已經有許多對基礎架構的改進和調整被提出了,極大地提高了DeepMind的基礎DQN的收斂性、穩定性和采樣效率。本章我們會深入地研究其中一些思想。

非常方便的是,DeepMind在2017年10月發表了一篇名為“Rainbow: Combining Improvements in Deep Reinforcement Learning”的論文[1],其中介紹了DQN的七個最重要的改進。其中有些是在2015年發明的,還有些則是最近才發明的。在論文中,僅通過組合這七個方法,就在Atari游戲套件中取得了最先進的結果。本章將介紹所有這些方法,分析它們背后的理念,以及如何實現它們,并與基礎DQN進行性能比較。最后,組合所有的方法并校驗其性能。

之后將介紹的DQN擴展包括:

  • N步DQN:如何通過簡單展開Bellman方程來提升收斂速度和穩定性,以及為什么它不是最終方案。
  • Double DQN:如何處理DQN對動作價值評估過高的問題。
  • 噪聲網絡:如何通過增加網絡權重的噪聲來提升探索的效率。
  • 帶優先級的回放緩沖區:為什么對經驗進行均勻采樣不是訓練的最佳方法。
  • Dueling DQN:如何通過使網絡結構更接近正在解決的問題來加速收斂。
  • Categorical DQN:如何跳脫動作的單個期待價值,使用完整的分布。
主站蜘蛛池模板: 大冶市| 扎赉特旗| 弥渡县| 邓州市| 金川县| 兖州市| 莲花县| 怀仁县| 甘肃省| 云阳县| 安徽省| 淳化县| 正阳县| 宜都市| 甘泉县| 申扎县| 陈巴尔虎旗| 色达县| 芦山县| 万安县| 高淳县| 英超| 宝应县| 锡林郭勒盟| 庄河市| 高台县| 淳化县| 广南县| 清新县| 昭觉县| 年辖:市辖区| 松溪县| 台北县| 新绛县| 乌海市| 交城县| 保亭| 彭水| 蒲江县| 阳谷县| 盐津县|