- 深度強化學習實踐(原書第2版)
- (俄)馬克西姆·拉潘
- 451字
- 2021-08-18 17:39:32
第8章 DQN擴展
自DeepMind于2015年發布了深度Q-network(Deep Q-network,DQN)模型的論文(https://deepmind.com/research/publications/playing-atari-deep-reinforcement-learning)以來,已經有許多對基礎架構的改進和調整被提出了,極大地提高了DeepMind的基礎DQN的收斂性、穩定性和采樣效率。本章我們會深入地研究其中一些思想。
非常方便的是,DeepMind在2017年10月發表了一篇名為“Rainbow: Combining Improvements in Deep Reinforcement Learning”的論文[1],其中介紹了DQN的七個最重要的改進。其中有些是在2015年發明的,還有些則是最近才發明的。在論文中,僅通過組合這七個方法,就在Atari游戲套件中取得了最先進的結果。本章將介紹所有這些方法,分析它們背后的理念,以及如何實現它們,并與基礎DQN進行性能比較。最后,組合所有的方法并校驗其性能。
之后將介紹的DQN擴展包括:
- N步DQN:如何通過簡單展開Bellman方程來提升收斂速度和穩定性,以及為什么它不是最終方案。
- Double DQN:如何處理DQN對動作價值評估過高的問題。
- 噪聲網絡:如何通過增加網絡權重的噪聲來提升探索的效率。
- 帶優先級的回放緩沖區:為什么對經驗進行均勻采樣不是訓練的最佳方法。
- Dueling DQN:如何通過使網絡結構更接近正在解決的問題來加速收斂。
- Categorical DQN:如何跳脫動作的單個期待價值,使用完整的分布。