- 深度強化學習實踐(原書第2版)
- (俄)馬克西姆·拉潘
- 270字
- 2021-08-18 17:39:30
6.6 總結
本章介紹了許多新的復雜的內容。介紹了在具有較大觀察空間的復雜環境中進行價值迭代的局限性,并且討論了如何通過Q-learning來克服它們。在FrozenLake環境中驗證了Q-learning算法,討論了用NN進行Q值的近似以及由此近似所帶來的額外復雜性。
還介紹了DQN改善其訓練穩定性和收斂性的幾種技巧,例如經驗回放緩沖區、目標網絡和幀堆疊。最后,將這些擴展組合到DQN的實現中,解決了Atari游戲中的Pong環境。
下一章將研究自2015年以來研究人員發現的一系列提高DQN收斂性和質量的技巧,這些技巧(組合)可以在54款(包括新增加的)Atari游戲中的大多數上產生很好的效果。該系列于2017年發布,我們將分析并重新實現所有技巧。