- 深度強化學習實踐(原書第2版)
- (俄)馬克西姆·拉潘
- 156字
- 2021-08-18 17:39:27
5.7 總結
恭喜你已經朝著理解現代、最新的RL方法又邁出了一步!本章介紹了RL中廣泛使用的一些非常重要的概念:狀態價值、動作價值以及各種形式的Bellman方程。
還介紹了價值迭代方法,它是Q-learning領域中非常重要的組成部分。最后,介紹了價值迭代如何提升FrozenLake解決方案。
下一章將探討深度Q-network,它于2013年在許多Atari 2600游戲中擊敗人類,從而開始了深度RL的革命。