- 深度強化學習實踐(原書第2版)
- (俄)馬克西姆·拉潘
- 265字
- 2021-08-18 17:39:25
第5章 表格學習和Bellman方程
通過上一章,大家熟悉了第一個強化學習(RL)算法(交叉熵方法)以及它的優缺點。后面的部分將介紹另一組更加靈活且更實用的方法:Q-learning。本章將介紹這些方法共同需要的背景。
我們還將重新審視FrozenLake環境,探索新概念如何適用于此環境,并幫助我們解決其不確定性的問題。
本章將:
- 查看狀態的價值和動作的價值,并學習如何在簡單的情況下進行計算。
- 討論Bellman方程,以及在知道價值的情況下如何建立最佳策略。
- 討論價值迭代方法,然后在FrozenLake環境中進行嘗試。
- 對Q-learning方法做同樣的事情。
盡管本章中的環境很簡單,但它為功能更強大且更通用的深度Q-learning方法建立了必要的基礎。