官术网_书友最值得收藏!

第5章 表格學習和Bellman方程

通過上一章,大家熟悉了第一個強化學習(RL)算法(交叉熵方法)以及它的優缺點。后面的部分將介紹另一組更加靈活且更實用的方法:Q-learning。本章將介紹這些方法共同需要的背景。

我們還將重新審視FrozenLake環境,探索新概念如何適用于此環境,并幫助我們解決其不確定性的問題。

本章將:

  • 查看狀態的價值和動作的價值,并學習如何在簡單的情況下進行計算。
  • 討論Bellman方程,以及在知道價值的情況下如何建立最佳策略。
  • 討論價值迭代方法,然后在FrozenLake環境中進行嘗試。
  • 對Q-learning方法做同樣的事情。

盡管本章中的環境很簡單,但它為功能更強大且更通用的深度Q-learning方法建立了必要的基礎。

主站蜘蛛池模板: 离岛区| 固阳县| 五家渠市| 陇川县| 桓仁| 聂拉木县| 商洛市| 太康县| 盘锦市| 库伦旗| 四川省| 阆中市| 鄂托克前旗| 凤山县| 达拉特旗| 山阳县| 丹阳市| 唐山市| 会东县| 辉南县| 息烽县| 饶河县| 眉山市| 漾濞| 婺源县| 瑞丽市| 达尔| 奉贤区| 怀集县| 柳河县| 长治市| 封丘县| 伊宁县| 嘉义市| 紫云| 安达市| 郯城县| 桂阳县| 遂溪县| 仪陇县| 施秉县|