官术网_书友最值得收藏!

書名：深度強化學習實踐（原書第2版）
作者名： (俄)馬克西姆·拉潘
本章字數： 156字
更新時間： 2021-08-18 17:39:27

5.7　總結

恭喜你已經朝著理解現代、最新的RL方法又邁出了一步！本章介紹了RL中廣泛使用的一些非常重要的概念：狀態價值、動作價值以及各種形式的Bellman方程。

還介紹了價值迭代方法，它是Q-learning領域中非常重要的組成部分。最后，介紹了價值迭代如何提升FrozenLake解決方案。

下一章將探討深度Q-network，它于2013年在許多Atari 2600游戲中擊敗人類，從而開始了深度RL的革命。

主站蜘蛛池模板：巧家县| 化州市| 广南县| 武安市| 城口县| 扬州市| 泸水县| 营口市| 康定县| 温宿县| 通城县| 昌图县| 财经| 宜州市| 舟曲县| 睢宁县| 祁连县| 武定县| 静乐县| 马关县| 同心县| 玉树县| 弥勒县| 凯里市| 兴隆县| 邢台县| 登封市| 长宁县| 奇台县| 绥滨县| 乌鲁木齐县| 望奎县| 彩票| 门头沟区| 永嘉县| 南漳县| 图木舒克市| 灌云县| 龙州县| 新乡县| 洛浦县|