官术网_书友最值得收藏!

5.7 總結

恭喜你已經朝著理解現代、最新的RL方法又邁出了一步!本章介紹了RL中廣泛使用的一些非常重要的概念:狀態價值、動作價值以及各種形式的Bellman方程。

還介紹了價值迭代方法,它是Q-learning領域中非常重要的組成部分。最后,介紹了價值迭代如何提升FrozenLake解決方案。

下一章將探討深度Q-network,它于2013年在許多Atari 2600游戲中擊敗人類,從而開始了深度RL的革命。

主站蜘蛛池模板: 巧家县| 化州市| 广南县| 武安市| 城口县| 扬州市| 泸水县| 营口市| 康定县| 温宿县| 通城县| 昌图县| 财经| 宜州市| 舟曲县| 睢宁县| 祁连县| 武定县| 静乐县| 马关县| 同心县| 玉树县| 弥勒县| 凯里市| 兴隆县| 邢台县| 登封市| 长宁县| 奇台县| 绥滨县| 乌鲁木齐县| 望奎县| 彩票| 门头沟区| 永嘉县| 南漳县| 图木舒克市| 灌云县| 龙州县| 新乡县| 洛浦县|