官术网_书友最值得收藏!

第6章 深度Q-network

在第5章中,大家已經熟悉了Bellman方程及其應用的實用方法價值迭代。這種方法能夠大大提高在FrozenLake環境中的收斂速度,這種方法很有效,但其適用性可以更廣嗎?在本章中,我們將把同樣的方法應用到更復雜的問題:Atari 2600平臺上的街機游戲,這是強化學習(RL)研究社區的實際基準。

為了應對這個新的、更具挑戰性的目標,在本章中,我們將:

  • 討論價值迭代方法的問題,并考慮其名為Q-learning的變體。
  • 將Q-learning應用于所謂的網格世界環境,稱為表格Q-learning
  • 結合神經網絡(Neural Network, NN)討論Q-learning。這個組合的名稱為深度Q-network(DQN)

在本章的最后,我們將重新實現V. Mnih等人在2013年發表的著名論文“Playing Atari with Deep Reinforcement Learning”中的DQN算法,該算法開啟了RL開發的新紀元。

主站蜘蛛池模板: 舞钢市| 五原县| 沁源县| 井冈山市| 宜城市| 名山县| 子长县| 乃东县| 肥乡县| 攀枝花市| 仪征市| 西宁市| 吉林省| 丰县| 台北市| 嫩江县| 太谷县| 中宁县| 修水县| 铁力市| 文登市| 东安县| 中西区| 顺平县| 宜宾市| 西充县| 通道| 淮南市| 新昌县| 西充县| 蒙自县| 深泽县| 平遥县| 金门县| 凤庆县| 松滋市| 霍城县| 新乡县| 清河县| 泉州市| 恩平市|