- 深度強化學習實踐(原書第2版)
- (俄)馬克西姆·拉潘
- 287字
- 2021-08-18 17:39:28
第6章 深度Q-network
在第5章中,大家已經熟悉了Bellman方程及其應用的實用方法價值迭代。這種方法能夠大大提高在FrozenLake環境中的收斂速度,這種方法很有效,但其適用性可以更廣嗎?在本章中,我們將把同樣的方法應用到更復雜的問題:Atari 2600平臺上的街機游戲,這是強化學習(RL)研究社區的實際基準。
為了應對這個新的、更具挑戰性的目標,在本章中,我們將:
- 討論價值迭代方法的問題,并考慮其名為Q-learning的變體。
- 將Q-learning應用于所謂的網格世界環境,稱為表格Q-learning。
- 結合神經網絡(Neural Network, NN)討論Q-learning。這個組合的名稱為深度Q-network(DQN)。
在本章的最后,我們將重新實現V. Mnih等人在2013年發表的著名論文“Playing Atari with Deep Reinforcement Learning”中的DQN算法,該算法開啟了RL開發的新紀元。