- 深度強化學習實踐(原書第2版)
- (俄)馬克西姆·拉潘
- 501字
- 2021-08-18 17:39:30
6.5 可以嘗試的事情
如果你感到好奇并想自己嘗試本章的內容,那么這里列出了一些可供探索的方向。不過請注意,它們可能會花費很多時間,并可能在進行實驗的過程中讓你感到沮喪。但是,從實操角度來看,這些實驗可以真正幫你掌握知識。
- 嘗試Atari系列中的其他游戲,例如Breakout、Atlantis或River Raid(我小時候最喜歡的游戲)。這可能需要調整超參數。
- 還有另一個表格環境可作為FrozenLake的替代,Taxi,它模擬需要接載乘客并將其帶到目的地的出租車司機。
- 使用Pong超參數。有可能訓練得更快嗎?OpenAI聲稱它可以利用asynchronous advantage actor-critic(A3C)方法(本書第三部分的主題)在30分鐘內解決Pong問題。DQN可能也可以做到。
- 可以使DQN訓練代碼更快嗎?OpenAI Baselines項目在GTX 1080 Ti上使用TensorFlow展示了350 FPS的速度。因此,似乎也可以優化PyTorch代碼。我們將在第8章中討論此主題,但與此同時,你也可以自己做實驗。
- 在視頻記錄中,你可能會注意到平均得分約為零的模型運行得很好。實際上,給人的印象是這些模型表現得要好于平均得分為10~19的模型。這可能是由于特定游戲過擬合導致的。你能解決這個問題嗎?也許有可能使用一種生成對抗網絡式方法來使一個模型與另一個模型對抗?
- 你能獲得平均得分為21的終極Pong支配者模型嗎?這應該不太難,使學習率下降就是一個明顯的方法。