- 深度強化學習實踐(原書第2版)
- (俄)馬克西姆·拉潘
- 387字
- 2021-08-18 17:39:23
第4章 交叉熵方法
上一章介紹了PyTorch。本章將結束本書的第一部分,也將介紹一種強化學習(RL)方法:交叉熵。
盡管事實上諸如深度Q-network(Deep Q-network,DQN)或advantage actor-critic等方法更出名,用的人更多,但是交叉熵方法還是有它獨有的優點。首先,交叉熵方法很簡單,因此很容易使用。例如,它在PyTorch中的實現代碼少于100行。
其次,這個方法比較容易收斂。如果環境很簡單,沒有復雜且多樣的策略需要探索及學習,也不是片段很短又有很多獎勵,那么交叉熵方法通常都表現得很好。當然,很多實際問題都不在這個范圍,但有時確實存在這樣的問題。在這些場景下,交叉熵方法(單獨或作為較大系統的一部分)可能是最理想的選擇。
本章包含:
- 交叉熵方法的實踐部分。
- 交叉熵方法在兩個Gym環境(熟悉的CartPole和FrozenLake網格世界)的應用。
- 交叉熵方法的理論背景。本節是可選部分,但是如果想要更好地理解為什么這個方法能起作用,建議深入研究一下,閱讀它要求讀者有更多概率論和統計學的知識。