官术网_书友最值得收藏!

第4章 交叉熵方法

上一章介紹了PyTorch。本章將結束本書的第一部分,也將介紹一種強化學習(RL)方法:交叉熵。

盡管事實上諸如深度Q-network(Deep Q-network,DQN)或advantage actor-critic等方法更出名,用的人更多,但是交叉熵方法還是有它獨有的優點。首先,交叉熵方法很簡單,因此很容易使用。例如,它在PyTorch中的實現代碼少于100行。

其次,這個方法比較容易收斂。如果環境很簡單,沒有復雜且多樣的策略需要探索及學習,也不是片段很短又有很多獎勵,那么交叉熵方法通常都表現得很好。當然,很多實際問題都不在這個范圍,但有時確實存在這樣的問題。在這些場景下,交叉熵方法(單獨或作為較大系統的一部分)可能是最理想的選擇。

本章包含:

  • 交叉熵方法的實踐部分。
  • 交叉熵方法在兩個Gym環境(熟悉的CartPole和FrozenLake網格世界)的應用。
  • 交叉熵方法的理論背景。本節是可選部分,但是如果想要更好地理解為什么這個方法能起作用,建議深入研究一下,閱讀它要求讀者有更多概率論和統計學的知識。
主站蜘蛛池模板: 西乡县| 兖州市| 罗甸县| 灯塔市| 津南区| 吉木萨尔县| 泊头市| 新闻| 西青区| 额济纳旗| 扬州市| 朝阳县| 桓仁| 大渡口区| 象山县| 桑植县| 铁力市| 桑植县| 古浪县| 濉溪县| 雅安市| 盘锦市| 盖州市| 壶关县| 西乌珠穆沁旗| 乌兰浩特市| 福建省| 濮阳县| 贵港市| 富蕴县| 珲春市| 长沙县| 建水县| 民乐县| 沅陵县| 徐州市| 天镇县| 合水县| 开江县| 梁山县| 威宁|