官术网_书友最值得收藏!

<td id="ng2yr"></td>

書名：深度強化學習實踐（原書第2版）
作者名： (俄)馬克西姆·拉潘
本章字數： 387字
更新時間： 2021-08-18 17:39:23

第4章　交叉熵方法

上一章介紹了PyTorch。本章將結束本書的第一部分，也將介紹一種強化學習（RL）方法：交叉熵。

盡管事實上諸如深度Q-network（Deep Q-network，DQN）或advantage actor-critic等方法更出名，用的人更多，但是交叉熵方法還是有它獨有的優點。首先，交叉熵方法很簡單，因此很容易使用。例如，它在PyTorch中的實現代碼少于100行。

其次，這個方法比較容易收斂。如果環境很簡單，沒有復雜且多樣的策略需要探索及學習，也不是片段很短又有很多獎勵，那么交叉熵方法通常都表現得很好。當然，很多實際問題都不在這個范圍，但有時確實存在這樣的問題。在這些場景下，交叉熵方法（單獨或作為較大系統的一部分）可能是最理想的選擇。

本章包含：

交叉熵方法的實踐部分。
交叉熵方法在兩個Gym環境（熟悉的CartPole和FrozenLake網格世界）的應用。
交叉熵方法的理論背景。本節是可選部分，但是如果想要更好地理解為什么這個方法能起作用，建議深入研究一下，閱讀它要求讀者有更多概率論和統計學的知識。

主站蜘蛛池模板：西乡县| 兖州市| 罗甸县| 灯塔市| 津南区| 吉木萨尔县| 泊头市| 新闻| 西青区| 额济纳旗| 扬州市| 朝阳县| 桓仁| 大渡口区| 象山县| 桑植县| 铁力市| 桑植县| 古浪县| 濉溪县| 雅安市| 盘锦市| 盖州市| 壶关县| 西乌珠穆沁旗| 乌兰浩特市| 福建省| 濮阳县| 贵港市| 富蕴县| 珲春市| 长沙县| 建水县| 民乐县| 沅陵县| 徐州市| 天镇县| 合水县| 开江县| 梁山县| 威宁|

<tt id="lapkv"></tt>

<del id="lapkv"></del>