官术网_书友最值得收藏!

6.6 總結

本章介紹了許多新的復雜的內容。介紹了在具有較大觀察空間的復雜環境中進行價值迭代的局限性,并且討論了如何通過Q-learning來克服它們。在FrozenLake環境中驗證了Q-learning算法,討論了用NN進行Q值的近似以及由此近似所帶來的額外復雜性。

還介紹了DQN改善其訓練穩定性和收斂性的幾種技巧,例如經驗回放緩沖區、目標網絡和幀堆疊。最后,將這些擴展組合到DQN的實現中,解決了Atari游戲中的Pong環境。

下一章將研究自2015年以來研究人員發現的一系列提高DQN收斂性和質量的技巧,這些技巧(組合)可以在54款(包括新增加的)Atari游戲中的大多數上產生很好的效果。該系列于2017年發布,我們將分析并重新實現所有技巧。

主站蜘蛛池模板: 喀什市| 枞阳县| 绥江县| 庄河市| 略阳县| 利辛县| 辛集市| 平罗县| 桐梓县| 峡江县| 邢台市| 江油市| 额尔古纳市| 常熟市| 普安县| 渭源县| 筠连县| 南涧| 沂南县| 鹤庆县| 商都县| 祁门县| 濮阳市| 合阳县| 梓潼县| 汉川市| 开阳县| 平舆县| 海丰县| 桂平市| 沙坪坝区| 读书| 根河市| 汽车| 大英县| 肇州县| 海安县| 定州市| 鄢陵县| 漾濞| 闽侯县|