官术网_书友最值得收藏!

4.5 交叉熵方法的理論背景

本節是可選的,適用于對該方法的原理感興趣的讀者。如果愿意,你可以參考有關交叉熵方法的原始論文(見本節末尾)。

交叉熵方法的基礎建立在重要性采樣定理上,該定理為:

095-03

在RL場景下,H(x)是某種x策略獲得的獎勵值,而p(x)是所有可能策略的概率分布。我們不想通過搜索所有可能的策略來最大化獎勵,相反,我們想找到一種通過q(x)來近似p(x)H(x)的方法,使它們之間的距離最小化。兩個概率分布之間的距離由Kullback-Leibler(KL)散度計算:

096-01

KL中的第一項稱為熵,它并不依賴于p2(x),所以可以在最小化的時候省略。第二項稱為交叉熵,它是深度學習中非常常見的優化目標。

將兩個公式組合起來,可以得到一個迭代算法,它從q0(x)=p(x)開始,每一步都在提升。這是用p(x)H(x)近似后的一次更新:

096-02

這是一種通用的交叉熵方法,在RL場景下可以大大地簡化。首先,將H(x)用一個指示函數替換,當片段的獎勵大于閾值時為1,否則為0。然后,策略更新就變成了這樣:

096-03

嚴格來說,前面的公式還少了歸一化項,但實際上即使沒有它也是有效的。所以這個方法十分明確:用當前的策略采樣片段(從一個隨機的初始策略開始),然后用成功的樣本和策略來最小化負對數似然。

Dirk P. Kroese寫了一本書專門介紹這個方法。該方法的簡短描述參見他的論文“Cross-Entropy Method”(https://people.smp.uq.edu.au/DirkKroese/ps/eormsCE.pdf)。

主站蜘蛛池模板: 绥滨县| 集贤县| 呼玛县| 伊川县| 鄢陵县| 刚察县| 治多县| 如东县| 长治县| 高陵县| 漳浦县| 龙里县| 洮南市| 科技| 沽源县| 富阳市| 德格县| 铁岭市| 贞丰县| 青岛市| 东辽县| 河津市| 古蔺县| 都匀市| 文水县| 大足县| 蒲江县| 云浮市| 巴马| 临颍县| 盘锦市| 古交市| 九龙县| 沁阳市| 社旗县| 盐源县| 莎车县| 霍林郭勒市| 临汾市| 长葛市| 永安市|