官术网_书友最值得收藏!

2.2 馬爾可夫性質

現(xiàn)在我們介紹馬爾可夫決策過程的一個前提,即馬爾可夫性質,它用公式表示如下:

(2.1)

這個公式的意思就是在給定歷史狀態(tài)的情況下,某個狀態(tài)的未來只與當前狀態(tài)有關,與歷史狀態(tài)無關。這個性質對于很多問題來說有著非常重要的指導意義,因為這允許我們在沒有考慮系統(tǒng)完整歷史的情況下預測和控制其行為,隨著我們對強化學習的深入,我們會越來越明白這個性質的重要性。

實際中,有很多例子其實是不符合馬爾可夫性質的,比如我們所熟知的棋類游戲,因為我們在決策的過程中不僅需要考慮當前棋子的位置和對手的情況,還需要考慮歷史走子的位置等。換句話說,棋類游戲不僅依賴于當前狀態(tài),還依賴于歷史狀態(tài)。當然這并不意味著完全不能用強化學習來解決以上問題,實際上我們可以用深度神經(jīng)網(wǎng)絡來表示當前的棋局,并用蒙特卡羅搜索樹等技術來模擬玩家的策略和未來可能的狀態(tài),以構建新的決策模型,這就是著名的AlphaGo背后的算法[4]。總之,當我們要解決的問題不能嚴格符合馬爾可夫性質時,可以結合其他的方法來輔助強化學習進行決策。


[4] BABBAR S. Review-Mastering the game of Go with deep neural networks and tree search[J]. 2017. DOI:10. 13140/RG.2.2.18893.74727.

主站蜘蛛池模板: 宽城| 游戏| 托里县| 嵩明县| 安西县| 酒泉市| 丽江市| 红原县| 保康县| 衡东县| 本溪市| 轮台县| 陕西省| 湛江市| 贵溪市| 灵丘县| 威信县| 西丰县| 英吉沙县| 祁东县| 盱眙县| 平谷区| 从江县| 密山市| 泸州市| 额敏县| 渝北区| 彰武县| 上虞市| 长顺县| 左云县| 芦溪县| 红安县| 额敏县| 读书| 吉木萨尔县| 龙南县| 阳江市| 定结县| 阿克苏市| 卓尼县|