- Joy RL:強化學習實踐教程
- 江季 王琦 楊毅遠
- 450字
- 2025-05-19 16:15:11
2.2 馬爾可夫性質
現(xiàn)在我們介紹馬爾可夫決策過程的一個前提,即馬爾可夫性質,它用公式表示如下:

(2.1)
這個公式的意思就是在給定歷史狀態(tài)的情況下,某個狀態(tài)的未來只與當前狀態(tài)
有關,與歷史狀態(tài)無關。這個性質對于很多問題來說有著非常重要的指導意義,因為這允許我們在沒有考慮系統(tǒng)完整歷史的情況下預測和控制其行為,隨著我們對強化學習的深入,我們會越來越明白這個性質的重要性。
實際中,有很多例子其實是不符合馬爾可夫性質的,比如我們所熟知的棋類游戲,因為我們在決策的過程中不僅需要考慮當前棋子的位置和對手的情況,還需要考慮歷史走子的位置等。換句話說,棋類游戲不僅依賴于當前狀態(tài),還依賴于歷史狀態(tài)。當然這并不意味著完全不能用強化學習來解決以上問題,實際上我們可以用深度神經(jīng)網(wǎng)絡來表示當前的棋局,并用蒙特卡羅搜索樹等技術來模擬玩家的策略和未來可能的狀態(tài),以構建新的決策模型,這就是著名的AlphaGo背后的算法[4]。總之,當我們要解決的問題不能嚴格符合馬爾可夫性質時,可以結合其他的方法來輔助強化學習進行決策。
[4] BABBAR S. Review-Mastering the game of Go with deep neural networks and tree search[J]. 2017. DOI:10. 13140/RG.2.2.18893.74727.