- Joy RL:強化學習實踐教程
- 江季 王琦 楊毅遠
- 190字
- 2025-05-19 16:15:10
第2章 馬爾可夫決策過程
在第1章中我們了解到強化學習是解決序列決策問題的有效方法之一,而序列決策問題的本質是在與環境交互的過程中學習到一個目標的過程。在本章中,我們將介紹強化學習中基本的問題模型,即馬爾可夫決策過程(Markov decision process,MDP),它能夠以數學的形式來表達序列決策過程。注意,從本章開始會涉及理論公式推導,建議讀者在閱讀之前先回顧一下概率論相關知識,尤其是條件概率、全概率期望公式等。