官术网_书友最值得收藏!

第2章 馬爾可夫決策過程

在第1章中我們了解到強化學習是解決序列決策問題的有效方法之一,而序列決策問題的本質是在與環境交互的過程中學習到一個目標的過程。在本章中,我們將介紹強化學習中基本的問題模型,即馬爾可夫決策過程(Markov decision process,MDP),它能夠以數學的形式來表達序列決策過程。注意,從本章開始會涉及理論公式推導,建議讀者在閱讀之前先回顧一下概率論相關知識,尤其是條件概率、全概率期望公式等。

主站蜘蛛池模板: 侯马市| 嘉善县| 岱山县| 新余市| 长兴县| 海晏县| 卢氏县| 西平县| 镇江市| 深水埗区| 汉阴县| 忻城县| 永定县| 美姑县| 确山县| 通州区| 巴青县| 广宗县| 缙云县| 九龙坡区| 喀喇沁旗| 左云县| 江北区| 楚雄市| 沁水县| 金山区| 烟台市| 眉山市| 云林县| 台中市| 温宿县| 柞水县| 庆阳市| 巩留县| 乌拉特前旗| 潼关县| 如东县| 望江县| 宁化县| 长葛市| 津市市|