- 深度強化學(xué)習(xí)實踐(原書第2版)
- (俄)馬克西姆·拉潘
- 1280字
- 2021-08-18 17:39:26
5.4 價值迭代法
在剛剛的簡單示例中,為了計算狀態(tài)和動作的價值,我們利用了環(huán)境的結(jié)構(gòu):在轉(zhuǎn)移中沒有循環(huán),因此可以從最終狀態(tài)開始,計算其價值,然后回到中心的狀態(tài)。但是,環(huán)境中只要有一個循環(huán)就會給這個方法造成障礙。我們來考慮具有兩個狀態(tài)的此類環(huán)境,如圖5.7所示。

圖5.7 轉(zhuǎn)移圖中包含循環(huán)的環(huán)境樣例
我們從狀態(tài)s1開始,唯一可以采取的行動會使我們進入狀態(tài)s2。我們得到獎勵r=1,并且從s2的唯一個動作會使我們回到s1。因此,智能體會進入無限的狀態(tài)序列[s1, s2, s1, s2, s1, s2, s1, s2, …]。要處理這種無限循環(huán),可以使用折扣因子:γ=0.9。現(xiàn)在的問題是,兩個狀態(tài)的價值分別是什么?實際上,答案并不復(fù)雜。從s1到s2的每次轉(zhuǎn)移的獎勵為1,反向轉(zhuǎn)移的獎勵為2。因此,獎勵序列為[1, 2, 1, 2, 1, 1, 2, 1, 2, …]。由于在每個狀態(tài)下只有一個動作,智能體沒有選擇余地,因此可以省略公式中的max運算(只有一種選擇)。
狀態(tài)的價值如下:

嚴(yán)格來講,我們無法計算狀態(tài)的確切價值,但由于γ=0.9,隨著時間的推移,每次轉(zhuǎn)移的貢獻值在減小。例如,在10步以后,γ10=0.910=0.349,但是在100步以后,該折扣因子變成0.000 026 6。由于以上原因,我們在50次迭代后停止計算,也可以得到比較精確的估計值。

前面的示例有助于理解更通用的價值迭代算法。這使我們能夠以數(shù)值計算已知狀態(tài)轉(zhuǎn)移概率和獎勵值的馬爾可夫決策過程(Markov Decision Process,MDP)的狀態(tài)價值和動作價值。該過程(對于狀態(tài)價值)包括以下步驟:
1)將所有狀態(tài)的價值Vi初始化為某個值(通常為零)。
2)對MDP中的每個狀態(tài)s,執(zhí)行Bellman更新:

3)對許多步驟重復(fù)步驟2,或者直到更改變得很小為止。
對于動作價值(即Q),只需要對前面的過程進行較小的修改即可:
1)將每個Qs, a初始化為零。
2)對每個狀態(tài)s和動作a執(zhí)行以下更新:

3)重復(fù)步驟2。
這只是理論。實際中,此方法有幾個明顯的局限性。首先,狀態(tài)空間應(yīng)該是離散的并且要足夠小,以便對所有狀態(tài)執(zhí)行多次迭代。對于FrozenLake-4x4甚至是FrozenLake-8x8(Gym中更具挑戰(zhàn)性的版本),這都不是問題,但是對于CartPole,并不完全清楚該怎么做。我們對CartPole的觀察結(jié)果是4個浮點值,它們代表系統(tǒng)的某些物理特征。這些值之間即使是很小的差異也會對狀態(tài)價值產(chǎn)生影響。一個可能的解決方案是離散化觀察值。例如,可以將CartPole的觀察空間劃分為多個箱體,并將每個箱體視為空間中的單個離散狀態(tài)。然而,這將產(chǎn)生很多實際問題,例如應(yīng)該用多大的間隔來劃分箱體,以及需要多少環(huán)境數(shù)據(jù)來估計價值。我將在后續(xù)章節(jié)中(在Q-learning中使用神經(jīng)網(wǎng)絡(luò)時)解答該問題。
第二個實際局限問題是我們很少能知道動作的轉(zhuǎn)移概率和獎勵矩陣。記住Gym所提供給智能體的接口:觀察狀態(tài)、決定動作,然后才能獲得下一個觀察結(jié)果以及轉(zhuǎn)移獎勵。我們不知道(在不查看Gym的環(huán)境代碼時)從狀態(tài)s0采取動作a0進入狀態(tài)s1的概率是多少。
我們所擁有的僅僅是智能體與環(huán)境互動的歷史。然而,在Bellman更新中,既需要每個轉(zhuǎn)移的獎勵,也需要轉(zhuǎn)移概率。因此,顯然可以利用智能體的經(jīng)驗來估計這兩個未知值。可以根據(jù)歷史數(shù)據(jù)來決定獎勵,我們只需要記住從s0采取動作a轉(zhuǎn)移到s1所獲得的獎勵即可,但是要估計概率,需要為每個元組(s0, s1, a)維護一個計數(shù)器并將其標(biāo)準(zhǔn)化。
好了,現(xiàn)在來看價值迭代方法是怎么作用于FrozenLake的。
- 機器人制作從入門到精通(第3版)
- 成為提問工程師
- 空間智能原理與應(yīng)用
- 人工智能時代的超思考法
- 人工智能安全
- 人工智能導(dǎo)論(通識版)
- AI公文寫作一本通:用ChatGPT和文心一言提高公文寫作質(zhì)量和寫作效率
- 機器學(xué)習(xí)與學(xué)習(xí)資源適配
- 圖解人工智能
- 顛覆:AI時代的企業(yè)管理方式大變革
- 人體步態(tài)及行為識別技術(shù)研究(遼寧省優(yōu)秀自然科學(xué)著作)
- MLOps工程實踐:工具、技術(shù)與企業(yè)級應(yīng)用
- 深度學(xué)習(xí)與圖像識別:原理與實踐
- 智能化變革:人工智能技術(shù)進化與價值創(chuàng)造
- 科學(xué)的極致:漫談人工智能