書名: 深度強化學習實踐(原書第2版)作者名: (俄)馬克西姆·拉潘本章字數: 1131字更新時間: 2021-08-18 17:39:28
6.1 現實的價值迭代
通過將交叉熵方法改為價值迭代方法,我們在FrozenLake環境中獲得的改進是令人鼓舞的,因此,很希望能將價值迭代方法應用于更具挑戰性的問題。但是,我們先來看一下價值迭代方法的前提假設和局限性。
我們快速回顧一下該方法。在每步中,價值迭代方法會對所有狀態進行循環,并且對于每個狀態,它都會根據Bellman近似值來更新價值。同一方法中Q值(動作價值)的變化幾乎相同,但是要估算并存儲每個狀態和動作的價值。所以,這個過程有什么問題呢?
第一個明顯的問題是環境狀態的數量以及我們對其進行迭代的能力。在價值迭代中,我們假設事先知道環境中的所有狀態,可以對其進行迭代,并可以存儲與它們關聯的近似價值。對于FrozenLake的簡單網格世界環境絕對是可行的,但是對于其他任務呢?
首先,我們試著理解一下價值迭代方法的可伸縮性,或者說,在每個循環中能輕松地迭代多少個狀態。即使是中型計算機也能存儲幾十億個浮點值(32GB的RAM中為85億個浮點值),所以看起來價值表所需的內存不是限制條件。數十億個狀態和動作的迭代將更加耗費中央處理器(CPU),但也不是一個無法解決的問題。
現在,我們的多核系統大多是空閑的。真正的問題是獲得優質狀態轉移動態的估計所需的樣本數量。假設有一個環境,它有十億個狀態(大約對應于大小為31 600×31 600的FrozenLake)。要為該環境的每個狀態計算近似價值,需要在狀態之間均勻分布數千億次轉移,這是不切實際的。
具有更多潛在狀態的環境示例,請考慮Atari 2600游戲機。該游戲機在20世紀80年代非常流行,并且有許多街機風格的游戲。以當今的游戲標準來看,Atari游戲機是過時的,但它的游戲提供了一套出色的人類可以很快掌握的RL問題,這些問題對于計算機仍是一個挑戰。正如前面提到的,毫無疑問,該平臺(當然使用的是模擬器)是RL研究中非常受歡迎的基準。
我們來計算Atari平臺的狀態空間。屏幕的分辨率為210×160像素,每個像素都是128種顏色之一。因此,每一幀屏幕都有210×160=33 600個像素,所以每一幀的總可能狀態數是12833 600,比1070 802略多。如果決定一次枚舉Atari的所有可能狀態,那么即使最快的超級計算機也要花費數十億億年。另外,這項工作的99.9%是在浪費時間,因為大多數組合即使在很長的游戲過程中也都不會出現,因此永遠不會有這些狀態的樣本。但是,價值迭代方法希望對它們進行迭代,以防萬一。
價值迭代方法的另一個問題是它將我們限制在離散的動作空間中。的確,Q(s, a)和V(s)的近似值都假定動作是互斥的離散集,對于動作可以是連續變量(例如方向盤的角度、執行器上的力或加熱器的溫度)的連續控制問題而言,并不一定正確。這個問題比第一個問題更具挑戰性,我們將在本書后半部分專門討論連續動作空間問題的章節中討論這個問題?,F在,假設動作是離散的并且數量不是很大(量級為10),我們應該如何處理狀態空間大小問題?