書名: 深度強化學習實踐(原書第2版)作者名: (俄)馬克西姆·拉潘本章字數: 887字更新時間: 2021-08-18 17:39:23
4.1 RL方法的分類
交叉熵方法屬于無模型和基于策略的方法類別。這些都是新概念,所以我們花一點時間來討論一下它們。所有的RL方法可以被分類成以下幾種:
- 無模型或基于模型。
- 基于價值或基于策略。
- 在線策略(on-policy)或離線策略(off-policy)。
還可以根據其他方式對RL方法進行分類,但是目前我們還是關注前面這三種分類方式。我們來定義這些方法,因為根據問題的不同細節,可能會導致選擇不同的方法。
術語無模型表示該方法不構建環境或獎勵的模型,直接將觀察和動作(或者和動作相關的價值)連接起來。換句話說,智能體獲取當前的觀察結果并對其進行一些計算,計算結果就是它應該采取的動作。相反,基于模型的方法試圖預測下一個觀察或獎勵會是什么。根據它的預測,智能體試圖選擇最好的動作來執行,通常會進行多次這樣的預測以看到更遠的未來。
兩種方法都有優勢和劣勢,但在確定性環境中通常都會使用基于模型的方法,例如用于具有嚴格規則的棋盤游戲。另一方面,無模型的方法通常更容易訓練,因為很難對有大量觀察的復雜環境建立良好的建模。本書描述的所有方法均來自無模型類別,因為這些方法在過去幾年中一直是最活躍的研究領域。直到最新,研究人員才將兩種方法混合使用,意圖同時獲得兩方面的收益(例如,DeepMind發表的智能體的想象力的論文。這個方法會在第22章中討論)。
另外,基于策略的方法直接計算智能體的策略,即智能體在每一步應該執行什么動作。策略通常被表示成可用動作的概率分布。方法也可以是基于價值的。在這種情況下,智能體將計算每個可能的動作的價值,然后選擇價值最大的動作,而不是計算動作的概率。兩種方法都同樣受歡迎,我們將在本書的下一部分討論基于價值的方法。基于策略的方法將會是第三部分的主題。
第三個重要的分類是在線策略和離線策略。我們會在本書第二部分和第三部分討論它們的區別,就目前而言,知道離線策略是用來學習歷史數據(上一版本的智能體獲得的數據、人類記錄的數據或同一智能體幾個片段之前獲得的數據)的就夠了。
交叉熵方法是無模型的、基于策略的在線策略的方法,這意味著:
- 它不構建環境的任何模型,只告訴智能體每一步需要做什么。
- 它計算智能體的策略。
- 它從環境中獲取新數據。