官术网_书友最值得收藏!

4.1 RL方法的分類

交叉熵方法屬于無模型基于策略的方法類別。這些都是新概念,所以我們花一點時間來討論一下它們。所有的RL方法可以被分類成以下幾種:

  • 無模型或基于模型。
  • 基于價值或基于策略。
  • 在線策略(on-policy)或離線策略(off-policy)。

還可以根據其他方式對RL方法進行分類,但是目前我們還是關注前面這三種分類方式。我們來定義這些方法,因為根據問題的不同細節,可能會導致選擇不同的方法。

術語無模型表示該方法不構建環境或獎勵的模型,直接將觀察和動作(或者和動作相關的價值)連接起來。換句話說,智能體獲取當前的觀察結果并對其進行一些計算,計算結果就是它應該采取的動作。相反,基于模型的方法試圖預測下一個觀察或獎勵會是什么。根據它的預測,智能體試圖選擇最好的動作來執行,通常會進行多次這樣的預測以看到更遠的未來。

兩種方法都有優勢和劣勢,但在確定性環境中通常都會使用基于模型的方法,例如用于具有嚴格規則的棋盤游戲。另一方面,無模型的方法通常更容易訓練,因為很難對有大量觀察的復雜環境建立良好的建模。本書描述的所有方法均來自無模型類別,因為這些方法在過去幾年中一直是最活躍的研究領域。直到最新,研究人員才將兩種方法混合使用,意圖同時獲得兩方面的收益(例如,DeepMind發表的智能體的想象力的論文。這個方法會在第22章中討論)。

另外,基于策略的方法直接計算智能體的策略,即智能體在每一步應該執行什么動作。策略通常被表示成可用動作的概率分布。方法也可以是基于價值的。在這種情況下,智能體將計算每個可能的動作的價值,然后選擇價值最大的動作,而不是計算動作的概率。兩種方法都同樣受歡迎,我們將在本書的下一部分討論基于價值的方法。基于策略的方法將會是第三部分的主題。

第三個重要的分類是在線策略離線策略。我們會在本書第二部分和第三部分討論它們的區別,就目前而言,知道離線策略是用來學習歷史數據(上一版本的智能體獲得的數據、人類記錄的數據或同一智能體幾個片段之前獲得的數據)的就夠了。

交叉熵方法是無模型的、基于策略的在線策略的方法,這意味著:

  • 它不構建環境的任何模型,只告訴智能體每一步需要做什么。
  • 它計算智能體的策略。
  • 它從環境中獲取新數據。
主站蜘蛛池模板: 遂川县| 台安县| 佛学| 丽江市| 灵丘县| 肇东市| 广南县| 大英县| 昭苏县| 娱乐| 汉寿县| 喜德县| 富锦市| 昌吉市| 满洲里市| 江永县| 黑河市| 永泰县| 昭平县| 仙游县| 壶关县| 安康市| 新乡市| 如皋市| 泗阳县| 海阳市| 尤溪县| 普格县| 永州市| 龙里县| 当雄县| 大安市| 梅河口市| 岳阳县| 清新县| 桃园县| 江陵县| 青浦区| 西充县| 黎平县| 梁河县|