- Joy RL:強化學習實踐教程
- 江季 王琦 楊毅遠
- 286字
- 2025-05-19 16:15:08
1.3.2 模仿學習和逆強化學習
模仿學習(imitation learning,IL)是指在獎勵函數難以明確定義或者策略本身就很難學習的情況下,通過模仿人類的行為來學習到一個較好的策略。最典型的模仿策略之一就是行為克隆(behavioral cloning,BC),即將每一個狀態-動作對視為一個訓練樣本,并使用監督學習的方法(如神經網絡)來學習一個策略。但這種方法容易受到分布漂移(distribution shift)的影響,即智能體可能會遇到從未見過的狀態,從而導致策略出錯。
逆強化學習(inverse reinforcement learning,IRL)即通過觀察人類的行為來學習到一個獎勵函數,然后通過強化學習來學習一個策略。由于需要專家數據,逆強化學習會受到噪聲的影響,因此如何從噪聲數據中學習到一個較好的獎勵函數也是一個難題。
推薦閱讀