地平线4游戏下载手机版

書名： Joy RL：強化學習實踐教程
作者名：江季王琦楊毅遠
本章字數： 286字
更新時間： 2025-05-19 16:15:08

1.3.2 模仿學習和逆強化學習

模仿學習（imitation learning，IL）是指在獎勵函數難以明確定義或者策略本身就很難學習的情況下，通過模仿人類的行為來學習到一個較好的策略。最典型的模仿策略之一就是行為克隆（behavioral cloning，BC），即將每一個狀態-動作對視為一個訓練樣本，并使用監督學習的方法（如神經網絡）來學習一個策略。但這種方法容易受到分布漂移（distribution shift）的影響，即智能體可能會遇到從未見過的狀態，從而導致策略出錯。

逆強化學習（inverse reinforcement learning，IRL）即通過觀察人類的行為來學習到一個獎勵函數，然后通過強化學習來學習一個策略。由于需要專家數據，逆強化學習會受到噪聲的影響，因此如何從噪聲數據中學習到一個較好的獎勵函數也是一個難題。

官术网_书友最值得收藏!

Joy RL：強化學習實踐教程

1.3.2 模仿學習和逆強化學習