官术网_书友最值得收藏!

1.3.2 模仿學習和逆強化學習

模仿學習(imitation learning,IL)是指在獎勵函數難以明確定義或者策略本身就很難學習的情況下,通過模仿人類的行為來學習到一個較好的策略。最典型的模仿策略之一就是行為克隆(behavioral cloning,BC),即將每一個狀態-動作對視為一個訓練樣本,并使用監督學習的方法(如神經網絡)來學習一個策略。但這種方法容易受到分布漂移(distribution shift)的影響,即智能體可能會遇到從未見過的狀態,從而導致策略出錯。

逆強化學習(inverse reinforcement learning,IRL)即通過觀察人類的行為來學習到一個獎勵函數,然后通過強化學習來學習一個策略。由于需要專家數據,逆強化學習會受到噪聲的影響,因此如何從噪聲數據中學習到一個較好的獎勵函數也是一個難題。

主站蜘蛛池模板: 龙山县| 酉阳| 巴林左旗| 平谷区| 清水河县| 呼伦贝尔市| 尚志市| 烟台市| 当阳市| 洛宁县| 平潭县| 大石桥市| 平泉县| 台北市| 荣昌县| 竹北市| 金溪县| 共和县| 建湖县| 平武县| 双辽市| 稻城县| 西青区| 光泽县| 剑阁县| 双柏县| 巩留县| 正蓝旗| 海林市| 舒城县| 天祝| 林西县| 绥滨县| 宿州市| 江陵县| 绍兴市| 阿拉善左旗| 临泉县| 长子县| 阿勒泰市| 佛学|