客机飞行模拟器游戏手机版

書(shū)名： Joy RL：強(qiáng)化學(xué)習(xí)實(shí)踐教程
作者名：江季王琦楊毅遠(yuǎn)
本章字?jǐn)?shù)： 502字
更新時(shí)間： 2025-05-19 16:15:09

1.3.4 實(shí)時(shí)環(huán)境

實(shí)時(shí)環(huán)境（real-time environment）是指在實(shí)際應(yīng)用中，智能體往往需要在實(shí)時(shí)或者在線環(huán)境中進(jìn)行決策。在這種情況下訓(xùn)練不僅會(huì)降低效率（實(shí)時(shí)環(huán)境中響應(yīng)動(dòng)作更慢），還會(huì)帶來(lái)安全隱患（訓(xùn)練過(guò)程中可能會(huì)出現(xiàn)意外）。

解決這一問(wèn)題的方法之一就是離線強(qiáng)化學(xué)習(xí)（offline reinforcement learning），即在離線環(huán)境中進(jìn)行訓(xùn)練，然后將訓(xùn)練好的模型部署到在線環(huán)境中進(jìn)行決策。但這種方法也存在一定的問(wèn)題，例如離線環(huán)境和在線環(huán)境之間可能存在分布漂移，即兩個(gè)環(huán)境的狀態(tài)分布不同，這就會(huì)導(dǎo)致訓(xùn)練好的模型在在線環(huán)境中可能會(huì)出現(xiàn)意外。

另外還有一種近兩年比較流行的方法——世界模型（world model），即在離線環(huán)境中訓(xùn)練一個(gè)世界模型，然后將世界模型部署到在線環(huán)境中進(jìn)行決策。世界模型的思路是將環(huán)境分為兩個(gè)部分，一個(gè)部分是世界模型，另一個(gè)部分是控制器。世界模型的作用是預(yù)測(cè)下一個(gè)狀態(tài)，而控制器的作用是根據(jù)當(dāng)前的狀態(tài)來(lái)決策動(dòng)作。這樣就可以在離線環(huán)境中訓(xùn)練世界模型，然后將世界模型部署到在線環(huán)境中進(jìn)行決策，從而避免了在線環(huán)境中的訓(xùn)練過(guò)程，提高了效率，同時(shí)避免了在線環(huán)境中的安全隱患。

但世界模型也存在一定的問(wèn)題，例如世界模型的預(yù)測(cè)誤差會(huì)導(dǎo)致控制器的決策出錯(cuò)，因此如何提高世界模型的預(yù)測(cè)精度也是一個(gè)難題。

官术网_书友最值得收藏!

Joy RL：強(qiáng)化學(xué)習(xí)實(shí)踐教程

1.3.4 實(shí)時(shí)環(huán)境