- Joy RL:強化學習實踐教程
- 江季 王琦 楊毅遠
- 380字
- 2025-05-19 16:15:08
1.3.1 多智能體強化學習
顧名思義,多智能體強化學習就是在多個智能體的環境下進行強化學習。與單智能體環境不同,在多智能體環境中通常存在非靜態問題,即環境的狀態不僅由單個智能體的動作決定,還受到其他智能體的動作的影響。例如在AlphaStar中,每個智能體都是《星際爭霸》中的一個玩家,每個玩家都有自己的目標,例如攻擊對方的基地或者防守自己的基地,這就導致環境的狀態不僅由玩家自己的動作決定,還受到其他玩家的動作的影響。
此外,在多智能體環境中還存在信號問題,即智能體之間可能需要進行通信以實現合作或競爭,如何高效地通信并從信號中學習是一個難題。同時,存在信譽分配問題,在多智能體的合作任務中,確定每個智能體對于整體目標的貢獻(或責任)是一個挑戰。多智能體環境通常也存在復雜的博弈場景,對于此類研究,研究者們通常會引入博弈論來找到環境中的納什均衡或其他均衡策略,但這同樣是一個復雜的挑戰。