- Joy RL:強化學習實踐教程
- 江季 王琦 楊毅遠
- 502字
- 2025-05-19 16:15:11
2.3 回報
前面講到在馬爾可夫決策過程中智能體的目標是以最大化累積的獎勵呈現(xiàn)的,通常我們把這個累積的獎勵稱為回報(return),用表示,最簡單的回報公式可以寫成:

(2.2)
其中在前面提到過,表示最后一個時步,也就是每回合的最大步數(shù)。這個公式其實只適用于有限步數(shù)的情況,例如玩一局游戲,無論輸贏,每回合總是會在有限的步數(shù)內(nèi)以一個特殊的狀態(tài)結(jié)束,這樣的狀態(tài)稱為終止狀態(tài)。但有一些情況是沒有終止狀態(tài)的,換句話說,智能體會持續(xù)與環(huán)境交互,比如人造衛(wèi)星在發(fā)射出去后會一直在外太空作業(yè)直到報廢或者被回收,這樣的任務稱為持續(xù)性任務。對于持續(xù)性任務,上面的回報公式是有問題的,因為此時
。
為了解決這個問題,我們引入一個折扣因子(discount factor),將其記為,并將回報公式表示為:

(2.3)
其中的取值范圍為0~1,它表示未來獎勵的重要程度,以進行當前獎勵和未來獎勵之間的權(quán)衡。換句話說,它體現(xiàn)了我們對長遠目標的關注度。當
時,表示我們只關心當前獎勵,而不會關心未來的任何獎勵。而當
接近
時,表示我們對所有未來獎勵都給予較高的關注度。這樣做的好處是讓當前時步的回報
與下一個時步的回報
有所關聯(lián),即式(2.4):

(2.4)
這對于所有都是存在的,在后面我們學習貝爾曼方程的時候會明白它的重要性。