- Joy RL:強化學習實踐教程
- 江季 王琦 楊毅遠
- 1187字
- 2025-05-19 16:15:07
1.1 為什么要學習強化學習?
我們先討論一下為什么要學習強化學習,以及強化學習對于我們的意義。可能大部分讀者都是通過人工智能才了解到強化學習的,但實際上早在我們認識人工智能之前可能就已經不知不覺地接觸到了強化學習。
筆者想起了初中生物課本中關于蚯蚓的一個實驗,其內容大致是這樣的:如圖1-2所示,將蚯蚓放在一個盒子中,盒子中間有一個分岔路口,路的盡頭分別放有食物和電極,讓蚯蚓自己爬行到其中一條路的盡頭,在放有食物的路的盡頭蚯蚓會品嘗到美味的食物,而在放有電極的路的盡頭則會遭到輕微的電擊。

圖1-2 蚯蚓實驗
該實驗的目的是讓蚯蚓能一直朝著有食物的路爬行,但由于蚯蚓沒有真正的眼睛,因此一開始蚯蚓可能會一直朝著有電極的路爬行并且遭到電擊。每次蚯蚓遭到電擊或者吃到食物之后,實驗者會將其放回原處,經過多次實驗,蚯蚓會逐漸學會朝著有食物的路爬行,而不是朝著有電極的路爬行。
在這個過程中,蚯蚓在不斷地嘗試和試錯中學習到了正確的策略。雖然初中生物課本中這個實驗的目的是說明蚯蚓的運動是由外界刺激所驅動的,而不是蚯蚓自身的意志所驅動的,但在今天,從人工智能的角度來看,這其實帶有較為鮮明的強化學習的“味道”,即試錯學習(trial and error learning)。
試錯學習一開始是和行為心理學等工作聯(lián)系在一起的,主要包括以下幾個關鍵部分。
● 嘗試:采取一系列動作或行為來嘗試解決問題或實現(xiàn)目標。
● 錯誤:在嘗試的過程中可能會出現(xiàn)錯誤,這些錯誤可能是環(huán)境的不確定性導致的,也可能是自身的不當行為導致的。
● 結果:每次嘗試的結果,無論是積極的還是消極的,都會對下一次嘗試產生影響。
● 學習:通過不斷地嘗試并出現(xiàn)錯誤,自身會逐漸積累經驗,了解哪些動作或行為會產生有利的結果,從而在下一次嘗試中做出更加明智的選擇。
試錯學習在我們的日常生活中屢見不鮮,并且通常與其他形式的學習形成對比,例如經典條件反射(巴甫洛夫條件反射)和觀察學習(通過觀察他人來學習)。注意,試錯學習雖然是強化學習中最鮮明的要素之一,但并不是強化學習的全部,強化學習還包含其他的學習形式,例如觀察學習(對應模仿學習、離線強化學習等技術)。
另外,在學習過程中個人做出的每一次嘗試都是一次決策(decision),每一次決策都會帶來相應的結果。這個結果可能是好的,也可能是壞的;可能是即時的,比如我們吃到棉花糖就能立刻感受到它的甜,也可能是延時的,比如寒窗苦讀十年之后,方得“一日看盡長安花”。
我們把好的結果稱為獎勵(reward),壞的結果稱為懲罰(punishment)或者負的獎勵。最終通過一次次的決策來實現(xiàn)目標,這個目標通常是以最大化累積的獎勵來呈現(xiàn)的,這個過程就是序列決策(sequential decision making)過程,而強化學習就是解決序列決策問題的有效方法之一,即本書的主題。換句話說,對于任意問題,只要能夠將其建模成序列決策問題或者帶有鮮明的試錯學習特征,就可以使用強化學習來解決,并且這是截至目前最為高效的方法之一,這就是要學習強化學習的原因。