- Joy RL:強化學習實踐教程
- 江季 王琦 楊毅遠
- 905字
- 2025-05-19 16:15:10
1.4 學習本書之前的一些準備
我們先介紹一下關于本書出版的初衷。其實目前強化學習相關的圖書在市面上已經琳瑯滿目了,但是其中很多偏向理論闡述,缺少實際的經驗總結,比如可能會通過數學推導來告訴讀者某某算法是可行的,但是一些實驗細節和不同算法之間的對比很難體現出來,理論與實踐之間、公式與代碼之間其實存在一定的“鴻溝”。
另外,由于信息時代知識的高速迭代,面對海量的信息,我們需要從中梳理出重點并快速學習,以便盡快看到實際應用的效果,而這就不得不需要經驗豐富的老師傅來“帶路”,這也是本書出版的初衷之一。筆者會基于大量的強化學習實踐經驗,對理論部分刪繁就簡,并將其與實踐緊密結合,以更通俗易懂的方式幫助讀者快速實踐。
在具體學習本書之前,先給讀者做一些基礎知識的鋪墊。
● 強化學習是機器學習的一個分支,因此讀者需要具備一定的機器學習基礎,例如具備基本的線性代數、概率論、數理統計等基礎知識。當然只需要讀者修過相關的大學課程即可,不必刻意回顧一些知識,原理部分可跟隨本書的推導學習。
● 學習強化學習初期是不涉及深度神經網絡相關的知識的,這一部分通常稱為傳統強化學習部分。雖然這部分的算法在今天已經不常用,但是其中蘊含的一些思想和技巧是非常重要的,因此讀者需要對這部分內容有所了解。在學習結合深度學習的深度強化學習部分之前,本書會用一章來幫助讀者整理需要的深度學習知識。
深度學習在強化學習中的主要作用是提供強大的函數擬合能力,使得智能體能夠適應復雜、高維度和非線性的環境。深度學習與強化學習之間的關系相當于眼睛和大腦的關系,眼睛是幫助大腦決策、更好地觀測世界的工具,一些沒有眼睛的動物,例如蚯蚓,也可以通過其他的感官來觀測并解析狀態。再如,同樣的大腦決策水平的情況下,即相同的強化學習算法條件下,正常人要比雙目失明的人做日常的決策方便。但是,即使深度學習部分是相同的,例如正常大人和小孩都能通過眼睛觀測世界,大腦決策水平的差異也會讓兩者的表現有所差異。
總而言之,深度學習與強化學習在復雜的環境下缺一不可。雖然強化學習算法很多,但基本分為兩類,即基于價值的算法和基于策略的算法。這兩類算法各有優勢,請讀者在學習之后根據實際需要謹慎選擇。