游戏牛牛怎么玩法

書名： Joy RL：強化學習實踐教程
作者名：江季王琦楊毅遠
本章字數： 905字
更新時間： 2025-05-19 16:15:10

1.4 學習本書之前的一些準備

我們先介紹一下關于本書出版的初衷。其實目前強化學習相關的圖書在市面上已經琳瑯滿目了，但是其中很多偏向理論闡述，缺少實際的經驗總結，比如可能會通過數學推導來告訴讀者某某算法是可行的，但是一些實驗細節和不同算法之間的對比很難體現出來，理論與實踐之間、公式與代碼之間其實存在一定的“鴻溝”。

另外，由于信息時代知識的高速迭代，面對海量的信息，我們需要從中梳理出重點并快速學習，以便盡快看到實際應用的效果，而這就不得不需要經驗豐富的老師傅來“帶路”，這也是本書出版的初衷之一。筆者會基于大量的強化學習實踐經驗，對理論部分刪繁就簡，并將其與實踐緊密結合，以更通俗易懂的方式幫助讀者快速實踐。

在具體學習本書之前，先給讀者做一些基礎知識的鋪墊。

● 強化學習是機器學習的一個分支，因此讀者需要具備一定的機器學習基礎，例如具備基本的線性代數、概率論、數理統計等基礎知識。當然只需要讀者修過相關的大學課程即可，不必刻意回顧一些知識，原理部分可跟隨本書的推導學習。

● 學習強化學習初期是不涉及深度神經網絡相關的知識的，這一部分通常稱為傳統強化學習部分。雖然這部分的算法在今天已經不常用，但是其中蘊含的一些思想和技巧是非常重要的，因此讀者需要對這部分內容有所了解。在學習結合深度學習的深度強化學習部分之前，本書會用一章來幫助讀者整理需要的深度學習知識。

深度學習在強化學習中的主要作用是提供強大的函數擬合能力，使得智能體能夠適應復雜、高維度和非線性的環境。深度學習與強化學習之間的關系相當于眼睛和大腦的關系，眼睛是幫助大腦決策、更好地觀測世界的工具，一些沒有眼睛的動物，例如蚯蚓，也可以通過其他的感官來觀測并解析狀態。再如，同樣的大腦決策水平的情況下，即相同的強化學習算法條件下，正常人要比雙目失明的人做日常的決策方便。但是，即使深度學習部分是相同的，例如正常大人和小孩都能通過眼睛觀測世界，大腦決策水平的差異也會讓兩者的表現有所差異。

總而言之，深度學習與強化學習在復雜的環境下缺一不可。雖然強化學習算法很多，但基本分為兩類，即基于價值的算法和基于策略的算法。這兩類算法各有優勢，請讀者在學習之后根據實際需要謹慎選擇。

官术网_书友最值得收藏!

Joy RL：強化學習實踐教程

1.4 學習本書之前的一些準備