書名： Joy RL：強化學習實踐教程
作者名：江季王琦楊毅遠
本章字數： 301字
更新時間： 2025-05-19 16:15:07

第1章緒論

在正式介紹具體的強化學習（reinforcement learning，RL）算法之前，本章先從宏觀角度討論強化學習的相關概念及應用等，幫助讀者更好地“觀其大略”。對于想利用強化學習做一些交叉研究的讀者來說，更應該先通過本章了解強化學習是什么、大概能做什么、能實現什么樣的效果等，而不是直接從一個個算法開始學習。

強化學習發展至今，盡管算法已經有成百上千種樣式，但實際上從大類來看要掌握的核心算法并不多，大多數算法都只是在核心算法的基礎上做了一些較小的改進。舉個例子，如圖1-1所示，我們知道水和咖啡豆通過一定的方法就能調制成咖啡，水加上糖塊就能變成糖水，它們雖然看起來形式不同，但本質上都是飲品，只是有不同的口味而已。

圖1-1　咖啡與糖水的示例

官术网_书友最值得收藏!

Joy RL：強化學習實踐教程

第1章 緒論

第1章緒論