- Joy RL:強化學習實踐教程
- 江季 王琦 楊毅遠
- 301字
- 2025-05-19 16:15:07
第1章 緒論
在正式介紹具體的強化學習(reinforcement learning,RL)算法之前,本章先從宏觀角度討論強化學習的相關概念及應用等,幫助讀者更好地“觀其大略”。對于想利用強化學習做一些交叉研究的讀者來說,更應該先通過本章了解強化學習是什么、大概能做什么、能實現什么樣的效果等,而不是直接從一個個算法開始學習。
強化學習發展至今,盡管算法已經有成百上千種樣式,但實際上從大類來看要掌握的核心算法并不多,大多數算法都只是在核心算法的基礎上做了一些較小的改進。舉個例子,如圖1-1所示,我們知道水和咖啡豆通過一定的方法就能調制成咖啡,水加上糖塊就能變成糖水,它們雖然看起來形式不同,但本質上都是飲品,只是有不同的口味而已。

圖1-1 咖啡與糖水的示例