第1章　什么是強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）是機(jī)器學(xué)習(xí)（Machine Learning，ML）的一個(gè)分支，它能隨著時(shí)間的推移，自動(dòng)學(xué)習(xí)最優(yōu)決策。這是許多科學(xué)和工程領(lǐng)域普遍研究的一個(gè)問題。

在瞬息萬(wàn)變的世界中，如果考慮時(shí)間的因素，即使是靜態(tài)的輸入輸出問題也會(huì)變成動(dòng)態(tài)問題。例如，想象一下你想要解決一個(gè)寵物圖片分類（一共有兩個(gè)目標(biāo)類：狗和貓）的簡(jiǎn)單監(jiān)督學(xué)習(xí)問題。你收集了訓(xùn)練數(shù)據(jù)集并使用深度學(xué)習(xí)（Deep Learning，DL）工具作為分類器。一段時(shí)間后，收斂的模型表現(xiàn)得很出色。這很棒！于是你將其部署并運(yùn)行了一段時(shí)間。但是，當(dāng)你從某個(gè)海濱度假勝地回來(lái)后，發(fā)現(xiàn)狗狗間流行的裝扮方式發(fā)生了改變，因此大部分的查詢都返回了錯(cuò)誤的分類結(jié)果，你也因此需要更新你的訓(xùn)練圖片，并重復(fù)之前的過程。這就不美妙了！

前面的示例旨在說(shuō)明即使是簡(jiǎn)單的ML問題也有隱藏的時(shí)間維度。這常被忽視，那么它在生產(chǎn)系統(tǒng)中就可能會(huì)成為一個(gè)問題。RL很自然地將額外的維度（通常是時(shí)間，但并非必須是時(shí)間）并入學(xué)習(xí)方程式。這讓RL更接近于人們所理解的人工智能（Artificial Intelligence，AI）。

在本章中，我們會(huì)詳細(xì)討論RL，你將會(huì)熟悉以下內(nèi)容：

RL和其他ML方法（監(jiān)督學(xué)習(xí)（supervised learning）和非監(jiān)督學(xué)習(xí)（unsupervised learning））的關(guān)聯(lián)和區(qū)別。
RL有哪些主要形式，它們之間的關(guān)系是什么樣的。
RL的理論基礎(chǔ)——馬爾可夫決策過程。

官术网_书友最值得收藏!

深度強(qiáng)化學(xué)習(xí)實(shí)踐（原書第2版）

第1章 什么是強(qiáng)化學(xué)習(xí)

第1章　什么是強(qiáng)化學(xué)習(xí)