官术网_书友最值得收藏!

第1章 什么是強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)機(jī)器學(xué)習(xí)(Machine Learning,ML)的一個(gè)分支,它能隨著時(shí)間的推移,自動(dòng)學(xué)習(xí)最優(yōu)決策。這是許多科學(xué)和工程領(lǐng)域普遍研究的一個(gè)問題。

在瞬息萬(wàn)變的世界中,如果考慮時(shí)間的因素,即使是靜態(tài)的輸入輸出問題也會(huì)變成動(dòng)態(tài)問題。例如,想象一下你想要解決一個(gè)寵物圖片分類(一共有兩個(gè)目標(biāo)類:狗和貓)的簡(jiǎn)單監(jiān)督學(xué)習(xí)問題。你收集了訓(xùn)練數(shù)據(jù)集并使用深度學(xué)習(xí)(Deep Learning,DL)工具作為分類器。一段時(shí)間后,收斂的模型表現(xiàn)得很出色。這很棒!于是你將其部署并運(yùn)行了一段時(shí)間。但是,當(dāng)你從某個(gè)海濱度假勝地回來(lái)后,發(fā)現(xiàn)狗狗間流行的裝扮方式發(fā)生了改變,因此大部分的查詢都返回了錯(cuò)誤的分類結(jié)果,你也因此需要更新你的訓(xùn)練圖片,并重復(fù)之前的過程。這就不美妙了!

前面的示例旨在說(shuō)明即使是簡(jiǎn)單的ML問題也有隱藏的時(shí)間維度。這常被忽視,那么它在生產(chǎn)系統(tǒng)中就可能會(huì)成為一個(gè)問題。RL很自然地將額外的維度(通常是時(shí)間,但并非必須是時(shí)間)并入學(xué)習(xí)方程式。這讓RL更接近于人們所理解的人工智能(Artificial Intelligence,AI)

在本章中,我們會(huì)詳細(xì)討論RL,你將會(huì)熟悉以下內(nèi)容:

  • RL和其他ML方法(監(jiān)督學(xué)習(xí)(supervised learning)非監(jiān)督學(xué)習(xí)(unsupervised learning))的關(guān)聯(lián)和區(qū)別。
  • RL有哪些主要形式,它們之間的關(guān)系是什么樣的。
  • RL的理論基礎(chǔ)——馬爾可夫決策過程。
主站蜘蛛池模板: 怀仁县| 全椒县| 教育| 东丽区| 景宁| 美姑县| 大方县| 原阳县| 北辰区| 金山区| 皮山县| 克什克腾旗| 滁州市| 雷波县| 巴林右旗| 阿拉善右旗| 蒲城县| 调兵山市| 霍邱县| 宜宾县| 石家庄市| 鹤峰县| 广西| 裕民县| 肇州县| 达孜县| 大港区| 交城县| 泰兴市| 浦江县| 泰安市| 贵州省| 裕民县| 新民市| 邯郸市| 黔西| 河北省| 甘肃省| 重庆市| 太和县| 伊金霍洛旗|