- 深度強(qiáng)化學(xué)習(xí)實(shí)踐(原書第2版)
- (俄)馬克西姆·拉潘
- 527字
- 2021-08-18 17:39:16
第1章 什么是強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是機(jī)器學(xué)習(xí)(Machine Learning,ML)的一個(gè)分支,它能隨著時(shí)間的推移,自動(dòng)學(xué)習(xí)最優(yōu)決策。這是許多科學(xué)和工程領(lǐng)域普遍研究的一個(gè)問題。
在瞬息萬(wàn)變的世界中,如果考慮時(shí)間的因素,即使是靜態(tài)的輸入輸出問題也會(huì)變成動(dòng)態(tài)問題。例如,想象一下你想要解決一個(gè)寵物圖片分類(一共有兩個(gè)目標(biāo)類:狗和貓)的簡(jiǎn)單監(jiān)督學(xué)習(xí)問題。你收集了訓(xùn)練數(shù)據(jù)集并使用深度學(xué)習(xí)(Deep Learning,DL)工具作為分類器。一段時(shí)間后,收斂的模型表現(xiàn)得很出色。這很棒!于是你將其部署并運(yùn)行了一段時(shí)間。但是,當(dāng)你從某個(gè)海濱度假勝地回來(lái)后,發(fā)現(xiàn)狗狗間流行的裝扮方式發(fā)生了改變,因此大部分的查詢都返回了錯(cuò)誤的分類結(jié)果,你也因此需要更新你的訓(xùn)練圖片,并重復(fù)之前的過程。這就不美妙了!
前面的示例旨在說(shuō)明即使是簡(jiǎn)單的ML問題也有隱藏的時(shí)間維度。這常被忽視,那么它在生產(chǎn)系統(tǒng)中就可能會(huì)成為一個(gè)問題。RL很自然地將額外的維度(通常是時(shí)間,但并非必須是時(shí)間)并入學(xué)習(xí)方程式。這讓RL更接近于人們所理解的人工智能(Artificial Intelligence,AI)。
在本章中,我們會(huì)詳細(xì)討論RL,你將會(huì)熟悉以下內(nèi)容:
- RL和其他ML方法(監(jiān)督學(xué)習(xí)(supervised learning)和非監(jiān)督學(xué)習(xí)(unsupervised learning))的關(guān)聯(lián)和區(qū)別。
- RL有哪些主要形式,它們之間的關(guān)系是什么樣的。
- RL的理論基礎(chǔ)——馬爾可夫決策過程。
- 機(jī)器學(xué)習(xí):Python實(shí)踐
- 人工智能原理與實(shí)踐
- 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí):基于MATLAB的仿真與實(shí)現(xiàn)
- 深度學(xué)習(xí)之人臉圖像處理:核心算法與案例實(shí)戰(zhàn)
- 機(jī)器學(xué)習(xí)
- 向AI提問的藝術(shù):提示工程入門與應(yīng)用
- 深度學(xué)習(xí)實(shí)戰(zhàn):基于TensorFlow 2和Keras(原書第2版)
- 多智能體技術(shù)及應(yīng)用
- 深度學(xué)習(xí):卷積神經(jīng)網(wǎng)絡(luò)從入門到精通
- 科學(xué)的極致:漫談人工智能
- AI芯片:前沿技術(shù)與創(chuàng)新未來(lái)
- 精通ROS機(jī)器人編程(原書第3版)
- 機(jī)器人操作中的力學(xué)原理
- 構(gòu)建實(shí)時(shí)機(jī)器學(xué)習(xí)系統(tǒng)
- AI輔助編程實(shí)戰(zhàn)