- 深度強(qiáng)化學(xué)習(xí)實(shí)踐(原書第2版)
- (俄)馬克西姆·拉潘
- 1592字
- 2021-08-18 17:39:16
1.1 機(jī)器學(xué)習(xí)分類
1.1.1 監(jiān)督學(xué)習(xí)
你可能已經(jīng)熟悉了監(jiān)督學(xué)習(xí)的概念,監(jiān)督學(xué)習(xí)是被研究得最多且最著名的機(jī)器學(xué)習(xí)方法。它的基本問(wèn)題是,當(dāng)給定一系列帶標(biāo)簽的數(shù)據(jù)時(shí),如何自動(dòng)構(gòu)建一個(gè)函數(shù)來(lái)將某些輸入映射成另外一些輸出。雖然這聽起來(lái)很簡(jiǎn)單,但仍存在一些棘手的問(wèn)題,計(jì)算機(jī)領(lǐng)域也是在最近才成功解決了部分問(wèn)題。監(jiān)督學(xué)習(xí)的例子有很多,包含:
- 文本分類:電子郵件是否是垃圾郵件?
- 圖像分類和目標(biāo)檢測(cè):圖片包含了貓還是狗還是其他東西?
- 回歸問(wèn)題:根據(jù)氣象傳感器的信息判斷明天的天氣。
- 情感分析:某份評(píng)價(jià)反應(yīng)的客戶滿意度是多少?
這些問(wèn)題貌似不同,但思想一致——我們有很多輸入輸出對(duì),并想通過(guò)學(xué)習(xí)它的規(guī)律來(lái)讓未來(lái)的、當(dāng)前不可見的輸入能產(chǎn)生準(zhǔn)確的輸出。根據(jù)“標(biāo)準(zhǔn)答案”數(shù)據(jù)源給出的已知答案來(lái)學(xué)習(xí),這就是監(jiān)督一詞的由來(lái)。
1.1.2 非監(jiān)督學(xué)習(xí)
另外一個(gè)極端就是所謂的非監(jiān)督學(xué)習(xí),它假設(shè)我們的數(shù)據(jù)沒有已知的標(biāo)簽。它的主要目標(biāo)是從當(dāng)前的數(shù)據(jù)集中學(xué)習(xí)一些隱藏的結(jié)構(gòu)。這種學(xué)習(xí)方法的常見例子就是對(duì)數(shù)據(jù)進(jìn)行聚類。該算法用于將數(shù)據(jù)分類成不同組,以揭示數(shù)據(jù)間的關(guān)系。例如,想要找到相似的圖片或者有類似行為的客戶。
另一類正變得越來(lái)越流行的非監(jiān)督學(xué)習(xí)方法是生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)。當(dāng)有兩個(gè)相互競(jìng)爭(zhēng)的網(wǎng)絡(luò)時(shí),一個(gè)網(wǎng)絡(luò)試著生成假數(shù)據(jù)來(lái)愚弄第二個(gè)網(wǎng)絡(luò),而第二個(gè)網(wǎng)絡(luò)則努力將偽造的數(shù)據(jù)和真實(shí)的采樣數(shù)據(jù)區(qū)分開。隨著時(shí)間的流逝,兩個(gè)網(wǎng)絡(luò)都通過(guò)捕獲數(shù)據(jù)中一些細(xì)微的特定模式變得越來(lái)越強(qiáng)大。
1.1.3 強(qiáng)化學(xué)習(xí)
RL則處于第三陣營(yíng),介于完全監(jiān)督和完全沒有預(yù)定義標(biāo)簽之間。它會(huì)用到很多已經(jīng)比較完善的監(jiān)督學(xué)習(xí)方法來(lái)學(xué)習(xí)數(shù)據(jù)的表示,比如用深度神經(jīng)網(wǎng)絡(luò)(deep neural network)來(lái)進(jìn)行函數(shù)逼近、隨機(jī)梯度下降和反向傳播。但它會(huì)用不同的方式來(lái)使用這些方法。
本章接下來(lái)的兩節(jié)將介紹RL方法的一些具體細(xì)節(jié),包括用嚴(yán)格的數(shù)學(xué)形式來(lái)建立假設(shè)和抽象。而本節(jié)會(huì)用比較不正式但很容易理解的方式來(lái)比較RL和監(jiān)督學(xué)習(xí)以及非監(jiān)督學(xué)習(xí)之間的區(qū)別。
想象在某環(huán)境下有個(gè)需要選擇動(dòng)作的智能體。(本章后面會(huì)給出“智能體”和“環(huán)境”的詳細(xì)定義。)迷宮中的機(jī)器老鼠就是一個(gè)很好的例子,當(dāng)然你也可以想象一個(gè)無(wú)人操作的直升機(jī)在盤旋,或一個(gè)國(guó)際象棋程序要學(xué)著如何擊敗一名大師級(jí)棋手。為了簡(jiǎn)單起見,我們以機(jī)器老鼠為例(見圖1.1)。

圖1.1 機(jī)器老鼠的迷宮世界
在本例中,環(huán)境就是迷宮,迷宮里會(huì)有一些地方有食物,還有些地方有電流。機(jī)器老鼠能夠選擇動(dòng)作,比如左轉(zhuǎn)、右轉(zhuǎn)以及前進(jìn)。每一時(shí)刻,它都能觀察到迷宮的整體狀態(tài)并據(jù)此決定選擇什么動(dòng)作。機(jī)器老鼠的目的是找到盡可能多的食物,同時(shí)盡可能避免被電擊。這些食物和電信號(hào)代表智能體(機(jī)器老鼠)收到的獎(jiǎng)勵(lì),是環(huán)境針對(duì)智能體選擇的動(dòng)作所提供的額外反饋。獎(jiǎng)勵(lì)在RL中是非常重要的概念,本章后面就會(huì)談到它。現(xiàn)在,你只要知道智能體最終的目標(biāo)是獲取盡可能多的獎(jiǎng)勵(lì)就夠了。在這個(gè)例子中,機(jī)器老鼠需要尋找大量食物并承受少量電擊——對(duì)于機(jī)器老鼠而言,這比站著不動(dòng)且一無(wú)所獲要好得多。
我們不想將與環(huán)境有關(guān)的知識(shí)和每個(gè)特定環(huán)境下采取的最佳動(dòng)作硬編碼給機(jī)器老鼠——這樣太消耗精力了,而且只要環(huán)境稍微發(fā)生變化,這樣的硬編碼就失效了。我們想要的是一套神奇的方法,讓機(jī)器老鼠學(xué)著自己避開電流并收集盡可能多的食物。RL就是這樣一個(gè)與監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)都不一樣的神奇工具,它不像監(jiān)督學(xué)習(xí)那樣需要預(yù)定義好標(biāo)簽。沒有人將機(jī)器老鼠看到的所有圖片標(biāo)記為好或壞,也沒有人給出它需要轉(zhuǎn)向的最佳方向。
但是,它也不像非監(jiān)督學(xué)習(xí)那樣完全不需要其他信息,因?yàn)槲覀冇歇?jiǎng)勵(lì)系統(tǒng)。獎(jiǎng)勵(lì)可以是得到食物后的正向反饋、遭到電擊后的負(fù)向反饋,什么都沒發(fā)生時(shí)則無(wú)反饋。通過(guò)觀察獎(jiǎng)勵(lì)并將其與選擇的動(dòng)作關(guān)聯(lián)起來(lái),智能體將學(xué)習(xí)如何更好地選擇動(dòng)作,也就是獲取更多食物、受到更少的電擊。當(dāng)然,RL的通用性和靈活性也是有代價(jià)的。與監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)相比,RL被認(rèn)為是更具挑戰(zhàn)的領(lǐng)域。我們來(lái)快速討論一下RL有哪些棘手的地方。
- 機(jī)器視覺與人工智能應(yīng)用開發(fā)技術(shù)
- 機(jī)器學(xué)習(xí):Python實(shí)踐
- AIGC:讓生成式AI成為自己的外腦
- 智能制造時(shí)代的研發(fā)智慧:知識(shí)工程2.0
- 聯(lián)邦學(xué)習(xí)實(shí)戰(zhàn)
- 生成式AI:人工智能的未來(lái)
- 新一代人工智能:無(wú)代碼人工智能開發(fā)平臺(tái)實(shí)踐
- AI商業(yè)進(jìn)化論:“人工智能+”賦能新質(zhì)生產(chǎn)力發(fā)展
- 不會(huì)被機(jī)器替代的人:智能時(shí)代的生存策略
- 人工智能實(shí)戰(zhàn)進(jìn)階導(dǎo)引
- 深度學(xué)習(xí)在醫(yī)學(xué)圖像中的應(yīng)用
- Mahout算法解析與案例實(shí)戰(zhàn)
- 機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)(基于R的統(tǒng)計(jì)學(xué)習(xí)方法)
- 大模型項(xiàng)目實(shí)戰(zhàn):Agent開發(fā)與應(yīng)用
- AI虛擬仿真從入門到參賽