大年初五怎么迎财神

書名：深度強(qiáng)化學(xué)習(xí)實(shí)踐（原書第2版）
作者名： (俄)馬克西姆·拉潘
本章字?jǐn)?shù)： 1592字
更新時(shí)間： 2021-08-18 17:39:16

1.1　機(jī)器學(xué)習(xí)分類

1.1.1　監(jiān)督學(xué)習(xí)

你可能已經(jīng)熟悉了監(jiān)督學(xué)習(xí)的概念，監(jiān)督學(xué)習(xí)是被研究得最多且最著名的機(jī)器學(xué)習(xí)方法。它的基本問(wèn)題是，當(dāng)給定一系列帶標(biāo)簽的數(shù)據(jù)時(shí)，如何自動(dòng)構(gòu)建一個(gè)函數(shù)來(lái)將某些輸入映射成另外一些輸出。雖然這聽起來(lái)很簡(jiǎn)單，但仍存在一些棘手的問(wèn)題，計(jì)算機(jī)領(lǐng)域也是在最近才成功解決了部分問(wèn)題。監(jiān)督學(xué)習(xí)的例子有很多，包含：

文本分類：電子郵件是否是垃圾郵件？
圖像分類和目標(biāo)檢測(cè)：圖片包含了貓還是狗還是其他東西？
回歸問(wèn)題：根據(jù)氣象傳感器的信息判斷明天的天氣。
情感分析：某份評(píng)價(jià)反應(yīng)的客戶滿意度是多少？

這些問(wèn)題貌似不同，但思想一致——我們有很多輸入輸出對(duì)，并想通過(guò)學(xué)習(xí)它的規(guī)律來(lái)讓未來(lái)的、當(dāng)前不可見的輸入能產(chǎn)生準(zhǔn)確的輸出。根據(jù)“標(biāo)準(zhǔn)答案”數(shù)據(jù)源給出的已知答案來(lái)學(xué)習(xí)，這就是監(jiān)督一詞的由來(lái)。

1.1.2　非監(jiān)督學(xué)習(xí)

另外一個(gè)極端就是所謂的非監(jiān)督學(xué)習(xí)，它假設(shè)我們的數(shù)據(jù)沒有已知的標(biāo)簽。它的主要目標(biāo)是從當(dāng)前的數(shù)據(jù)集中學(xué)習(xí)一些隱藏的結(jié)構(gòu)。這種學(xué)習(xí)方法的常見例子就是對(duì)數(shù)據(jù)進(jìn)行聚類。該算法用于將數(shù)據(jù)分類成不同組，以揭示數(shù)據(jù)間的關(guān)系。例如，想要找到相似的圖片或者有類似行為的客戶。

另一類正變得越來(lái)越流行的非監(jiān)督學(xué)習(xí)方法是生成對(duì)抗網(wǎng)絡(luò)（Generative Adversarial Network，GAN）。當(dāng)有兩個(gè)相互競(jìng)爭(zhēng)的網(wǎng)絡(luò)時(shí)，一個(gè)網(wǎng)絡(luò)試著生成假數(shù)據(jù)來(lái)愚弄第二個(gè)網(wǎng)絡(luò)，而第二個(gè)網(wǎng)絡(luò)則努力將偽造的數(shù)據(jù)和真實(shí)的采樣數(shù)據(jù)區(qū)分開。隨著時(shí)間的流逝，兩個(gè)網(wǎng)絡(luò)都通過(guò)捕獲數(shù)據(jù)中一些細(xì)微的特定模式變得越來(lái)越強(qiáng)大。

1.1.3　強(qiáng)化學(xué)習(xí)

RL則處于第三陣營(yíng)，介于完全監(jiān)督和完全沒有預(yù)定義標(biāo)簽之間。它會(huì)用到很多已經(jīng)比較完善的監(jiān)督學(xué)習(xí)方法來(lái)學(xué)習(xí)數(shù)據(jù)的表示，比如用深度神經(jīng)網(wǎng)絡(luò)（deep neural network）來(lái)進(jìn)行函數(shù)逼近、隨機(jī)梯度下降和反向傳播。但它會(huì)用不同的方式來(lái)使用這些方法。

本章接下來(lái)的兩節(jié)將介紹RL方法的一些具體細(xì)節(jié)，包括用嚴(yán)格的數(shù)學(xué)形式來(lái)建立假設(shè)和抽象。而本節(jié)會(huì)用比較不正式但很容易理解的方式來(lái)比較RL和監(jiān)督學(xué)習(xí)以及非監(jiān)督學(xué)習(xí)之間的區(qū)別。

想象在某環(huán)境下有個(gè)需要選擇動(dòng)作的智能體。（本章后面會(huì)給出“智能體”和“環(huán)境”的詳細(xì)定義。）迷宮中的機(jī)器老鼠就是一個(gè)很好的例子，當(dāng)然你也可以想象一個(gè)無(wú)人操作的直升機(jī)在盤旋，或一個(gè)國(guó)際象棋程序要學(xué)著如何擊敗一名大師級(jí)棋手。為了簡(jiǎn)單起見，我們以機(jī)器老鼠為例（見圖1.1）。

圖1.1　機(jī)器老鼠的迷宮世界

在本例中，環(huán)境就是迷宮，迷宮里會(huì)有一些地方有食物，還有些地方有電流。機(jī)器老鼠能夠選擇動(dòng)作，比如左轉(zhuǎn)、右轉(zhuǎn)以及前進(jìn)。每一時(shí)刻，它都能觀察到迷宮的整體狀態(tài)并據(jù)此決定選擇什么動(dòng)作。機(jī)器老鼠的目的是找到盡可能多的食物，同時(shí)盡可能避免被電擊。這些食物和電信號(hào)代表智能體（機(jī)器老鼠）收到的獎(jiǎng)勵(lì)，是環(huán)境針對(duì)智能體選擇的動(dòng)作所提供的額外反饋。獎(jiǎng)勵(lì)在RL中是非常重要的概念，本章后面就會(huì)談到它。現(xiàn)在，你只要知道智能體最終的目標(biāo)是獲取盡可能多的獎(jiǎng)勵(lì)就夠了。在這個(gè)例子中，機(jī)器老鼠需要尋找大量食物并承受少量電擊——對(duì)于機(jī)器老鼠而言，這比站著不動(dòng)且一無(wú)所獲要好得多。

我們不想將與環(huán)境有關(guān)的知識(shí)和每個(gè)特定環(huán)境下采取的最佳動(dòng)作硬編碼給機(jī)器老鼠——這樣太消耗精力了，而且只要環(huán)境稍微發(fā)生變化，這樣的硬編碼就失效了。我們想要的是一套神奇的方法，讓機(jī)器老鼠學(xué)著自己避開電流并收集盡可能多的食物。RL就是這樣一個(gè)與監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)都不一樣的神奇工具，它不像監(jiān)督學(xué)習(xí)那樣需要預(yù)定義好標(biāo)簽。沒有人將機(jī)器老鼠看到的所有圖片標(biāo)記為好或壞，也沒有人給出它需要轉(zhuǎn)向的最佳方向。

但是，它也不像非監(jiān)督學(xué)習(xí)那樣完全不需要其他信息，因?yàn)槲覀冇歇?jiǎng)勵(lì)系統(tǒng)。獎(jiǎng)勵(lì)可以是得到食物后的正向反饋、遭到電擊后的負(fù)向反饋，什么都沒發(fā)生時(shí)則無(wú)反饋。通過(guò)觀察獎(jiǎng)勵(lì)并將其與選擇的動(dòng)作關(guān)聯(lián)起來(lái)，智能體將學(xué)習(xí)如何更好地選擇動(dòng)作，也就是獲取更多食物、受到更少的電擊。當(dāng)然，RL的通用性和靈活性也是有代價(jià)的。與監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)相比，RL被認(rèn)為是更具挑戰(zhàn)的領(lǐng)域。我們來(lái)快速討論一下RL有哪些棘手的地方。

官术网_书友最值得收藏!

深度強(qiáng)化學(xué)習(xí)實(shí)踐（原書第2版）

1.1 機(jī)器學(xué)習(xí)分類

1.1.1 監(jiān)督學(xué)習(xí)

1.1.2 非監(jiān)督學(xué)習(xí)

1.1.3 強(qiáng)化學(xué)習(xí)

1.1　機(jī)器學(xué)習(xí)分類

1.1.1　監(jiān)督學(xué)習(xí)

1.1.2　非監(jiān)督學(xué)習(xí)

1.1.3　強(qiáng)化學(xué)習(xí)