官术网_书友最值得收藏!

1.1 機(jī)器學(xué)習(xí)分類

1.1.1 監(jiān)督學(xué)習(xí)

你可能已經(jīng)熟悉了監(jiān)督學(xué)習(xí)的概念,監(jiān)督學(xué)習(xí)是被研究得最多且最著名的機(jī)器學(xué)習(xí)方法。它的基本問(wèn)題是,當(dāng)給定一系列帶標(biāo)簽的數(shù)據(jù)時(shí),如何自動(dòng)構(gòu)建一個(gè)函數(shù)來(lái)將某些輸入映射成另外一些輸出。雖然這聽起來(lái)很簡(jiǎn)單,但仍存在一些棘手的問(wèn)題,計(jì)算機(jī)領(lǐng)域也是在最近才成功解決了部分問(wèn)題。監(jiān)督學(xué)習(xí)的例子有很多,包含:

  • 文本分類:電子郵件是否是垃圾郵件?
  • 圖像分類和目標(biāo)檢測(cè):圖片包含了貓還是狗還是其他東西?
  • 回歸問(wèn)題:根據(jù)氣象傳感器的信息判斷明天的天氣。
  • 情感分析:某份評(píng)價(jià)反應(yīng)的客戶滿意度是多少?

這些問(wèn)題貌似不同,但思想一致——我們有很多輸入輸出對(duì),并想通過(guò)學(xué)習(xí)它的規(guī)律來(lái)讓未來(lái)的、當(dāng)前不可見的輸入能產(chǎn)生準(zhǔn)確的輸出。根據(jù)“標(biāo)準(zhǔn)答案”數(shù)據(jù)源給出的已知答案來(lái)學(xué)習(xí),這就是監(jiān)督一詞的由來(lái)。

1.1.2 非監(jiān)督學(xué)習(xí)

另外一個(gè)極端就是所謂的非監(jiān)督學(xué)習(xí),它假設(shè)我們的數(shù)據(jù)沒有已知的標(biāo)簽。它的主要目標(biāo)是從當(dāng)前的數(shù)據(jù)集中學(xué)習(xí)一些隱藏的結(jié)構(gòu)。這種學(xué)習(xí)方法的常見例子就是對(duì)數(shù)據(jù)進(jìn)行聚類。該算法用于將數(shù)據(jù)分類成不同組,以揭示數(shù)據(jù)間的關(guān)系。例如,想要找到相似的圖片或者有類似行為的客戶。

另一類正變得越來(lái)越流行的非監(jiān)督學(xué)習(xí)方法是生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)。當(dāng)有兩個(gè)相互競(jìng)爭(zhēng)的網(wǎng)絡(luò)時(shí),一個(gè)網(wǎng)絡(luò)試著生成假數(shù)據(jù)來(lái)愚弄第二個(gè)網(wǎng)絡(luò),而第二個(gè)網(wǎng)絡(luò)則努力將偽造的數(shù)據(jù)和真實(shí)的采樣數(shù)據(jù)區(qū)分開。隨著時(shí)間的流逝,兩個(gè)網(wǎng)絡(luò)都通過(guò)捕獲數(shù)據(jù)中一些細(xì)微的特定模式變得越來(lái)越強(qiáng)大。

1.1.3 強(qiáng)化學(xué)習(xí)

RL則處于第三陣營(yíng),介于完全監(jiān)督和完全沒有預(yù)定義標(biāo)簽之間。它會(huì)用到很多已經(jīng)比較完善的監(jiān)督學(xué)習(xí)方法來(lái)學(xué)習(xí)數(shù)據(jù)的表示,比如用深度神經(jīng)網(wǎng)絡(luò)(deep neural network)來(lái)進(jìn)行函數(shù)逼近、隨機(jī)梯度下降和反向傳播。但它會(huì)用不同的方式來(lái)使用這些方法。

本章接下來(lái)的兩節(jié)將介紹RL方法的一些具體細(xì)節(jié),包括用嚴(yán)格的數(shù)學(xué)形式來(lái)建立假設(shè)和抽象。而本節(jié)會(huì)用比較不正式但很容易理解的方式來(lái)比較RL和監(jiān)督學(xué)習(xí)以及非監(jiān)督學(xué)習(xí)之間的區(qū)別。

想象在某環(huán)境下有個(gè)需要選擇動(dòng)作的智能體。(本章后面會(huì)給出“智能體”和“環(huán)境”的詳細(xì)定義。)迷宮中的機(jī)器老鼠就是一個(gè)很好的例子,當(dāng)然你也可以想象一個(gè)無(wú)人操作的直升機(jī)在盤旋,或一個(gè)國(guó)際象棋程序要學(xué)著如何擊敗一名大師級(jí)棋手。為了簡(jiǎn)單起見,我們以機(jī)器老鼠為例(見圖1.1)。

020-01

圖1.1 機(jī)器老鼠的迷宮世界

在本例中,環(huán)境就是迷宮,迷宮里會(huì)有一些地方有食物,還有些地方有電流。機(jī)器老鼠能夠選擇動(dòng)作,比如左轉(zhuǎn)、右轉(zhuǎn)以及前進(jìn)。每一時(shí)刻,它都能觀察到迷宮的整體狀態(tài)并據(jù)此決定選擇什么動(dòng)作。機(jī)器老鼠的目的是找到盡可能多的食物,同時(shí)盡可能避免被電擊。這些食物和電信號(hào)代表智能體(機(jī)器老鼠)收到的獎(jiǎng)勵(lì),是環(huán)境針對(duì)智能體選擇的動(dòng)作所提供的額外反饋。獎(jiǎng)勵(lì)在RL中是非常重要的概念,本章后面就會(huì)談到它。現(xiàn)在,你只要知道智能體最終的目標(biāo)是獲取盡可能多的獎(jiǎng)勵(lì)就夠了。在這個(gè)例子中,機(jī)器老鼠需要尋找大量食物并承受少量電擊——對(duì)于機(jī)器老鼠而言,這比站著不動(dòng)且一無(wú)所獲要好得多。

我們不想將與環(huán)境有關(guān)的知識(shí)和每個(gè)特定環(huán)境下采取的最佳動(dòng)作硬編碼給機(jī)器老鼠——這樣太消耗精力了,而且只要環(huán)境稍微發(fā)生變化,這樣的硬編碼就失效了。我們想要的是一套神奇的方法,讓機(jī)器老鼠學(xué)著自己避開電流并收集盡可能多的食物。RL就是這樣一個(gè)與監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)都不一樣的神奇工具,它不像監(jiān)督學(xué)習(xí)那樣需要預(yù)定義好標(biāo)簽。沒有人將機(jī)器老鼠看到的所有圖片標(biāo)記為好或壞,也沒有人給出它需要轉(zhuǎn)向的最佳方向。

但是,它也不像非監(jiān)督學(xué)習(xí)那樣完全不需要其他信息,因?yàn)槲覀冇歇?jiǎng)勵(lì)系統(tǒng)。獎(jiǎng)勵(lì)可以是得到食物后的正向反饋、遭到電擊后的負(fù)向反饋,什么都沒發(fā)生時(shí)則無(wú)反饋。通過(guò)觀察獎(jiǎng)勵(lì)并將其與選擇的動(dòng)作關(guān)聯(lián)起來(lái),智能體將學(xué)習(xí)如何更好地選擇動(dòng)作,也就是獲取更多食物、受到更少的電擊。當(dāng)然,RL的通用性和靈活性也是有代價(jià)的。與監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)相比,RL被認(rèn)為是更具挑戰(zhàn)的領(lǐng)域。我們來(lái)快速討論一下RL有哪些棘手的地方。

主站蜘蛛池模板: 青川县| 新竹市| 哈巴河县| 元氏县| 莆田市| 浏阳市| 锡林浩特市| 武平县| 外汇| 唐山市| 永安市| 常德市| 贵州省| 鹰潭市| 临沂市| 镇坪县| 南木林县| 济宁市| 铜梁县| 大兴区| 宝清县| 大港区| 沿河| 贺州市| 峨眉山市| 翁牛特旗| 无为县| 丰原市| 天全县| 抚远县| 大同市| 湾仔区| 玉溪市| 怀远县| 沙田区| 新平| 新蔡县| 屏东市| 五指山市| 龙江县| 巩留县|