官术网_书友最值得收藏!

1.3 強化學習的形式

每一個科學和工程領域都有自己的假設和局限性。在前一節中,我們討論了監督學習,其中的假設是輸入輸出對的知識。數據沒有標簽嗎?你需要弄清楚如何獲取標簽或嘗試一些其他的理論。這不是說監督學習好或壞,只能說它不適用于你的問題。

歷史上有許多實踐和理論突破的例子,都是在某人試圖以創造性的方式挑戰規則的時候出現的。但是,我們也必須要理解我們的局限性。了解和理解各種方法的游戲規則是很重要的,因為它能為你節省大量的時間。當然,RL也存在這樣的形式,本書的其余部分將從不同的角度分析它們。

圖1.2顯示了兩個主要的RL實體(智能體環境)以及它們之間的交互通道(動作獎勵觀察)。我們會在下面的幾小節中詳細討論它們。

022-01

圖1.2 RL實體和它們之間的交互通道

1.3.1 獎勵

我們回到獎勵的概念上來。在RL中,它只是從環境中周期性獲得的一個標量。如前所述,獎勵可正可負、可大可小,但它只是一個數字。獎勵的目的是告訴智能體它表現得如何。我們不會定義智能體會多頻繁地收到獎勵——可能是每秒一次,也可能是一生一次。但為了方便,通常會將頻率設為每固定時間戳一次或每與環境交互一次。在一生一次的獎勵系統中,除了最后一次外,所有的獎勵都是0。

正如我所說,獎勵的目的是告訴智能體它有多成功,這是RL最核心的東西。強化(reinforcement)這個術語就出自此,即智能體獲得的獎勵應該正向或反向地強化它的行為。獎勵是局部的,意味著它反映了智能體最近的行為有多成功,而不是從開始到現在累計的行為有多成功。當然,從某些動作中獲得了巨大的獎勵并不意味著之后不會因為這個決定而面臨窘境。這就像搶銀行——在你考慮到后果之前,它可能看起來是個“好主意”。

智能體試圖在一系列動作中獲取最大的累積獎勵。若想更好地理解獎勵,請參考以下具體示例:

  • 金融交易:對買賣股票的交易者來說,獎勵就是收益的多少。
  • 國際象棋:獎勵在游戲結束時以贏、輸或平局的形式獲得。當然,這也取決于平臺。例如,對我來說,能與國際象棋大師打平就算巨大的獎勵。實際上,我們需要指定獎勵的具體值,但這可能會是一個相當復雜的表達式。例如,在國際象棋中,獎勵可能與對手的強弱成比例。
  • 大腦中的多巴胺系統:大腦中有一塊區域(邊緣系統)會在每次需要給大腦的其他部分發送積極信號時釋放多巴胺。高濃度的多巴胺會使人產生愉悅感,從而加強此系統認為好的行為。不幸的是,邊緣系統比較“過時”,它會認為食物、繁殖和支配是好的,但這又是另外一個故事了。
  • 電腦游戲:玩家總是能得到很明顯的反饋,即殺死敵人的數量或獲得的分數。注意,在這個例子中,反饋已經被累積了,所以街機游戲的RL獎勵應該是分數的導數,即新的敵人被殺時是1,其他時候都是0。
  • 網頁瀏覽:存在一些有很高實用價值的問題,即需要對網頁上可用的信息進行自動抽取。搜索引擎通常就是為了解決這個問題,但有時,為了獲得正在尋找的數據,需要填一些表單,瀏覽一系列鏈接或輸入驗證碼,而這對于搜索引擎來說是很困難的事。有一種基于RL的方法可以處理這些任務,獎勵就是你想獲得的信息或結果。
  • 神經網絡(Neural Network,NN)結構搜索:RL已成功應用于NN結構優化領域,它的目標是通過一些手段在一些數據集中獲得最佳性能,這些手段通常包括調整網絡的層數或參數、添加額外的殘差連接,或對NN結構做出其他改變。這種情況下,獎勵就是NN的性能(準確性或其他能衡量NN預測是否精準的度量)。
  • 狗的訓練:如果你曾訓練過狗,就知道每次要求它做什么的時候,需要給它一些好吃的(但不要太多)。當它不聽從命令時,施加一點懲罰(負向獎勵)也是常見的手段,但最近的研究表明這不如正向獎勵有效。
  • 學習成績:我們都經歷過!學習成績就是一種獎勵系統,旨在給學生提供學習反饋。

正如前面的示例所示,獎勵的概念是對智能體性能如何的一個非常普遍的指示,它也能被人為地注入我們周圍的許多實際問題中。

1.3.2 智能體

智能體是通過執行確定的動作、進行觀察、獲得最終的獎勵來和環境交互的人或物。在大多數實際RL場景中,智能體是某種軟件的一部分,被期望以一種比較有效的方法來解決某個問題。前面示例中的智能體如下:

  • 金融交易:決定交易如何執行的交易系統或交易員。
  • 國際象棋:玩家或計算機程序。
  • 大腦中的多巴胺系統:大腦本身,它根據感官數據決定是否是一次好的經歷。
  • 電腦游戲:玩游戲的玩家或計算機程序。(Andrej Karpathy曾發過推特說:“我們曾說應該讓AI做所有的工作,我們自己只用玩游戲就行了。但是現在是我們在做所有的工作,而AI在玩游戲!”)
  • 網頁瀏覽:告訴瀏覽器點哪個鏈接、往哪動鼠標、輸入哪些文本的軟件。
  • NN結構搜索:控制NN具體結構的軟件。
  • 狗的訓練:你會決定選擇什么動作(投食/懲罰),所以你就是智能體。
  • 學習成績:學生。

1.3.3 環境

環境是智能體外部的一切。從最一般的意義來說,它是宇宙的剩余部分,但這有點過分了,甚至超出了未來的計算能力,所以我們通常遵循一般的意義。

智能體和環境的交互僅限于獎勵(從環境中獲得)、動作(由智能體執行并饋入環境)以及觀察(智能體從環境中獲得的除獎勵之外的一些信息)。獎勵已經討論過了,是時候討論動作和觀察了。

1.3.4 動作

動作是智能體在環境中可以做的事情。例如,動作可以是基于游戲規則(如果是游戲的話)的一次移動,也可以是做作業(在學校的場景下)。它們可以像將小兵向前移動一格一樣簡單,也可以像為明天早晨填寫納稅申報表這么復雜。

在RL中會區分兩種類型的動作——離散動作和連續動作。離散動作構成了智能體可以做的互斥的有限集合,例如向左移動或向右移動。連續動作會涉及數值,例如汽車轉動方向盤的動作在操作上就涉及角度和方向的數值。不同的角度可能會導致一秒后的情況有所不同,所以只轉動方向盤肯定是不夠的。

1.3.5 觀察

對環境的觀察形成了智能體的第二個信息渠道(第一個信息渠道是獎勵)。你可能會奇怪為什么我們需要這個單獨的數據源。答案是方便。觀察是環境為智能體提供的信息,它能說明智能體周圍的情況。

觀察可能與即將到來的獎勵有關(例如,看到銀行的付款通知),也可能無關。觀察甚至可以包含某種模糊的獎勵信息,例如電腦游戲屏幕上的分數。分數只是像素,但我們可以將其轉換成獎勵值。對于現代DL來說,這并不是什么難事。

另一方面,獎勵不應該被視為次要的或不重要的事情,而應該被視為驅動智能體學習的主要力量。如果獎勵是錯誤的、有噪聲的或只是稍微偏離主要目標,那么訓練就有可能朝著錯誤的方向前進。

區分環境的狀態和觀察也很重要。環境的狀態可能包括宇宙中的所有原子,這讓測量環境中的所有東西變得不可能。即使將環境的狀態限制得足夠小,在大多數情況下,也要么無法得到關于它的全部信息,要么測量的結果中會包含噪聲。不過,這完全沒有問題,RL的誕生就是為了處理這種情況。我們再一次回到那些示例,來看看這兩個概念之間的差異:

  • 金融交易:在這里,環境指整個金融市場和所有影響它的事物。這涵蓋非常多的事情,例如最近的新聞、經濟和政治狀況、天氣、食物供應和推特趨勢。甚至你今天決定待在家里的決定也可能會間接影響世界的金融系統(如果你相信“蝴蝶效應”的話)。然而,我們的觀察僅限于股票價格、新聞等。我們無法查看環境中的大部分狀態(是它們使金融交易變得如此復雜)。
  • 國際象棋:這里的環境是你的棋盤加上你的對手,包括他們的棋藝、心情、大腦狀態、選擇的戰術等。觀察就是你看到的一切(當前棋子的位置),但是,在某些級別的對決中,心理學的知識和讀懂對手情緒的能力可以增加你獲勝的概率。
  • 大腦中的多巴胺系統:這里的環境是你的大腦、神經系統、器官加上你能感知的整體世界。觀察是大腦內部的狀態和來自感官的信號。
  • 電腦游戲:這里的環境是你的計算機的狀態,包括所有內存和磁盤數據。對于網絡游戲來說,還包括其他計算機以及它們與你的計算機之間的所有互聯網基礎設施[1]。觀察則只是屏幕中的像素和聲音。這些像素信息并不是小數量級的(有人計算過,取中等大小圖片(1024×768)的像素進行排列組合,其可能結果的數量明顯大于我們星系中的原子數量),但整個環境的狀態的數量級肯定更大。
  • 網頁瀏覽:這里的環境是互聯網,包括我們的工作計算機和服務器計算機之間的所有網絡基礎設施,包含了數百萬個不同的組件。觀察則是當前瀏覽步驟中加載的網頁。
  • NN結構搜索:在本例中,環境相當簡單,包括執行特定NN評估的工具集和用于獲取性能指標的數據集。與互聯網相比,它就像個玩具環境。觀察則不同,它包括關于測試的一些信息,例如損失函數的收斂狀態或者能從評估步驟中獲得的其他指標。
  • 狗的訓練:在本例中,環境是狗(包括它那難以觀察到的內心反應、心情和生活經歷)和它周圍的一切,以及其他狗,甚至是躲在灌木叢中的貓。觀察則是你的感官信號和記憶。
  • 學習成績:這里的環境是學校本身、國家的教育體系、社會和文化遺產。觀察則是學生的感官和記憶。

這是我們會接觸到的場景,本書其余部分都會圍繞著它進行。你可能已經注意到,RL模型非常靈活、通用,能被用到各種場景中去。在深入研究RL模型之前,我們先看看RL與其他領域的關聯。

有許多領域都與RL有關。最重要的一些領域如圖1.3所示,其中包括6個在方法和特定主題方面都有大量重疊的大型領域,它們都與決策相關(顯示在灰色圓圈內)。

026-01

圖1.3 RL中的不同領域

這些科學領域雖然相關但不同,而RL就處在它們的交匯處,它十分通用和靈活,可以從這些不同的領域中借鑒最有用的信息:

  • ML:RL是ML的分支,它從ML借鑒了許多機制、技巧和技術。基本上,RL的目標是在給定不完整觀察數據的情況下,學習智能體的最優行動。
  • 工程學(尤其是最優控制):幫助RL識別如何采取一系列最優動作來獲得最佳結果。
  • 神經科學:以多巴胺系統為例,說明人腦的行為和RL模型很類似。
  • 心理學:心理學研究在各種條件下的行為,例如人們對環境的反應和適應方式,這與RL的主題很接近。
  • 經濟學:經濟學的一個重要主題是,如何在知識不完善以及現實世界不斷變化的條件下,最大化獎勵。
  • 數學:適用于理想化的系統,同時也致力于運籌學領域中最優條件的尋找和實現。

本章的下一部分將介紹RL的理論基礎,這是開始使用RL方法來解決問題的第一步。接下來的部分對于理解本書的其余部分來說很重要。


[1]包括路由器、交換機、光纖等。——譯者注

主站蜘蛛池模板: 丹巴县| 丰城市| 云和县| 湘潭市| 五华县| 江山市| 屯留县| 奉化市| 威海市| 蚌埠市| 崇礼县| 三明市| 邵阳县| 平度市| 淳化县| 南雄市| 常宁市| 台北市| 伽师县| 辽阳市| 淳化县| 杂多县| 高邮市| 汶川县| 嘉鱼县| 永春县| 浠水县| 彰化县| 商南县| 安吉县| 阿拉善右旗| 沾益县| 开封县| 芒康县| 思南县| 遂川县| 乌什县| 托克托县| 云龙县| 长春市| 宁河县|