给牛加部首

書名： MATLAB機器學習
作者名： (意)朱塞佩·恰布羅
本章字數(shù)： 1654字
更新時間： 2020-05-21 10:46:53

1.2 機器學習算法的分類

機器學習算法的能力來源于算法的質量譯者注：泛化（generalization）能力。，這正是過去這些年科學家著力更新、改進的內容。這些算法根據(jù)使用的輸入數(shù)據(jù)、訓練方式以及學習到的模型的輸出結果，可分為如下3類。

（1）監(jiān)督學習：這類算法根據(jù)一系列樣本（每個樣本的輸入有對應的輸出）的觀測結果建立從輸入到輸出的映射關系，最終構建一個預測模型。

（2）非監(jiān)督學習：這類算法只需一系列樣本點的輸入，不需要樣本事先標注出對應的輸出。算法學習的信息能夠構建一個描述性模型譯者注：描述這個數(shù)據(jù)集樣本間某種關系的模型。，一個經(jīng)典的例子是搜索引擎譯者注：可以通過網(wǎng)頁間的相互引用關系、文本內容等，自動將不同網(wǎng)站進行歸類。。

（3）強化學習：這種算法能夠通過多次迭代并觀察每次迭代后環(huán)境產(chǎn)生的反饋進行學習。事實上，每次迭代后的輸出結果和模型采取的行動都會對環(huán)境產(chǎn)生影響，而環(huán)境也會針對這些影響進行反饋。這類算法多用于語音識別和文本識別譯者注：還有游戲角色的開發(fā)。。

圖1.5描述了不同機器學習算法間的關系。

圖1.5 機器學習算法分類

1.2.1 監(jiān)督學習

監(jiān)督學習同時用樣本的輸入集合I和每個樣本對應的標簽集合O作為輸入數(shù)據(jù)，能夠建立從輸入I到標簽O的映射關系f，即模型與參數(shù)間的關系。用于求解模型、參數(shù)的數(shù)據(jù)集稱為訓練集（training set）。監(jiān)督學習的訓練流程如圖1.6所示。

圖1.6 監(jiān)督學習訓練流程

所有監(jiān)督學習算法的訓練都基于以下這個論斷：如果一個算法擁有足夠大的訓練集，那么經(jīng)過訓練后，它能夠建立一個映射關系B——這個映射關系能夠無限逼近于潛在的真實映射關系A。譯者注：從概率論的角度來說，如果數(shù)據(jù)集中的所有樣本都是從同一分布P(A)中抽樣得到的，那么通過向監(jiān)督學習算法輸入足夠的樣本，算法優(yōu)化后得到的分布P(B)能夠無限逼近真實分布P(A)。

在用于預測問題時，監(jiān)督學習假設相似的輸入有相似的輸出。也就是說，當B足夠接近A時，在新數(shù)據(jù)上應用時，給B和A同一輸入，應該產(chǎn)生相似的輸出結果。譯者注：從概率論的角度來說，將模型P(B)應用在新數(shù)據(jù)上時，其輸出結果應當與真實分布P(A)的輸出結果相似。

總體來說，在實際應用中這兩個假設并不總是成立的。顯然，這種算法的最終表現(xiàn)在很大程度上取決于輸入數(shù)據(jù)集的質量。如果輸入數(shù)據(jù)集只包含少量樣本，那么訓練得到的模型就沒有學習到足夠經(jīng)驗以進行正確預測。相反，過多的冗余樣本將導致優(yōu)化的模型過于復雜，會降低模型的執(zhí)行速度。

此外，在實際開發(fā)中我們發(fā)現(xiàn)，監(jiān)督學習算法對數(shù)據(jù)集中的噪聲、奇異值非常敏感。即使很小比例的奇異值，也將導致整個系統(tǒng)產(chǎn)生極大偏誤，并給出錯誤預測。譯者注：這段話太片面，在頻率視角下和概率視角下的最大似然估計方法、貝葉斯方法中的高斯分布（單極值點）的確存在這個問題。但是對于多數(shù)模型，添加先驗概率后的后驗概率分布在很大程度上解決了這個問題。對于多極值點的模型，高斯混合分布的魯棒性是非常高的。因為這段話我不太認同，所以在這里專門添加了譯者注。

在監(jiān)督學習中，我們可以根據(jù)輸入數(shù)據(jù)的特點、學習任務的不同，將其分成兩類。當需要輸出離散類型的數(shù)據(jù)和對數(shù)據(jù)集中的樣本進行歸類時，此類問題稱為分類問題；當需要輸出連續(xù)的結果時，這類問題稱為回歸問題。

1.2.2 非監(jiān)督學習

非監(jiān)督學習的目標是自動從數(shù)據(jù)集中提取信息，整個過程中沒有事先對數(shù)據(jù)集給出任何先驗假設。與監(jiān)督學習不同，訓練數(shù)據(jù)集只包含樣本的輸入，不包含對應的輸出。非監(jiān)督學習的目標是能夠自動在數(shù)據(jù)集中發(fā)現(xiàn)有用的信息，例如聚類（根據(jù)樣本間的相似特點將樣本組合在一起），典型的應用是搜索引擎。譯者注：搜索引擎的學習算法能夠通過網(wǎng)頁間的相互引用關系、文本內容等，自動將不同網(wǎng)站分類。當用戶輸入搜索關鍵詞時，算法同樣可以將用戶輸入的指令進行歸類，并將屬于同一類別的網(wǎng)頁返回給用戶。在整個過程中，算法都沒有得到任何有關類別的信息，但通過計算樣本間的相似度，算法能夠自動建立樣本間的聯(lián)系。

非監(jiān)督學習算法的有效性在很大程度上取決于從數(shù)據(jù)集中抽取到的信息質量。這些算法通過比較數(shù)據(jù)集中樣本間的相似和不同之處來進行學習。圖1.7展示了監(jiān)督學習和非監(jiān)督學習的例子。

圖1.7 監(jiān)督學習vs. 非監(jiān)督學習

非監(jiān)督學習在處理數(shù)值型數(shù)據(jù)集時具有很好的表現(xiàn)，但當處理非數(shù)值型數(shù)據(jù)集時，精確度會下降一些。總體來說，非監(jiān)督學習適合處理含有順序的，或者能夠被明顯劃分成組并被明確辨識的數(shù)據(jù)集。

1.2.3 強化學習

強化學習的目標是構建一種算法，這類算法通過多次迭代和觀察每次迭代后環(huán)境產(chǎn)生的反饋進行學習。這類算法借助模型輸出決策所引起的外部環(huán)境反饋進行交互式學習。當模型給出正確決策時，外部環(huán)境會給予正向獎勵；當出錯時，外部環(huán)境會給予負向懲罰。算法的學習目標是最大化獎勵。

監(jiān)督學習好比一位“老師” 譯者注：是指數(shù)據(jù)集中含有標注。，通過標注數(shù)據(jù)來教學生（算法）學習。然而，不是對于所有問題都可以有這種“老師”。很多情況下，即使人類也只能給出定性的信息（好/壞、成功/失敗等）。

這類定性信息稱為“增強信號”（reinforcement signal）。在這種情況下，模型只能得到每次學習結果的增強信號，無法獲取任何關于如何優(yōu)化智能體（agent）表現(xiàn)（模型參數(shù)）的信息。因為我們無法針對結果定義損失函數(shù)（cost function），所以也就無法計算出梯度（gradient）以供模型優(yōu)化參數(shù)。強化學習的解決辦法是創(chuàng)建聰明的智能體并在外部環(huán)境中不斷試錯，來從經(jīng)驗中學習。

圖1.8展示了強化學習的流程。

圖1.8 強化學習與環(huán)境間的交互

官术网_书友最值得收藏!

MATLAB機器學習

1.2 機器學習算法的分類

1.2.1 監(jiān)督學習

1.2.2 非監(jiān)督學習

1.2.3 強化學習