生肖派对最新版下载

書名： MATLAB機(jī)器學(xué)習(xí)
作者名： (意)朱塞佩·恰布羅
本章字?jǐn)?shù)： 1674字
更新時間： 2020-05-21 10:46:52

1.1 機(jī)器學(xué)習(xí)基礎(chǔ)

定義機(jī)器學(xué)習(xí)不是一件簡單的事情。我們先來看看機(jī)器學(xué)習(xí)領(lǐng)域的大牛們（見圖1.1）是如何定義的。

圖1.1 機(jī)器學(xué)習(xí)歷史

機(jī)器學(xué)習(xí)：研究如何讓計算機(jī)在未被明確編寫指令的情形下能夠自主學(xué)習(xí)的領(lǐng)域。

——亞瑟·L. 塞繆爾（Arthur L. Samuel），1959

另一個定義為：

“機(jī)器學(xué)習(xí)”是指使系統(tǒng)能夠在下一次更有效地執(zhí)行同一任務(wù)（或采樣于同一總體的任務(wù)）的自我適應(yīng)和自我調(diào)整的能力。

——赫伯特·亞歷山大·西蒙（Herbert Alexander Simon），1984

還有一種定義為：

假設(shè)對于任務(wù)T，有相對應(yīng)的經(jīng)驗E以及評價指標(biāo)P，那么機(jī)器學(xué)習(xí)指的是能夠在執(zhí)行任務(wù)T時通過學(xué)習(xí)經(jīng)驗E可以提高評價指標(biāo)P的一種程序。

——湯姆·M. 米切爾（Tom M. Mitchell），1998

這些定義的共同點是，它們都指向了一種在沒有任何外界幫助的情況下，從經(jīng)驗中學(xué)習(xí)的能力。這正是許多情況下人類學(xué)習(xí)的方式，那為何我們不能讓機(jī)器譯者注：算法。也具有同樣的能力呢？

機(jī)器學(xué)習(xí)是一門由計算機(jī)科學(xué)、統(tǒng)計學(xué)、神經(jīng)生物學(xué)和控制理論衍生出的交叉學(xué)科。它在一些領(lǐng)域中扮演了至關(guān)重要的角色，并且已經(jīng)徹底地改變了人們對編程的理解。如果之前我們要解決的問題是“如何給計算機(jī)編寫程序”，那么現(xiàn)在我們的問題是“如何讓計算機(jī)自己給自己編寫程序”？

因此，機(jī)器學(xué)習(xí)可以被視為賦予計算機(jī)“智能”的基礎(chǔ)理論。

與大多數(shù)人的直覺一致，機(jī)器學(xué)習(xí)的發(fā)展與對人類學(xué)習(xí)方式的研究緊密相關(guān)。人類直覺、智能的基礎(chǔ)是大腦及其中的神經(jīng)元，相應(yīng)地，計算機(jī)進(jìn)行決策的基礎(chǔ)可以是人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，ANN）。

機(jī)器學(xué)習(xí)使我們能夠從數(shù)據(jù)集中找到描述此數(shù)據(jù)集的模型。例如，給定一個系統(tǒng)，我們可以從中自動建立輸入變量到輸出變量的對應(yīng)關(guān)系。其中一種方法是首先假設(shè)數(shù)據(jù)的產(chǎn)生是遵循某種由參數(shù)指定的機(jī)制的，只是參數(shù)的具體值是未知的。譯者注：機(jī)器學(xué)習(xí)方法能夠自動從數(shù)據(jù)集中擬合出描述此數(shù)據(jù)集的模型。例如，給定數(shù)據(jù)集，然后從中自動建立輸入數(shù)據(jù)到輸出數(shù)據(jù)的映射關(guān)系，一大類方法是參數(shù)估計方法。參數(shù)估計是指首先假設(shè)輸入數(shù)據(jù)到輸出數(shù)據(jù)間存在某種形式的映射關(guān)系（如高斯分布），然而我們并不知道這種映射關(guān)系的具體參數(shù)，因此需要通過學(xué)習(xí)數(shù)據(jù)集中的信息對參數(shù)進(jìn)行擬合。

這一過程參考的統(tǒng)計學(xué)方法有歸納（induction）、演繹（deduction）和回溯（abduction），它們的關(guān)系如圖1.2所示。

圖1.2 皮爾斯三角，關(guān)于3種推理方法的推理模式關(guān)系

從已觀測到的數(shù)據(jù)集中抽象出通用的法則稱為歸納；與之相反，演繹是指應(yīng)用通用的法則預(yù)測一組變量譯者注：未知變量。的值。歸納是科學(xué)研究中的基本方法，它能夠從觀測到的現(xiàn)象中總結(jié)出通用的法則（這些法則通常用數(shù)學(xué)語言來描述）。

觀測結(jié)果包含一組變量值，這組數(shù)據(jù)能夠描述觀測到的現(xiàn)象譯者注：根據(jù)這組數(shù)據(jù)。。總結(jié)出的模型譯者注：估計出的模型。可以繼續(xù)對新觀察到的數(shù)據(jù)進(jìn)行預(yù)測。從一組觀測結(jié)果到總結(jié)模型，再到使用模型對新觀察到的數(shù)據(jù)進(jìn)行預(yù)測的過程，稱為推斷譯者注：對于這部分，作者寫得過于晦澀且并非機(jī)器學(xué)習(xí)的經(jīng)典分類方法，因此在翻譯時我加入了一些例子以說明和其他經(jīng)典教材上的解釋，翻譯參考中文教材《機(jī)器學(xué)習(xí)》（周志華版）。。

因此，歸納學(xué)習(xí)的精髓在于從已觀測數(shù)據(jù)中尋找可被泛化（generalization）到未觀測數(shù)據(jù)集（新加入的數(shù)據(jù)），以預(yù)測模型。例如，基于過往股票價格數(shù)據(jù)以及漲跌情況，我們可以對一個線性分類方程進(jìn)行參數(shù)優(yōu)化，并將優(yōu)化后的模型用于預(yù)測未來股票的漲跌情況。泛化性能的好壞取決于從歷史數(shù)據(jù)中得到的模型，并在新數(shù)據(jù)上預(yù)測結(jié)果的優(yōu)劣。這種預(yù)測并非總能奏效，但至少有希望得到好的結(jié)果。

歸納學(xué)習(xí)可被簡單地分為如下兩類。

（1）基于樣本學(xué)習(xí)：例如，通過學(xué)習(xí)正樣本（positive sample）——即屬于某分類的樣本，以及負(fù)樣本（negative sample），能夠獲得關(guān)于這個二分類問題的知識（即模型或參數(shù)）。

（2）學(xué)習(xí)規(guī)律：此類方法的目標(biāo)是在給定數(shù)據(jù)集中尋找樣本間的“規(guī)律”（即共同特征）。

圖1.3展示了歸納學(xué)習(xí)的分類。

圖1.3 歸納學(xué)習(xí)的分類

讀者可能會有這個疑問：為什么機(jī)器學(xué)習(xí)算法要優(yōu)于傳統(tǒng)算法和模型譯者注：如基于規(guī)則的方法。呢？傳統(tǒng)算法和模型失敗的原因有很多，其中代表性的原因如下所示。

（1）人類對許多問題的本身已很難描述：例如，我們很容易識別出自己熟悉的人的聲音，但是應(yīng)該沒人能夠描述出識別這些聲音所經(jīng)過的一系列的運(yùn)算步驟。

（2）實踐中大量的未知變量（參數(shù)）：例如，當(dāng)你面臨從文檔中識別字符這一任務(wù)時，為模型指定所有相關(guān)的參數(shù)是特別復(fù)雜的。除此之外，同樣的參數(shù)表達(dá)在同樣的上下文環(huán)境中是成立的，但是在不同的方言中，僅用一個參數(shù)來表達(dá)是不夠的。（因此需要更多的參數(shù)。）

（3）缺乏理論：例如，當(dāng)你面臨需要準(zhǔn)確預(yù)測金融市場表現(xiàn)這一任務(wù)時，就會有這個問題，而這類問題是缺乏對應(yīng)的數(shù)學(xué)理論支撐的。

（4）個性化定制的需求：在實際應(yīng)用中，能否選取數(shù)據(jù)中有用的特征譯者注：特征工程。在很大程度上取決于個人對問題的理解程度。

圖1.4展示了歸納學(xué)習(xí)和演繹學(xué)習(xí)的異同。

圖1.4 歸納學(xué)習(xí)和演繹學(xué)習(xí)的異同譯者注：本節(jié)所介紹的歸納與演繹是科學(xué)推理的兩大基本手段。發(fā)展到目前的機(jī)器學(xué)習(xí)是更偏向于歸納學(xué)習(xí)的，即通過樣本學(xué)習(xí)規(guī)律。

官术网_书友最值得收藏!

MATLAB機(jī)器學(xué)習(xí)

1.1 機(jī)器學(xué)習(xí)基礎(chǔ)