- MATLAB機(jī)器學(xué)習(xí)
- (意)朱塞佩·恰布羅
- 1674字
- 2020-05-21 10:46:52
1.1 機(jī)器學(xué)習(xí)基礎(chǔ)
定義機(jī)器學(xué)習(xí)不是一件簡單的事情。我們先來看看機(jī)器學(xué)習(xí)領(lǐng)域的大牛們(見圖1.1)是如何定義的。

圖1.1 機(jī)器學(xué)習(xí)歷史
機(jī)器學(xué)習(xí):研究如何讓計算機(jī)在未被明確編寫指令的情形下能夠自主學(xué)習(xí)的領(lǐng)域。
——亞瑟·L. 塞繆爾(Arthur L. Samuel),1959
另一個定義為:
“機(jī)器學(xué)習(xí)”是指使系統(tǒng)能夠在下一次更有效地執(zhí)行同一任務(wù)(或采樣于同一總體的任務(wù))的自我適應(yīng)和自我調(diào)整的能力。
——赫伯特·亞歷山大·西蒙(Herbert Alexander Simon),1984
還有一種定義為:
假設(shè)對于任務(wù)T,有相對應(yīng)的經(jīng)驗E以及評價指標(biāo)P,那么機(jī)器學(xué)習(xí)指的是能夠在執(zhí)行任務(wù)T時通過學(xué)習(xí)經(jīng)驗E可以提高評價指標(biāo)P的一種程序。
——湯姆·M. 米切爾(Tom M. Mitchell),1998
這些定義的共同點是,它們都指向了一種在沒有任何外界幫助的情況下,從經(jīng)驗中學(xué)習(xí)的能力。這正是許多情況下人類學(xué)習(xí)的方式,那為何我們不能讓機(jī)器也具有同樣的能力呢?
機(jī)器學(xué)習(xí)是一門由計算機(jī)科學(xué)、統(tǒng)計學(xué)、神經(jīng)生物學(xué)和控制理論衍生出的交叉學(xué)科。它在一些領(lǐng)域中扮演了至關(guān)重要的角色,并且已經(jīng)徹底地改變了人們對編程的理解。如果之前我們要解決的問題是“如何給計算機(jī)編寫程序”,那么現(xiàn)在我們的問題是“如何讓計算機(jī)自己給自己編寫程序”?
因此,機(jī)器學(xué)習(xí)可以被視為賦予計算機(jī)“智能”的基礎(chǔ)理論。
與大多數(shù)人的直覺一致,機(jī)器學(xué)習(xí)的發(fā)展與對人類學(xué)習(xí)方式的研究緊密相關(guān)。人類直覺、智能的基礎(chǔ)是大腦及其中的神經(jīng)元,相應(yīng)地,計算機(jī)進(jìn)行決策的基礎(chǔ)可以是人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)。
機(jī)器學(xué)習(xí)使我們能夠從數(shù)據(jù)集中找到描述此數(shù)據(jù)集的模型。例如,給定一個系統(tǒng),我們可以從中自動建立輸入變量到輸出變量的對應(yīng)關(guān)系。其中一種方法是首先假設(shè)數(shù)據(jù)的產(chǎn)生是遵循某種由參數(shù)指定的機(jī)制的,只是參數(shù)的具體值是未知的。
這一過程參考的統(tǒng)計學(xué)方法有歸納(induction)、演繹(deduction)和回溯(abduction),它們的關(guān)系如圖1.2所示。

圖1.2 皮爾斯三角,關(guān)于3種推理方法的推理模式關(guān)系
從已觀測到的數(shù)據(jù)集中抽象出通用的法則稱為歸納;與之相反,演繹是指應(yīng)用通用的法則預(yù)測一組變量的值。歸納是科學(xué)研究中的基本方法,它能夠從觀測到的現(xiàn)象中總結(jié)出通用的法則(這些法則通常用數(shù)學(xué)語言來描述)。
觀測結(jié)果包含一組變量值,這組數(shù)據(jù)能夠描述觀測到的現(xiàn)象。總結(jié)出的模型
可以繼續(xù)對新觀察到的數(shù)據(jù)進(jìn)行預(yù)測。從一組觀測結(jié)果到總結(jié)模型,再到使用模型對新觀察到的數(shù)據(jù)進(jìn)行預(yù)測的過程,稱為推斷
。
因此,歸納學(xué)習(xí)的精髓在于從已觀測數(shù)據(jù)中尋找可被泛化(generalization)到未觀測數(shù)據(jù)集(新加入的數(shù)據(jù)),以預(yù)測模型。例如,基于過往股票價格數(shù)據(jù)以及漲跌情況,我們可以對一個線性分類方程進(jìn)行參數(shù)優(yōu)化,并將優(yōu)化后的模型用于預(yù)測未來股票的漲跌情況。泛化性能的好壞取決于從歷史數(shù)據(jù)中得到的模型,并在新數(shù)據(jù)上預(yù)測結(jié)果的優(yōu)劣。這種預(yù)測并非總能奏效,但至少有希望得到好的結(jié)果。
歸納學(xué)習(xí)可被簡單地分為如下兩類。
(1)基于樣本學(xué)習(xí):例如,通過學(xué)習(xí)正樣本(positive sample)——即屬于某分類的樣本,以及負(fù)樣本(negative sample),能夠獲得關(guān)于這個二分類問題的知識(即模型或參數(shù))。
(2)學(xué)習(xí)規(guī)律:此類方法的目標(biāo)是在給定數(shù)據(jù)集中尋找樣本間的“規(guī)律”(即共同特征)。
圖1.3展示了歸納學(xué)習(xí)的分類。

圖1.3 歸納學(xué)習(xí)的分類
讀者可能會有這個疑問:為什么機(jī)器學(xué)習(xí)算法要優(yōu)于傳統(tǒng)算法和模型呢?傳統(tǒng)算法和模型失敗的原因有很多,其中代表性的原因如下所示。
(1)人類對許多問題的本身已很難描述:例如,我們很容易識別出自己熟悉的人的聲音,但是應(yīng)該沒人能夠描述出識別這些聲音所經(jīng)過的一系列的運(yùn)算步驟。
(2)實踐中大量的未知變量(參數(shù)):例如,當(dāng)你面臨從文檔中識別字符這一任務(wù)時,為模型指定所有相關(guān)的參數(shù)是特別復(fù)雜的。除此之外,同樣的參數(shù)表達(dá)在同樣的上下文環(huán)境中是成立的,但是在不同的方言中,僅用一個參數(shù)來表達(dá)是不夠的。(因此需要更多的參數(shù)。)
(3)缺乏理論:例如,當(dāng)你面臨需要準(zhǔn)確預(yù)測金融市場表現(xiàn)這一任務(wù)時,就會有這個問題,而這類問題是缺乏對應(yīng)的數(shù)學(xué)理論支撐的。
(4)個性化定制的需求:在實際應(yīng)用中,能否選取數(shù)據(jù)中有用的特征在很大程度上取決于個人對問題的理解程度。
圖1.4展示了歸納學(xué)習(xí)和演繹學(xué)習(xí)的異同。

圖1.4 歸納學(xué)習(xí)和演繹學(xué)習(xí)的異同
- Instant Raspberry Pi Gaming
- AutoCAD快速入門與工程制圖
- PowerShell 3.0 Advanced Administration Handbook
- PostgreSQL 11 Server Side Programming Quick Start Guide
- 手把手教你學(xué)AutoCAD 2010
- 微型計算機(jī)控制技術(shù)
- Blender Compositing and Post Processing
- 精通數(shù)據(jù)科學(xué)算法
- Citrix? XenDesktop? 7 Cookbook
- Linux Shell編程從初學(xué)到精通
- 未來學(xué)徒:讀懂人工智能飛馳時代
- 西門子S7-1200/1500 PLC從入門到精通
- PVCBOT零基礎(chǔ)機(jī)器人制作(第2版)
- CAD應(yīng)用程序開發(fā)詳解
- Mastering Kubernetes