官术网_书友最值得收藏!

1.1 機(jī)器學(xué)習(xí)基礎(chǔ)

定義機(jī)器學(xué)習(xí)不是一件簡單的事情。我們先來看看機(jī)器學(xué)習(xí)領(lǐng)域的大牛們(見圖1.1)是如何定義的。

圖1.1 機(jī)器學(xué)習(xí)歷史

機(jī)器學(xué)習(xí):研究如何讓計算機(jī)在未被明確編寫指令的情形下能夠自主學(xué)習(xí)的領(lǐng)域。

——亞瑟·L. 塞繆爾(Arthur L. Samuel),1959

另一個定義為:

“機(jī)器學(xué)習(xí)”是指使系統(tǒng)能夠在下一次更有效地執(zhí)行同一任務(wù)(或采樣于同一總體的任務(wù))的自我適應(yīng)和自我調(diào)整的能力。

——赫伯特·亞歷山大·西蒙(Herbert Alexander Simon),1984

還有一種定義為:

假設(shè)對于任務(wù)T,有相對應(yīng)的經(jīng)驗E以及評價指標(biāo)P,那么機(jī)器學(xué)習(xí)指的是能夠在執(zhí)行任務(wù)T時通過學(xué)習(xí)經(jīng)驗E可以提高評價指標(biāo)P的一種程序。

——湯姆·M. 米切爾(Tom M. Mitchell),1998

這些定義的共同點是,它們都指向了一種在沒有任何外界幫助的情況下,從經(jīng)驗中學(xué)習(xí)的能力。這正是許多情況下人類學(xué)習(xí)的方式,那為何我們不能讓機(jī)器譯者注:算法。也具有同樣的能力呢?

機(jī)器學(xué)習(xí)是一門由計算機(jī)科學(xué)、統(tǒng)計學(xué)、神經(jīng)生物學(xué)和控制理論衍生出的交叉學(xué)科。它在一些領(lǐng)域中扮演了至關(guān)重要的角色,并且已經(jīng)徹底地改變了人們對編程的理解。如果之前我們要解決的問題是“如何給計算機(jī)編寫程序”,那么現(xiàn)在我們的問題是“如何讓計算機(jī)自己給自己編寫程序”?

因此,機(jī)器學(xué)習(xí)可以被視為賦予計算機(jī)“智能”的基礎(chǔ)理論。

與大多數(shù)人的直覺一致,機(jī)器學(xué)習(xí)的發(fā)展與對人類學(xué)習(xí)方式的研究緊密相關(guān)。人類直覺、智能的基礎(chǔ)是大腦及其中的神經(jīng)元,相應(yīng)地,計算機(jī)進(jìn)行決策的基礎(chǔ)可以是人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)。

機(jī)器學(xué)習(xí)使我們能夠從數(shù)據(jù)集中找到描述此數(shù)據(jù)集的模型。例如,給定一個系統(tǒng),我們可以從中自動建立輸入變量到輸出變量的對應(yīng)關(guān)系。其中一種方法是首先假設(shè)數(shù)據(jù)的產(chǎn)生是遵循某種由參數(shù)指定的機(jī)制的,只是參數(shù)的具體值是未知的。譯者注:機(jī)器學(xué)習(xí)方法能夠自動從數(shù)據(jù)集中擬合出描述此數(shù)據(jù)集的模型。例如,給定數(shù)據(jù)集,然后從中自動建立輸入數(shù)據(jù)到輸出數(shù)據(jù)的映射關(guān)系,一大類方法是參數(shù)估計方法。參數(shù)估計是指首先假設(shè)輸入數(shù)據(jù)到輸出數(shù)據(jù)間存在某種形式的映射關(guān)系(如高斯分布),然而我們并不知道這種映射關(guān)系的具體參數(shù),因此需要通過學(xué)習(xí)數(shù)據(jù)集中的信息對參數(shù)進(jìn)行擬合。

這一過程參考的統(tǒng)計學(xué)方法有歸納(induction)、演繹(deduction)和回溯(abduction),它們的關(guān)系如圖1.2所示。

圖1.2 皮爾斯三角,關(guān)于3種推理方法的推理模式關(guān)系

從已觀測到的數(shù)據(jù)集中抽象出通用的法則稱為歸納;與之相反,演繹是指應(yīng)用通用的法則預(yù)測一組變量譯者注:未知變量。的值。歸納是科學(xué)研究中的基本方法,它能夠從觀測到的現(xiàn)象中總結(jié)出通用的法則(這些法則通常用數(shù)學(xué)語言來描述)。

觀測結(jié)果包含一組變量值,這組數(shù)據(jù)能夠描述觀測到的現(xiàn)象譯者注:根據(jù)這組數(shù)據(jù)。。總結(jié)出的模型譯者注:估計出的模型。可以繼續(xù)對新觀察到的數(shù)據(jù)進(jìn)行預(yù)測。從一組觀測結(jié)果到總結(jié)模型,再到使用模型對新觀察到的數(shù)據(jù)進(jìn)行預(yù)測的過程,稱為推斷譯者注:對于這部分,作者寫得過于晦澀且并非機(jī)器學(xué)習(xí)的經(jīng)典分類方法,因此在翻譯時我加入了一些例子以說明和其他經(jīng)典教材上的解釋,翻譯參考中文教材《機(jī)器學(xué)習(xí)》(周志華版)。

因此,歸納學(xué)習(xí)的精髓在于從已觀測數(shù)據(jù)中尋找可被泛化(generalization)到未觀測數(shù)據(jù)集(新加入的數(shù)據(jù)),以預(yù)測模型。例如,基于過往股票價格數(shù)據(jù)以及漲跌情況,我們可以對一個線性分類方程進(jìn)行參數(shù)優(yōu)化,并將優(yōu)化后的模型用于預(yù)測未來股票的漲跌情況。泛化性能的好壞取決于從歷史數(shù)據(jù)中得到的模型,并在新數(shù)據(jù)上預(yù)測結(jié)果的優(yōu)劣。這種預(yù)測并非總能奏效,但至少有希望得到好的結(jié)果。

歸納學(xué)習(xí)可被簡單地分為如下兩類。

(1)基于樣本學(xué)習(xí):例如,通過學(xué)習(xí)正樣本(positive sample)——即屬于某分類的樣本,以及負(fù)樣本(negative sample),能夠獲得關(guān)于這個二分類問題的知識(即模型或參數(shù))。

(2)學(xué)習(xí)規(guī)律:此類方法的目標(biāo)是在給定數(shù)據(jù)集中尋找樣本間的“規(guī)律”(即共同特征)。

圖1.3展示了歸納學(xué)習(xí)的分類。

圖1.3 歸納學(xué)習(xí)的分類

讀者可能會有這個疑問:為什么機(jī)器學(xué)習(xí)算法要優(yōu)于傳統(tǒng)算法和模型譯者注:如基于規(guī)則的方法。呢?傳統(tǒng)算法和模型失敗的原因有很多,其中代表性的原因如下所示。

(1)人類對許多問題的本身已很難描述:例如,我們很容易識別出自己熟悉的人的聲音,但是應(yīng)該沒人能夠描述出識別這些聲音所經(jīng)過的一系列的運(yùn)算步驟。

(2)實踐中大量的未知變量(參數(shù)):例如,當(dāng)你面臨從文檔中識別字符這一任務(wù)時,為模型指定所有相關(guān)的參數(shù)是特別復(fù)雜的。除此之外,同樣的參數(shù)表達(dá)在同樣的上下文環(huán)境中是成立的,但是在不同的方言中,僅用一個參數(shù)來表達(dá)是不夠的。(因此需要更多的參數(shù)。)

(3)缺乏理論:例如,當(dāng)你面臨需要準(zhǔn)確預(yù)測金融市場表現(xiàn)這一任務(wù)時,就會有這個問題,而這類問題是缺乏對應(yīng)的數(shù)學(xué)理論支撐的。

(4)個性化定制的需求:在實際應(yīng)用中,能否選取數(shù)據(jù)中有用的特征譯者注:特征工程。在很大程度上取決于個人對問題的理解程度。

圖1.4展示了歸納學(xué)習(xí)和演繹學(xué)習(xí)的異同。

圖1.4 歸納學(xué)習(xí)和演繹學(xué)習(xí)的異同譯者注:本節(jié)所介紹的歸納與演繹是科學(xué)推理的兩大基本手段。發(fā)展到目前的機(jī)器學(xué)習(xí)是更偏向于歸納學(xué)習(xí)的,即通過樣本學(xué)習(xí)規(guī)律。

主站蜘蛛池模板: 武邑县| 额尔古纳市| 沂源县| 女性| 兴化市| 浦城县| 分宜县| 景德镇市| 方城县| 峡江县| 镇赉县| 蓝田县| 东兴市| 诸城市| 安庆市| 周宁县| 循化| 开鲁县| 石河子市| 洪江市| 辽源市| 来安县| 油尖旺区| 寻乌县| 延安市| 响水县| 石棉县| 阳城县| 钟山县| 大方县| 沙湾县| 七台河市| 岳池县| 河北省| 万载县| 大方县| 电白县| 仁怀市| 日喀则市| 介休市| 宁国市|