- Scikit-learn機(jī)器學(xué)習(xí)詳解(上)
- 潘風(fēng)文 潘啟儒
- 1679字
- 2021-12-23 11:33:12
1.4 機(jī)器學(xué)習(xí)分類和應(yīng)用
前面講過,機(jī)器學(xué)習(xí)是無(wú)須通過明確的編程就能讓計(jì)算機(jī)系統(tǒng)具有從歷史經(jīng)驗(yàn)中進(jìn)行自主學(xué)習(xí)的能力,在這個(gè)廣義的定義中,“學(xué)習(xí)”是指基于經(jīng)驗(yàn)改善自身行為的能力。
Tom Mitchell(美國(guó)卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院院長(zhǎng),有“機(jī)器學(xué)習(xí)教父”之稱)給予了機(jī)器學(xué)習(xí)一個(gè)技術(shù)性的定義(如圖1-8所示):“對(duì)于某種任務(wù)T、性能指標(biāo)P來說,如果一個(gè)計(jì)算機(jī)程序以歷史經(jīng)驗(yàn)E為基礎(chǔ),實(shí)現(xiàn)以指標(biāo)P進(jìn)行度量的任務(wù)T后,性能指標(biāo)P會(huì)有所提升,則認(rèn)為這個(gè)程序具有從經(jīng)驗(yàn)E中學(xué)習(xí)的能力。”
在這個(gè)定義中,有三個(gè)要素:任務(wù)T、性能指標(biāo)P和經(jīng)驗(yàn)E,即(T,P,E),計(jì)算機(jī)程序把這三者聯(lián)系在一起,決定了如何利用經(jīng)驗(yàn)E來解決任務(wù)T并且保證隨著經(jīng)驗(yàn)E的增加,能夠更好地解決任務(wù)(P提升),其中:
● 任務(wù)T是機(jī)器學(xué)習(xí)需要解決的工作內(nèi)容,它可以是一個(gè)預(yù)測(cè)、分類或聚類的工作。
● 經(jīng)驗(yàn)E是訓(xùn)練數(shù)據(jù)集或輸入數(shù)據(jù),機(jī)器通過經(jīng)驗(yàn)E獲得學(xué)習(xí)能力。
● 性能指標(biāo)P是影響任務(wù)T完成質(zhì)量的因素,如精度等。

圖1-8 機(jī)器學(xué)習(xí)的從經(jīng)驗(yàn)中學(xué)習(xí)的示意圖
機(jī)器(計(jì)算機(jī)系統(tǒng))本身包含兩個(gè)主要組件:學(xué)習(xí)機(jī)(learner)和推理機(jī)(reasoner)。
◇輸入/經(jīng)驗(yàn)(input/experience)提供給學(xué)習(xí)機(jī)(learner),學(xué)習(xí)機(jī)用來學(xué)習(xí)新技術(shù)。
◇背景知識(shí)(background knowledge)提供給學(xué)習(xí)機(jī),幫助學(xué)習(xí)機(jī)更好地學(xué)習(xí)。
◇借助于輸入和背景知識(shí),學(xué)習(xí)機(jī)可以生成模型,該模型包含從輸入和背景知識(shí)中學(xué)習(xí)到的信息。
◇任務(wù)/問題(problem/task)(例如預(yù)測(cè)、分類等)提供給推理機(jī)。
◇在訓(xùn)練有素的模型(model)的幫助下,推理機(jī)(reasoner)嘗試給出任務(wù)/問題的解決方案(solution/answer)。
◇通過給予新的輸入和背景知識(shí),提高該解決方案的性能。
◇依照上面步驟,循環(huán)繼續(xù)進(jìn)行。
例如,垃圾郵件過濾器的任務(wù)T是根據(jù)歷史經(jīng)驗(yàn)E區(qū)分垃圾郵件,達(dá)到一定的準(zhǔn)確率P。
根據(jù)所處理問題的性質(zhì)、處理數(shù)據(jù)的類型和數(shù)量,機(jī)器學(xué)習(xí)可以分為以下類別。
① 有監(jiān)督學(xué)習(xí)(Supervised learning),或直接稱監(jiān)督學(xué)習(xí)。訓(xùn)練數(shù)據(jù)集中帶有需要預(yù)測(cè)的屬性(字段、標(biāo)簽數(shù)據(jù)),處理數(shù)據(jù)過程中,將以標(biāo)簽數(shù)據(jù)為預(yù)測(cè)目標(biāo)方向,進(jìn)行模型創(chuàng)建。有監(jiān)督學(xué)習(xí)可以分為下面兩類:
◇分類(classification):每個(gè)樣本屬于兩個(gè)或多個(gè)類別之一。分類試圖從已標(biāo)記的數(shù)據(jù)中學(xué)習(xí)如何預(yù)測(cè)未標(biāo)記數(shù)據(jù)的類別。比如手寫數(shù)字識(shí)別問題、車牌自動(dòng)識(shí)別問題等都是將每個(gè)輸入數(shù)據(jù)(向量)分配給有限數(shù)量的離散類別之一。常用的算法包括邏輯回歸、決策樹、KNN、隨機(jī)森林樹、SVM等;
◇回歸預(yù)測(cè)(regression prediction):如果所需的輸出由一個(gè)或多個(gè)連續(xù)變量組成,則該算法稱為回歸。比如根據(jù)父母的身高去推測(cè)兒子的身高就是一個(gè)回歸問題。常用算法包括線性回歸、神經(jīng)網(wǎng)絡(luò)等。
② 無(wú)監(jiān)督學(xué)習(xí)(Unsupervised learning)。訓(xùn)練數(shù)據(jù)集由一組輸入向量組成,不包含任何相應(yīng)的目標(biāo)值(標(biāo)簽字段)。問題的目標(biāo)可以是發(fā)現(xiàn)數(shù)據(jù)中的相類似的數(shù)據(jù)組,稱為聚類,或者試圖確定輸入空間內(nèi)的數(shù)據(jù)分布,稱為密度估計(jì),或者將高維數(shù)據(jù)空間縮小到兩維或三維,實(shí)現(xiàn)可視化。聚類、關(guān)聯(lián)規(guī)則、生存分析等都是無(wú)監(jiān)督學(xué)習(xí)的模型。
③ 半監(jiān)督學(xué)習(xí)(Semi-supervised learning)。是有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的結(jié)合。
④ 強(qiáng)化學(xué)習(xí)(Reinforcement learning),又稱為增強(qiáng)學(xué)習(xí)。機(jī)器在環(huán)境中通過試錯(cuò)法持續(xù)自我訓(xùn)練,從過去的經(jīng)驗(yàn)中學(xué)習(xí),并嘗試獲取盡可能好的知識(shí),以便能夠做出最好的決策。試錯(cuò)搜索和延遲獎(jiǎng)勵(lì)是強(qiáng)化學(xué)習(xí)最明顯的特征。一個(gè)典型的例子就是馬爾科夫決策過程。
圖1-9簡(jiǎn)要展示了上述的四種學(xué)習(xí)類型和應(yīng)用示例。
隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,近年來也出現(xiàn)了一些新的機(jī)器學(xué)習(xí)分支,如深度學(xué)習(xí)、遷移學(xué)習(xí)和元學(xué)習(xí)等等,這里不再贅述,感興趣的讀者可自行搜索相關(guān)內(nèi)容。

圖1-9 機(jī)器學(xué)習(xí)類型和應(yīng)用示例
對(duì)于一個(gè)特定的問題,可能存在多個(gè)機(jī)器學(xué)習(xí)算法可以使用,因此尋找最佳的機(jī)器學(xué)習(xí)模型需要極大的耐心和細(xì)致的試錯(cuò)工作。圖1-10中展示了不同的機(jī)器學(xué)習(xí)模型對(duì)于同一個(gè)問題的不同處理方式。這個(gè)問題是:“Adam今天中午吃什么?”

圖1-10 同一個(gè)問題多種解決方式
機(jī)器學(xué)習(xí)的應(yīng)用已經(jīng)融入了我們的日常生活,從各個(gè)方面開始改變著我們的生活,小到智能手機(jī),大到各種智能工業(yè)機(jī)器人,早已無(wú)聲無(wú)息地影響著我們的生活。在電商購(gòu)物、智能交通、圖像識(shí)別、情緒分析、文本分類、視頻監(jiān)控、語(yǔ)音識(shí)別、欺詐檢測(cè)、趨勢(shì)預(yù)測(cè)、智慧醫(yī)療等領(lǐng)域都活躍著機(jī)器學(xué)習(xí)的身影。
- Photoshop網(wǎng)店美工與網(wǎng)店裝修(微課版)
- 維修電工上崗技能速成一本通
- Adobe Photoshop 2020基礎(chǔ)培訓(xùn)教材
- SOLIDWORKS®零件與裝配體教程(2018版)
- 數(shù)字電子技術(shù)(微課版)
- 2017年陜西省普通高等學(xué)校招生考試統(tǒng)計(jì)年報(bào)
- 工程建設(shè)企業(yè)管理
- 鐵路車務(wù)系統(tǒng)職場(chǎng)管理
- 汽車改裝技術(shù)一本通
- 彩色圖解電工識(shí)圖速成
- Vue.js+Spring Boot全棧開發(fā)實(shí)戰(zhàn)
- 工業(yè)產(chǎn)品設(shè)計(jì)手繪實(shí)例教程(第2版)
- 鋼筆建筑速寫
- 企業(yè)短視頻攻略:賬號(hào)運(yùn)營(yíng)+文案編寫+引流漲粉+帶貨賣貨
- 紡織品質(zhì)量標(biāo)準(zhǔn)與檢測(cè)