書名: 機器學習實戰:基于Scikit-Learn、Keras和TensorFlow(原書第3版)作者名: (法)奧雷利安·杰龍本章字數: 470字更新時間: 2024-09-11 17:32:59
1.1 什么是機器學習
機器學習是一門通過編程讓計算機從數據中進行學習的科學(和藝術)。
下面是一個稍微通用一點的定義:
機器學習是一個研究領域讓計算機無須進行明確編程就具備學習能力。
——亞瑟·塞繆爾(Arthur Samuel),1959
還有一個更工程化的定義:
一個計算機程序利用經驗E來學習任務T,性能是P,如果針對任務T的性能P隨著經驗E不斷增長,則稱為機器學習。
——湯姆·米切爾(Tom Mitchell),1997
例如,垃圾郵件過濾器就是一個機器學習程序,它可以根據給定的垃圾郵件(由用戶標記)和普通電子郵件(非垃圾郵件,也稱為ham)學習標記垃圾郵件。系統用來學習的樣例稱為訓練集。每個訓練樣例稱為訓練實例(或樣本)。機器學習系統中學習和做出預測的部分稱為模型。例如,神經網絡和隨機森林就是模型。
在這個示例中,任務T是標記新郵件是否為垃圾郵件,經驗E是訓練數據,需要定義性能度量P,例如,你可以使用正確分類電子郵件的比率。這種特殊的性能指標稱為精度(accuracy),通常用于分類任務。
如果你只是下載所有維基百科文章的副本,那么雖然你的計算機會擁有更多的數據,但它并不會突然變得更擅長任何任務。這不是機器學習。