- 機器學習實戰:基于Scikit-Learn、Keras和TensorFlow(原書第3版)
- (法)奧雷利安·杰龍
- 361字
- 2024-09-11 17:33:02
2.1 使用真實數據
當你學習機器學習時,最好使用真實世界的數據而不是人工數據集進行實驗。幸運的是,現在有數以千計的開放數據集可供你選擇,涵蓋各個領域。你可以從以下幾個地方獲取數據:
· 流行的開放數據存儲庫:
◆ OpenML.org(https://openml.org)
◆ Kaggle.com(https://kaggle.com/datasets)
◆ PapersWithCode.com(https://paperswithcode.com/datasets)
◆ UC Irvine Machine Learning Respository(https://archive.ics.uci.edu/ml)
◆ 亞馬遜的AWS數據集(https://registry.opendata.aws)
◆ TensorFlow數據集(https://tensorflow.org/datasets)
· Meta portals(它們列出了開放數據存儲庫):
◆ DataPortals.org(https://dataportals.org)
◆ OpenDataMonitor.eu(https://opendatamonitor.eu)
· 列出許多流行的開放數據存儲庫的其他頁面:
◆ 維基百科的機器學習數據集列表(https://homl.info/9)
◆ Quora.com(https://homl.info/10)
◆ subreddit數據集(https://reddit.com/r/datasets)
在本章中,我們將使用來自StatLib存儲庫的加州房價數據集(見圖2-1)[1]。該數據集基于1990年加州人口普查的數據。它并不是最新的數據(當時你還能負擔得起一個灣區的好房子),但它有很多可以學習的特性,所以我們假設它是最新的數據。出于教學目的,我添加了一個分類屬性并刪除了一些特征。

圖2-1:加州房價