官术网_书友最值得收藏!

2.1 使用真實數據

當你學習機器學習時,最好使用真實世界的數據而不是人工數據集進行實驗。幸運的是,現在有數以千計的開放數據集可供你選擇,涵蓋各個領域。你可以從以下幾個地方獲取數據:

· 流行的開放數據存儲庫:

  ◆ OpenML.org(https://openml.org

  ◆ Kaggle.com(https://kaggle.com/datasets

  ◆ PapersWithCode.com(https://paperswithcode.com/datasets

  ◆ UC Irvine Machine Learning Respository(https://archive.ics.uci.edu/ml

  ◆ 亞馬遜的AWS數據集(https://registry.opendata.aws

  ◆ TensorFlow數據集(https://tensorflow.org/datasets

· Meta portals(它們列出了開放數據存儲庫):

  ◆ DataPortals.org(https://dataportals.org

  ◆ OpenDataMonitor.eu(https://opendatamonitor.eu

· 列出許多流行的開放數據存儲庫的其他頁面:

  ◆ 維基百科的機器學習數據集列表(https://homl.info/9

  ◆ Quora.com(https://homl.info/10

  ◆ subreddit數據集(https://reddit.com/r/datasets

在本章中,我們將使用來自StatLib存儲庫的加州房價數據集(見圖2-1)[1]。該數據集基于1990年加州人口普查的數據。它并不是最新的數據(當時你還能負擔得起一個灣區的好房子),但它有很多可以學習的特性,所以我們假設它是最新的數據。出于教學目的,我添加了一個分類屬性并刪除了一些特征。

圖2-1:加州房價

主站蜘蛛池模板: 喀喇沁旗| 甘肃省| 新竹市| 凤台县| 扶余县| 清原| 天镇县| 吉隆县| 揭阳市| 深泽县| 安西县| 郓城县| 滦南县| 新密市| 仪陇县| 托克托县| 琼海市| 泽州县| 莱阳市| 余庆县| 合阳县| 石景山区| 卫辉市| 剑河县| 封开县| 合水县| 斗六市| 涿州市| 白河县| 禄劝| 大兴区| 徐水县| 保山市| 广东省| 蒙山县| 襄汾县| 长阳| 德江县| 邹城市| 洛阳市| 龙江县|