官术网_书友最值得收藏!

1.7 練習題

在本章中,我們介紹了機器學習中一些最重要的概念。在接下來的幾章中,我們將更深入地研究并編寫更多代碼,但在此之前,請確保你可以回答以下問題:

1.如何定義機器學習?

2.機器學習在哪些問題上表現突出,你能說出四類應用嗎?

3.什么是被標記的訓練集?

4.最常見的兩種監督學習任務是什么?

5.你能說出四種常見的無監督學習任務嗎?

6.你會使用什么類型的算法讓機器人在各種未知地形中行走?

7.你會使用什么類型的算法將客戶分成多個組?

8.你會把垃圾郵件檢測問題定義為監督學習問題還是無監督學習問題?

9.什么是在線學習系統?

10.什么是核外學習?

11.什么類型的算法依賴于相似性度量來進行預測?

12.模型參數和模型超參數有什么區別?

13.基于模型的算法搜索什么?它們最常用的成功策略是什么?它們如何做出預測?

14.你能說出機器學習中的四個主要挑戰嗎?

15.如果你的模型在訓練數據上表現很好,但對新實例的泛化能力很差,這是怎么回事?你能說出三種可能的解決方案嗎?

16.什么是測試集?為什么要使用它?

17.驗證集的目的是什么?

18.什么是train-dev集?什么時候需要它?如何使用?

19.如果使用測試集來調整超參數會出現什么問題?

這些練習題的答案可在本章notebook的末尾找到,網址為https://homl.info/colab3。


[1] 有趣的事實:這個聽起來很奇怪的名字是Francis Galton在研究高個子的孩子往往比父母矮的事實時引入的一個統計術語。由于孩子比父母要矮一些,他稱這種現象為回歸到均值。這個術語后來被他應用于分析變量之間相關性的方法上。

[2] 注意,動物與車輛可能離得很遠,馬與鹿的距離近但和鳥的距離遠。圖的使用得到了Richard Socher等人許可,“Zero-Shot Learning Through Cross-Modal Transfer”,Proceedings of the 26th International Conference on Neural Information Processing Systems 1(2013):935-943。

[3] 這就是系統運行良好的情況。在實踐中,它通常會為每個人創建幾個集群,有時會將兩個看起來相似的人混合在一起,因此你可能需要為每個人提供一些標簽并手動清理一些集群。

[4] 按照慣例,希臘字母θ(theta)通常用于表示模型參數。

[5] 如果你還沒有看懂所有的代碼也沒關系,我將在以下各章中介紹Scikit-Learn。

[6] 例如,根據上下文知道應該寫“to”“two”還是“too”。

[7] 圖經Michele Banko和Eric Brill許可轉載,“Scaling to Very Very Large Corpora for Natural Language Disambiguation”,Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (2001):26-33。

[8] Peter Norvig et al.,“The Unreasonable Effectiveness of Data”,IEEE Intelligent Systems 24,no. 2 (2009):8-12.

[9] David Wolpert,“The Lack of A Priori Distinctions Between Learning Algorithms”,Neural Computation 8,no. 7 (1996):1341-1390.

主站蜘蛛池模板: 崇左市| 景德镇市| 浏阳市| 辽源市| 宁远县| 曲阳县| 安康市| 琼海市| 开鲁县| 个旧市| 股票| 铜陵市| 普宁市| 武夷山市| 抚顺县| 朝阳县| 龙岩市| 留坝县| 滨州市| 张掖市| 北安市| 呼伦贝尔市| 绍兴县| 南岸区| 大石桥市| 区。| 五大连池市| 资兴市| 栾城县| 文昌市| 昭平县| 沂水县| 商城县| 楚雄市| 承德县| 都江堰市| 邹平县| 临澧县| 始兴县| 旬阳县| 鄂尔多斯市|