官术网_书友最值得收藏!

第4章 數據表示和特征工程

在第3章中,我們建立了第一個監督學習模型,并將其應用于一些像IrisBoston這樣的經典數據集。但是,在現實世界中,作為預封裝數據庫一部分的數據很少以簡潔的<n_samples x n_features>特征矩陣的形式出現。我們的任務是找到一種有意義的方式表示數據。尋找表示數據最優方法的過程稱為特征工程(feature engineering),這是數據科學家和機器學習實踐者試圖解決實際問題的主要任務之一。

我知道你更愿意跳到最后去建立人們見過的最深神經網絡。但是,請相信我,特征工程這個內容很重要!用正確的方式表示我們的數據比我們選擇精確的參數對監督模型性能的影響更大。我們也可以開始創造自己的特征了。因此,在這一章,我們將回顧一些常見的特征工程任務。我們將要介紹預處理、縮放技術以及降維。我們還將學習表示類別變量、文本特征以及圖像。

本章將介紹以下主題:

  • 一學就會的常見預處理技術。
  • 中心縮放及多維縮放。
  • 類別變量的表示。
  • 使用PCA之類的技術對數據降維。
  • 文本特征的表示。
  • 學習圖像編碼的最佳方法。

讓我們從頭開始介紹吧!

主站蜘蛛池模板: 翁源县| 渭源县| 石渠县| 红原县| 遂平县| 循化| 广西| 柳河县| 新竹市| 南昌市| 泾川县| 大邑县| 巴彦县| 南川市| 德惠市| 福清市| 绿春县| 大同县| 贵州省| 茌平县| 黄陵县| 新兴县| 阳泉市| 安义县| 龙泉市| 郑州市| 盐津县| 巴中市| 施秉县| 黎平县| 辉县市| 赤壁市| 拉萨市| 邻水| 万山特区| 醴陵市| 嘉义县| 弥渡县| 自贡市| 阿拉善盟| 嵊州市|