娃娃机带一台捕鱼机犯法吗

書名：機(jī)器學(xué)習(xí)從入門到入職：用sklearn與keras搭建人工智能模型
作者名：張威
本章字?jǐn)?shù)： 848字
更新時(shí)間： 2020-05-22 17:14:10

4.1 數(shù)據(jù)預(yù)處理的種類

數(shù)據(jù)預(yù)處理是指對(duì)所收集的數(shù)據(jù)進(jìn)行審核、篩選、排序、變換及變形等。數(shù)據(jù)為什么需要預(yù)處理？

手段都是服務(wù)于目的的。現(xiàn)實(shí)世界中數(shù)據(jù)大體上都是不完整、不一致的臟數(shù)據(jù)，無法直接進(jìn)行數(shù)據(jù)挖掘，或者挖掘結(jié)果差強(qiáng)人意；還存在數(shù)據(jù)結(jié)構(gòu)的缺陷問題，如各個(gè)不同維度上的數(shù)據(jù)取值范圍差異過大，或者需要中心化等；對(duì)分類、文本及圖像數(shù)據(jù)無法直接處理，為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)預(yù)處理有多種方法：數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等。這些數(shù)據(jù)處理技術(shù)在模型訓(xùn)練之前使用，大大提高了數(shù)據(jù)挖掘模式的質(zhì)量，降低了實(shí)際挖掘所需要的時(shí)間。

如果根據(jù)用途分類，數(shù)據(jù)預(yù)處理大致可以分為如下幾類。

缺失值處理——在數(shù)據(jù)采集過程中容易產(chǎn)生數(shù)據(jù)的缺失，而這些數(shù)據(jù)在樣本比較小的時(shí)候，無法簡(jiǎn)單地將缺失數(shù)據(jù)拋棄，此時(shí)缺失值處理很有必要，缺失值處理在這種情況下通常涉及缺失值插補(bǔ)操作，如特殊值插補(bǔ)、均值插補(bǔ)、矩陣補(bǔ)全等。

數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化——數(shù)據(jù)標(biāo)準(zhǔn)化是將樣本的屬性縮放到某個(gè)指定的范圍；數(shù)據(jù)規(guī)范化是將樣本的某個(gè)范數(shù)（如范數(shù)L1）縮放到1，規(guī)范化的過程是針對(duì)單個(gè)樣本的，將每個(gè)樣本縮放到單位范數(shù)。

稀疏化——將稠密的特征項(xiàng)進(jìn)行稀疏化處理，通過只存儲(chǔ)和處理非零元素，從而大幅度降低存儲(chǔ)空間需求及計(jì)算復(fù)雜度。

特征編碼——對(duì)一些非數(shù)據(jù)化特征，通常是類別特征，進(jìn)行編碼使其轉(zhuǎn)化成一種數(shù)字化特征，使其能夠被模型所訓(xùn)練，常見的方法有特征二元化、獨(dú)熱編碼等。

特征提取——在針對(duì)復(fù)雜的非數(shù)據(jù)化特征（如文本或者圖像等）進(jìn)行提取時(shí)，從給定的特征集合中選出相關(guān)特征子集的過程稱為特征選擇。在此應(yīng)注意與特征編碼進(jìn)行區(qū)分，特征編碼本質(zhì)上是對(duì)特征進(jìn)行變換，從一種形式轉(zhuǎn)化為另一種形式，其呈現(xiàn)方式產(chǎn)生變化；特征提取則是通過判斷一個(gè)“像素”集合是否屬于某種特征，是對(duì)數(shù)據(jù)維度的特定集合組合的提取。

上述分類并不是相互獨(dú)立的，部分分類是有重合的，其分類依據(jù)在于其應(yīng)用場(chǎng)景，這五大場(chǎng)景能夠涵蓋通常的數(shù)據(jù)預(yù)處理。后續(xù)章節(jié)將會(huì)詳細(xì)介紹其具體方法及其代碼實(shí)現(xiàn)。

官术网_书友最值得收藏!

機(jī)器學(xué)習(xí)從入門到入職：用sklearn與keras搭建人工智能模型

4.1 數(shù)據(jù)預(yù)處理的種類