- 機(jī)器學(xué)習(xí)從入門到入職:用sklearn與keras搭建人工智能模型
- 張威
- 848字
- 2020-05-22 17:14:10
4.1 數(shù)據(jù)預(yù)處理的種類
數(shù)據(jù)預(yù)處理是指對(duì)所收集的數(shù)據(jù)進(jìn)行審核、篩選、排序、變換及變形等。數(shù)據(jù)為什么需要預(yù)處理?
手段都是服務(wù)于目的的。現(xiàn)實(shí)世界中數(shù)據(jù)大體上都是不完整、不一致的臟數(shù)據(jù),無法直接進(jìn)行數(shù)據(jù)挖掘,或者挖掘結(jié)果差強(qiáng)人意;還存在數(shù)據(jù)結(jié)構(gòu)的缺陷問題,如各個(gè)不同維度上的數(shù)據(jù)取值范圍差異過大,或者需要中心化等;對(duì)分類、文本及圖像數(shù)據(jù)無法直接處理,為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)預(yù)處理有多種方法:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等。這些數(shù)據(jù)處理技術(shù)在模型訓(xùn)練之前使用,大大提高了數(shù)據(jù)挖掘模式的質(zhì)量,降低了實(shí)際挖掘所需要的時(shí)間。
如果根據(jù)用途分類,數(shù)據(jù)預(yù)處理大致可以分為如下幾類。
缺失值處理——在數(shù)據(jù)采集過程中容易產(chǎn)生數(shù)據(jù)的缺失,而這些數(shù)據(jù)在樣本比較小的時(shí)候,無法簡(jiǎn)單地將缺失數(shù)據(jù)拋棄,此時(shí)缺失值處理很有必要,缺失值處理在這種情況下通常涉及缺失值插補(bǔ)操作,如特殊值插補(bǔ)、均值插補(bǔ)、矩陣補(bǔ)全等。
數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化——數(shù)據(jù)標(biāo)準(zhǔn)化是將樣本的屬性縮放到某個(gè)指定的范圍;數(shù)據(jù)規(guī)范化是將樣本的某個(gè)范數(shù)(如范數(shù)L1)縮放到1,規(guī)范化的過程是針對(duì)單個(gè)樣本的,將每個(gè)樣本縮放到單位范數(shù)。
稀疏化——將稠密的特征項(xiàng)進(jìn)行稀疏化處理,通過只存儲(chǔ)和處理非零元素,從而大幅度降低存儲(chǔ)空間需求及計(jì)算復(fù)雜度。
特征編碼——對(duì)一些非數(shù)據(jù)化特征,通常是類別特征,進(jìn)行編碼使其轉(zhuǎn)化成一種數(shù)字化特征,使其能夠被模型所訓(xùn)練,常見的方法有特征二元化、獨(dú)熱編碼等。
特征提取——在針對(duì)復(fù)雜的非數(shù)據(jù)化特征(如文本或者圖像等)進(jìn)行提取時(shí),從給定的特征集合中選出相關(guān)特征子集的過程稱為特征選擇。在此應(yīng)注意與特征編碼進(jìn)行區(qū)分,特征編碼本質(zhì)上是對(duì)特征進(jìn)行變換,從一種形式轉(zhuǎn)化為另一種形式,其呈現(xiàn)方式產(chǎn)生變化;特征提取則是通過判斷一個(gè)“像素”集合是否屬于某種特征,是對(duì)數(shù)據(jù)維度的特定集合組合的提取。
上述分類并不是相互獨(dú)立的,部分分類是有重合的,其分類依據(jù)在于其應(yīng)用場(chǎng)景,這五大場(chǎng)景能夠涵蓋通常的數(shù)據(jù)預(yù)處理。后續(xù)章節(jié)將會(huì)詳細(xì)介紹其具體方法及其代碼實(shí)現(xiàn)。
- 數(shù)據(jù)展現(xiàn)的藝術(shù)
- Mastering Hadoop 3
- LabVIEW虛擬儀器從入門到測(cè)控應(yīng)用130例
- 計(jì)算機(jī)圖形學(xué)
- 并行數(shù)據(jù)挖掘及性能優(yōu)化:關(guān)聯(lián)規(guī)則與數(shù)據(jù)相關(guān)性分析
- 數(shù)據(jù)挖掘?qū)嵱冒咐治?/a>
- Mastering Elastic Stack
- 大數(shù)據(jù)安全與隱私保護(hù)
- 21天學(xué)通Java Web開發(fā)
- 網(wǎng)站入侵與腳本攻防修煉
- Windows Server 2008 R2活動(dòng)目錄內(nèi)幕
- 青少年VEX IQ機(jī)器人實(shí)訓(xùn)課程(初級(jí))
- 運(yùn)動(dòng)控制系統(tǒng)(第2版)
- 常用傳感器技術(shù)及應(yīng)用(第2版)
- 自適應(yīng)學(xué)習(xí):人工智能時(shí)代的教育革命