官术网_书友最值得收藏!

4.1 數(shù)據(jù)預(yù)處理的種類

數(shù)據(jù)預(yù)處理是指對(duì)所收集的數(shù)據(jù)進(jìn)行審核、篩選、排序、變換及變形等。數(shù)據(jù)為什么需要預(yù)處理?

手段都是服務(wù)于目的的。現(xiàn)實(shí)世界中數(shù)據(jù)大體上都是不完整、不一致的臟數(shù)據(jù),無法直接進(jìn)行數(shù)據(jù)挖掘,或者挖掘結(jié)果差強(qiáng)人意;還存在數(shù)據(jù)結(jié)構(gòu)的缺陷問題,如各個(gè)不同維度上的數(shù)據(jù)取值范圍差異過大,或者需要中心化等;對(duì)分類、文本及圖像數(shù)據(jù)無法直接處理,為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)預(yù)處理有多種方法:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等。這些數(shù)據(jù)處理技術(shù)在模型訓(xùn)練之前使用,大大提高了數(shù)據(jù)挖掘模式的質(zhì)量,降低了實(shí)際挖掘所需要的時(shí)間。

如果根據(jù)用途分類,數(shù)據(jù)預(yù)處理大致可以分為如下幾類。

缺失值處理——在數(shù)據(jù)采集過程中容易產(chǎn)生數(shù)據(jù)的缺失,而這些數(shù)據(jù)在樣本比較小的時(shí)候,無法簡(jiǎn)單地將缺失數(shù)據(jù)拋棄,此時(shí)缺失值處理很有必要,缺失值處理在這種情況下通常涉及缺失值插補(bǔ)操作,如特殊值插補(bǔ)、均值插補(bǔ)、矩陣補(bǔ)全等。

數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化——數(shù)據(jù)標(biāo)準(zhǔn)化是將樣本的屬性縮放到某個(gè)指定的范圍;數(shù)據(jù)規(guī)范化是將樣本的某個(gè)范數(shù)(如范數(shù)L1)縮放到1,規(guī)范化的過程是針對(duì)單個(gè)樣本的,將每個(gè)樣本縮放到單位范數(shù)。

稀疏化——將稠密的特征項(xiàng)進(jìn)行稀疏化處理,通過只存儲(chǔ)和處理非零元素,從而大幅度降低存儲(chǔ)空間需求及計(jì)算復(fù)雜度。

特征編碼——對(duì)一些非數(shù)據(jù)化特征,通常是類別特征,進(jìn)行編碼使其轉(zhuǎn)化成一種數(shù)字化特征,使其能夠被模型所訓(xùn)練,常見的方法有特征二元化、獨(dú)熱編碼等。

特征提取——在針對(duì)復(fù)雜的非數(shù)據(jù)化特征(如文本或者圖像等)進(jìn)行提取時(shí),從給定的特征集合中選出相關(guān)特征子集的過程稱為特征選擇。在此應(yīng)注意與特征編碼進(jìn)行區(qū)分,特征編碼本質(zhì)上是對(duì)特征進(jìn)行變換,從一種形式轉(zhuǎn)化為另一種形式,其呈現(xiàn)方式產(chǎn)生變化;特征提取則是通過判斷一個(gè)“像素”集合是否屬于某種特征,是對(duì)數(shù)據(jù)維度的特定集合組合的提取。

上述分類并不是相互獨(dú)立的,部分分類是有重合的,其分類依據(jù)在于其應(yīng)用場(chǎng)景,這五大場(chǎng)景能夠涵蓋通常的數(shù)據(jù)預(yù)處理。后續(xù)章節(jié)將會(huì)詳細(xì)介紹其具體方法及其代碼實(shí)現(xiàn)。

主站蜘蛛池模板: 剑阁县| 乐陵市| 铜川市| 库车县| 宁蒗| 双柏县| 自治县| 张家界市| 怀化市| 吉安县| 黑龙江省| 北海市| 天气| 丰都县| 宜丰县| 涞源县| 竹山县| 博乐市| 云和县| 武宣县| 临夏县| 额济纳旗| 吉安市| 赤壁市| 尼玛县| 伊春市| 新绛县| 偃师市| 岗巴县| 天津市| 许昌市| 华容县| 乐东| 临洮县| 台山市| 宿迁市| 安图县| 黄大仙区| 临夏市| 许昌县| 柏乡县|