官术网_书友最值得收藏!

4.2 缺失值處理

當(dāng)拿到一組樣本用于訓(xùn)練模型時,突然發(fā)現(xiàn)提交到模型進(jìn)行訓(xùn)練的時候,程序報(bào)錯,提示某個特征的數(shù)據(jù)不得為空。如果訓(xùn)練樣本足夠大,則可以通過舍棄含有缺失值的樣本,對剩下的樣本進(jìn)行訓(xùn)練,這也是一種缺失值處理的方法,讀者可以自行使用此類方式對數(shù)據(jù)進(jìn)行預(yù)處理。然而,如果采集到的樣本比較小,無法簡單地通過舍棄樣本對數(shù)據(jù)進(jìn)行清洗時,就需要對含有缺失值的樣本進(jìn)行插補(bǔ)操作,通過數(shù)據(jù)的已知部分推斷缺失部分,或者人為地設(shè)定數(shù)據(jù)的缺失部分。

什么樣的值是缺失值?缺失值不僅僅是某個維度上的數(shù)據(jù)為空、NaN或者Null,任何沒有實(shí)際意義的數(shù)據(jù)字符或者認(rèn)定為表示空的字符(串)都可以視作缺失值。

通常根據(jù)樣本之間的關(guān)聯(lián)關(guān)系,以及數(shù)據(jù)的行或者列,對其進(jìn)行插補(bǔ),其策略有均值插補(bǔ)、中位數(shù)插補(bǔ)及高頻數(shù)插補(bǔ)。在Sklearn中的sklearn.impute庫中,SimpleImputer方法用于處理缺失值。首先用一個簡單的例子看其是如何實(shí)現(xiàn)缺失值處理的,具體實(shí)現(xiàn)如下:

其輸出結(jié)果如下:

主站蜘蛛池模板: 温宿县| 老河口市| 金塔县| 灵璧县| 体育| 平罗县| 汾阳市| 阿勒泰市| 内江市| 荣成市| 礼泉县| 宁南县| 周宁县| 南和县| 同心县| 西华县| 成武县| 宜丰县| 即墨市| 万宁市| 日土县| 长岭县| 深圳市| 阿巴嘎旗| 新邵县| 正宁县| 富平县| 买车| 珲春市| 仙居县| 杭州市| 郑州市| 安徽省| 南靖县| 武山县| 荃湾区| 陇川县| 新龙县| 丹寨县| 嵩明县| 防城港市|