- 機(jī)器學(xué)習(xí)從入門到入職:用sklearn與keras搭建人工智能模型
- 張威
- 393字
- 2020-05-22 17:14:10
4.2 缺失值處理
當(dāng)拿到一組樣本用于訓(xùn)練模型時,突然發(fā)現(xiàn)提交到模型進(jìn)行訓(xùn)練的時候,程序報(bào)錯,提示某個特征的數(shù)據(jù)不得為空。如果訓(xùn)練樣本足夠大,則可以通過舍棄含有缺失值的樣本,對剩下的樣本進(jìn)行訓(xùn)練,這也是一種缺失值處理的方法,讀者可以自行使用此類方式對數(shù)據(jù)進(jìn)行預(yù)處理。然而,如果采集到的樣本比較小,無法簡單地通過舍棄樣本對數(shù)據(jù)進(jìn)行清洗時,就需要對含有缺失值的樣本進(jìn)行插補(bǔ)操作,通過數(shù)據(jù)的已知部分推斷缺失部分,或者人為地設(shè)定數(shù)據(jù)的缺失部分。
什么樣的值是缺失值?缺失值不僅僅是某個維度上的數(shù)據(jù)為空、NaN或者Null,任何沒有實(shí)際意義的數(shù)據(jù)字符或者認(rèn)定為表示空的字符(串)都可以視作缺失值。
通常根據(jù)樣本之間的關(guān)聯(lián)關(guān)系,以及數(shù)據(jù)的行或者列,對其進(jìn)行插補(bǔ),其策略有均值插補(bǔ)、中位數(shù)插補(bǔ)及高頻數(shù)插補(bǔ)。在Sklearn中的sklearn.impute庫中,SimpleImputer方法用于處理缺失值。首先用一個簡單的例子看其是如何實(shí)現(xiàn)缺失值處理的,具體實(shí)現(xiàn)如下:

其輸出結(jié)果如下:

推薦閱讀
- 大數(shù)據(jù)戰(zhàn)爭:人工智能時代不能不說的事
- 平面設(shè)計(jì)初步
- CorelDRAW X4中文版平面設(shè)計(jì)50例
- Windows程序設(shè)計(jì)與架構(gòu)
- 精通特征工程
- Arduino &樂高創(chuàng)意機(jī)器人制作教程
- INSTANT Autodesk Revit 2013 Customization with .NET How-to
- 水下無線傳感器網(wǎng)絡(luò)的通信與決策技術(shù)
- MCGS嵌入版組態(tài)軟件應(yīng)用教程
- 電腦上網(wǎng)輕松入門
- Mastering Ansible(Second Edition)
- Web編程基礎(chǔ)
- 筆記本電腦維修之電路分析基礎(chǔ)
- Mastering MongoDB 4.x
- Cisco UCS Cookbook