官术网_书友最值得收藏!

3.3?數據缺失值填補

3.3.1 數據缺失值填補方法

制造數據包含的噪聲亦表現為數據的不完整性,即很多記錄的屬性值空缺。如果數據集中第i個記錄的第m個屬性為缺失值,則記為xim=null。根據記錄是否有缺失值,可以把數據集分為完整數據集和空缺數據集。根據變量是否有缺失值,可以把變量集分為完整變量集合和空缺變量集。具體定義如下:

Scomplete={XiS,xij≠null,1≤iM,1≤jN}(3?8)

Smiss=S-Scomplete(3?9)

Xcomplete={Xi∈X,xli≠null,1≤lM,1≤iN}(3?10)

Xmiss=X-Xcomplete(3?11)

雖然粗糙集和神經網絡在處理不完備數據集方面有一定優越性,但線性回歸、決策樹和支持向量機等基于數據的建模方法,在完整數據集上能取得更穩定的結果。因此,需要設計一種適用于制造數據的幾種缺失值填補方法。常用的缺失值填補技術可以分為以下三類。

(1)基于規則的填補法[25]

① 全局常量填補法:對于Xmiss中的變量Xi,計算其已知數據值的均值或中位數補全缺失值。這種方式在變量缺失值較多時會降低變量的方差。

② 隨機數填補法:對于Xmiss中的變量Xi,通過其已知數據值推斷出Xi的分布,并根據該分布用隨機采樣的方式填補變量缺失值。這種方式在變量缺失值較多時會增大變量的方差。

③ 刪除變量填補法:刪除SXmiss中變量對應的屬性,保留Xcomplete所對應的屬性。這種方式會導致一定的數據丟失。

④ 刪除記錄填補法:刪除SSmiss的數據記錄,保留Scomplete。這種方式會導致一定的數據丟失。

⑤ Hot deck填補法:對于一個包含空值的對象,在完整數據中找到一個與它最相似的對象,然后用這個相似對象的值進行填充。不同的問題可能會選用不同的標準來判定其是否相似。該方法概念上很簡單,且利用了數據間的關系來進行空值估計。這個方法的缺點在于難以定義相似標準,主觀因素較多。

(2)基于模型的填補法

在基于模型的填補法中,以Scomplete為訓練集,Xcomplete為屬性變量,Xmiss,i∈Xmiss為預測變量,通過訓練和參數估計的方法,構造預測模型Xmiss,i=fimputate(Xcomplete)來預測SmissXmiss,i的值。根據fimputate的不同,基于模型的填補法有以下5種。

① 樸素貝葉斯填補法:樸素貝葉斯分類模型可填補離散型變量。通過最大似然法估計模型參數,模型構造速度快。要求Xcomplete中變量滿足:變量之間互相獨立且變量分布已知。

② 決策樹填補法[26]:C4.5決策樹可以填補離散型變量。首先將變量離散化,根據變量的信息增益選擇根節點,以遞歸的方式構造決策樹,模型構造速度較快。為了避免對Scomplete的過擬合,通常會采用剪枝技術對決策樹進行剪枝。

③ 線性回歸填補法[27]:線性回歸可填補連續性變量。通過最小二乘法估計模型參數,模型構造速度快,但填補之后的Xmiss,i和Xcomplete中變量具有較高的線性相關性。

④ 神經網絡填補法[28]:神經網絡可填補離散型和連續型變量。通過反向傳播法訓練網絡,模型訓練速度慢。在優化模型結構和參數的前提下可以擬合出XcompleteXmiss,i之間的非線性關系,但也容易對Scomplete造成過擬合進而導致在Smiss上的填補不精確。

⑤ 支持向量回歸填補法[29]:支持向量回歸填補法可以用來填補連續型變量,使用完整數據集構造非線性支持向量回歸模型來預測缺失值。支持向量回歸模型通過序列最小優化方法訓練模型,其訓練速度和神經網絡相比較快,支持向量回歸是一個有效的填補方法。

(3)基于距離的填補法

KNN填補法[30]:KNN方法是一種常用的惰性學習方法。對于Smiss中的數據記錄xi,通過距離公式從Scomplete中找到和xi最相似的K個完整數據記錄;將這K個數據記錄在xi空缺屬性上取值的加權平均填補xi的空缺屬性。在KNN填補法中,數據記錄之間的相似度度量只考慮Xcomplete的變量。KNN具有簡單、不需要訓練且精度高等優點,但每填補一個缺失值都需要遍歷整個Scomplete,填補速度較慢,因此,基于KNN的填補法常與聚類方法結合使用[31]

主站蜘蛛池模板: 定边县| 饶河县| 富源县| 错那县| 湟中县| 舞钢市| 新安县| 香港 | 和平区| 巴青县| 资溪县| 应用必备| 措勤县| 襄樊市| 恩平市| 莱西市| 山阳县| 中阳县| 南投市| 禹州市| 长乐市| 兴国县| 千阳县| 昌宁县| 平安县| 赤城县| 璧山县| 桑植县| 都江堰市| 岳池县| 北辰区| 灌南县| 平远县| 南江县| 安顺市| 蒲城县| 隆德县| 公安县| 韶关市| 隆回县| 诸暨市|