- 數據驅動的半導體制造系統調度
- 李莉 于青云 馬玉敏 喬非
- 470字
- 2021-12-24 13:32:25
3.2.2 變量異常值校正
在單個變量上,制造數據所包含的噪聲體現在變量的數據值與其變量的總體分布產生偏離,這樣的數據稱之為異常值。這些異常值會嚴重影響規范化之后的數據分布的偏度。特別是最大最小規范化對變量異常值尤為敏感,z?score規范化的結果也會受異常值影響。本章將采用Rule 3.1對變量異常值進行校正。
Rule?3.1:
If xli>ubXi,Then xli=ubXi
If xli<lbXi,Then xli=lbXi
在Rule 3.1中,ubXi和lbXi分別是變量Xi的上界和下界,用來校正變量的異常值。由于歷史數據量達到了一定規模,因此無法采用適用于小樣本的散點圖法和假設檢驗法來探測變量的異常值。對于ubXi和lbXi,本節介紹3σ法和四分展布法。
(1)3σ法
由切比雪夫不等式可知:P(|Xi-μXi|≥ε)≤σXi/ε2,當ε=3σXi,則P(|Xi-μXi|≥3σXi)≤σXi/9,當Xi服從正態分布時,P(|Xi-μXi|≥3σXi)=0.0027,由此可知,Xi以較大概率分布于以均值為中心的3σXi區間之內。因此將ubXi和lbXi設置如下:
ubXi=μXi+3σXi?(3?3)
lbXi=μXi-3σXi(3?4)
(2)四分展布法
在異常值校正中,標準差容易受到異常值的影響,因此基于上下分位數距離的四分展布法也是異常值校正的常用方法。Q3Xi是變量的上四分位數,Q1Xi是變量的下四分位數,dF是上下分位數距離,稱為極差。而ubXi和lbXi可設置如下:
dF=Q3Xi-Q1Xi(3?5)
ubXi=Q1Xi-1.5dF(3?6)
lbXi=Q3Xi+1.5dF(3?7)
推薦閱讀
- 基礎化學(第二版)
- 2020年西南財經大學802經濟學二考前沖刺最后三套卷
- 工程地質(第3版)
- 大學網球教程
- 曾華群《國際經濟法導論》(第2版)筆記和課后習題詳解
- 經濟法(第二版)
- 經濟學原理(宏觀經濟學)考點歸納、習題詳解、考研真題
- 跨國公司經營與管理(第2版)
- 證券投資原理
- 《新版中日交流標準日本語高級(下)》學習指南【課文重點+詞匯剖析+語法精解+拓展知識+全文翻譯】
- 大學生活啟思錄
- 2020年黑龍公務員錄用考試專用教材:數量關系【考點精講+典型題(含歷年真題)詳解】
- 《新版中日交流標準日本語中級(下)》學習指南【課文重點+詞匯剖析+語法精解+拓展知識+全文翻譯】
- 商務會談技巧英語
- SPSS數據分析實用教程(第2版)