- 數(shù)據(jù)驅(qū)動的半導(dǎo)體制造系統(tǒng)調(diào)度
- 李莉 于青云 馬玉敏 喬非
- 470字
- 2021-12-24 13:32:25
3.2.2 變量異常值校正
在單個變量上,制造數(shù)據(jù)所包含的噪聲體現(xiàn)在變量的數(shù)據(jù)值與其變量的總體分布產(chǎn)生偏離,這樣的數(shù)據(jù)稱之為異常值。這些異常值會嚴(yán)重影響規(guī)范化之后的數(shù)據(jù)分布的偏度。特別是最大最小規(guī)范化對變量異常值尤為敏感,z?score規(guī)范化的結(jié)果也會受異常值影響。本章將采用Rule 3.1對變量異常值進(jìn)行校正。
Rule?3.1:
If xli>ubXi,Then xli=ubXi
If xli<lbXi,Then xli=lbXi
在Rule 3.1中,ubXi和lbXi分別是變量Xi的上界和下界,用來校正變量的異常值。由于歷史數(shù)據(jù)量達(dá)到了一定規(guī)模,因此無法采用適用于小樣本的散點圖法和假設(shè)檢驗法來探測變量的異常值。對于ubXi和lbXi,本節(jié)介紹3σ法和四分展布法。
(1)3σ法
由切比雪夫不等式可知:P(|Xi-μXi|≥ε)≤σXi/ε2,當(dāng)ε=3σXi,則P(|Xi-μXi|≥3σXi)≤σXi/9,當(dāng)Xi服從正態(tài)分布時,P(|Xi-μXi|≥3σXi)=0.0027,由此可知,Xi以較大概率分布于以均值為中心的3σXi區(qū)間之內(nèi)。因此將ubXi和lbXi設(shè)置如下:
ubXi=μXi+3σXi?(3?3)
lbXi=μXi-3σXi(3?4)
(2)四分展布法
在異常值校正中,標(biāo)準(zhǔn)差容易受到異常值的影響,因此基于上下分位數(shù)距離的四分展布法也是異常值校正的常用方法。Q3Xi是變量的上四分位數(shù),Q1Xi是變量的下四分位數(shù),dF是上下分位數(shù)距離,稱為極差。而ubXi和lbXi可設(shè)置如下:
dF=Q3Xi-Q1Xi(3?5)
ubXi=Q1Xi-1.5dF(3?6)
lbXi=Q3Xi+1.5dF(3?7)
- 2020年重慶市選聘大學(xué)生村官考試《綜合知識》題庫【真題精選+章節(jié)題庫+模擬試題】
- WTO與農(nóng)產(chǎn)品貿(mào)易法律制度
- 蔡雯《新聞編輯學(xué)》(第3版)配套題庫【名??佳姓骖}(視頻講解)+課后習(xí)題+章節(jié)題庫+模擬試題】
- 公司金融(中英雙語版)
- 新編會計基礎(chǔ)教程
- 鄭興東《報紙編輯學(xué)教程》筆記和課后習(xí)題(含典型題)詳解
- 藝考朗誦
- 傳感器技術(shù)
- 單片機技術(shù)與設(shè)備檢修技能
- 監(jiān)控組態(tài)技術(shù)及應(yīng)用
- 線性代數(shù)
- 鄭樹棠《新視野大學(xué)英語讀寫教程(2)》(第2版)學(xué)習(xí)指南【詞匯短語+課文精解+全文翻譯+練習(xí)答案】
- 國際經(jīng)貿(mào)專業(yè)英語:理論、實務(wù)與方法
- 鐘根元《中級微觀經(jīng)濟學(xué)學(xué)習(xí)指南》(第4版)練習(xí)題詳解
- 操作系統(tǒng)設(shè)計與實現(xiàn):基于LoongArch架構(gòu)