官术网_书友最值得收藏!

3.2.2 變量異常值校正

在單個變量上,制造數(shù)據(jù)所包含的噪聲體現(xiàn)在變量的數(shù)據(jù)值與其變量的總體分布產(chǎn)生偏離,這樣的數(shù)據(jù)稱之為異常值。這些異常值會嚴(yán)重影響規(guī)范化之后的數(shù)據(jù)分布的偏度。特別是最大最小規(guī)范化對變量異常值尤為敏感,z?score規(guī)范化的結(jié)果也會受異常值影響。本章將采用Rule 3.1對變量異常值進(jìn)行校正。

Rule?3.1:

If xli>ubXi,Then xli=ubXi

If xli<lbXi,Then xli=lbXi

在Rule 3.1中,ubXi和lbXi分別是變量Xi的上界和下界,用來校正變量的異常值。由于歷史數(shù)據(jù)量達(dá)到了一定規(guī)模,因此無法采用適用于小樣本的散點圖法和假設(shè)檢驗法來探測變量的異常值。對于ubXi和lbXi,本節(jié)介紹3σ法和四分展布法。

(1)3σ法

由切比雪夫不等式可知:P(|Xi-μXi|≥ε)≤σXi/ε2,當(dāng)ε=3σXi,則P(|Xi-μXi|≥3σXi)≤σXi/9,當(dāng)Xi服從正態(tài)分布時,P(|Xi-μXi|≥3σXi)=0.0027,由此可知,Xi以較大概率分布于以均值為中心的3σXi區(qū)間之內(nèi)。因此將ubXi和lbXi設(shè)置如下:

ubXi=μXi+3σXi?(3?3)

lbXi=μXi-3σXi(3?4)

(2)四分展布法

在異常值校正中,標(biāo)準(zhǔn)差容易受到異常值的影響,因此基于上下分位數(shù)距離的四分展布法也是異常值校正的常用方法。Q3Xi是變量的上四分位數(shù),Q1Xi是變量的下四分位數(shù),dF是上下分位數(shù)距離,稱為極差。而ubXi和lbXi可設(shè)置如下:

dF=Q3Xi-Q1Xi(3?5)

ubXi=Q1Xi-1.5dF(3?6)

lbXi=Q3Xi+1.5dF(3?7)

主站蜘蛛池模板: 河源市| 从化市| 乳源| 太湖县| 钟祥市| 黄石市| 当涂县| 朝阳区| 三原县| 康保县| 普兰县| 沙坪坝区| 洮南市| 富宁县| 庆云县| 敦煌市| 雷州市| 伊春市| 沙雅县| 井冈山市| 手游| 永丰县| 辛集市| 黔南| 乌鲁木齐县| 益阳市| 长白| 海伦市| 泰顺县| 万山特区| 虎林市| 分宜县| 城口县| 六盘水市| 柘城县| 忻州市| 乌拉特后旗| 晋江市| 徐汇区| 泉州市| 石河子市|