官术网_书友最值得收藏!

3.2.2 變量異常值校正

在單個變量上,制造數據所包含的噪聲體現在變量的數據值與其變量的總體分布產生偏離,這樣的數據稱之為異常值。這些異常值會嚴重影響規范化之后的數據分布的偏度。特別是最大最小規范化對變量異常值尤為敏感,z?score規范化的結果也會受異常值影響。本章將采用Rule 3.1對變量異常值進行校正。

Rule?3.1:

If xli>ubXi,Then xli=ubXi

If xli<lbXi,Then xli=lbXi

在Rule 3.1中,ubXi和lbXi分別是變量Xi的上界和下界,用來校正變量的異常值。由于歷史數據量達到了一定規模,因此無法采用適用于小樣本的散點圖法和假設檢驗法來探測變量的異常值。對于ubXi和lbXi,本節介紹3σ法和四分展布法。

(1)3σ法

由切比雪夫不等式可知:P(|Xi-μXi|≥ε)≤σXi/ε2,當ε=3σXi,則P(|Xi-μXi|≥3σXi)≤σXi/9,當Xi服從正態分布時,P(|Xi-μXi|≥3σXi)=0.0027,由此可知,Xi以較大概率分布于以均值為中心的3σXi區間之內。因此將ubXi和lbXi設置如下:

ubXi=μXi+3σXi?(3?3)

lbXi=μXi-3σXi(3?4)

(2)四分展布法

在異常值校正中,標準差容易受到異常值的影響,因此基于上下分位數距離的四分展布法也是異常值校正的常用方法。Q3Xi是變量的上四分位數,Q1Xi是變量的下四分位數,dF是上下分位數距離,稱為極差。而ubXi和lbXi可設置如下:

dF=Q3Xi-Q1Xi(3?5)

ubXi=Q1Xi-1.5dF(3?6)

lbXi=Q3Xi+1.5dF(3?7)

主站蜘蛛池模板: 平江县| 定远县| 达尔| 额济纳旗| 巫山县| 调兵山市| 长顺县| 宁安市| 荣昌县| 新田县| 错那县| 晋州市| 葫芦岛市| 福清市| 柘荣县| 九江市| 新邵县| 怀化市| 灵宝市| 新邵县| 寿光市| 邛崃市| 米易县| 驻马店市| 景宁| 当雄县| 新丰县| 都昌县| 扎赉特旗| 吐鲁番市| 边坝县| 梁山县| 辽源市| 顺平县| 阿拉尔市| 巫山县| 杭州市| 班玛县| 东明县| 沂水县| 沽源县|