- 檢驗檢測機構試驗數據處理方法
- 滕葳 李倩 柳琪
- 4133字
- 2020-04-10 17:03:13
第二節 可疑數據的處理方法
在檢驗檢測過程中,將一組平行測得的數據從小到大按順序排列,可以發現,可疑數據的出現通常有以下兩種情況:一種是一個或極少數的幾個數據和其他大多數數據比較,明顯偏高或偏低;另一種是和其他大多數數據比較,有兩個數據,一個明顯偏高,同時另一個明顯偏低。以下就這兩種情況,分別介紹運用統計學進行處理的方法。
一、偏大或偏小的可疑數據的處理方法
將測得的一組九個數據,按大小順字排列;x1,x2,…,xn,其中x1為可能出現的偏小數據,xn為可能出現的偏大的數據。
1.“4d”檢驗法
假設xn為可疑值。
(1)除去可疑值后求平均值:
(2-1)
式中,n為測量次數,即總的數據個數;xi為第i次的測得值。
(2)求平均偏差:
(2-2)
(3)計算可疑值與的差的絕對值D:
(2-3)
(4)將計算得的D值與比較。如D大于
的四倍,即D>4
,則該可疑數據棄去(見例2-1)。
該方法的優點是簡單易記,不需要計算標準偏差,也不需查表。它是從拉依達檢驗法簡化而來的。本法只適用于測量次數較大(n>10)的情況。如測量次數較少(n=5~10),可改為當D>2.5d時,將可疑數據棄去。本法的缺點是當測量次數較少,如n<10(使用4d檢驗法)或n<5(使用2.5d)時,即使存在誤差大,應該剔除的數據也無法舍去。
例2-1 今有以下11次平行測定的分析數據(%):30.18、30.23、30.21、30.15、30.28、30.31、30.56、30.32、30.38、30.35、30.19。問:其中30.56%這一數據是否應棄去?
解:
(1)除去30.56%這一數據后,求其余10個數據的平均值:
(2)求平均偏差:
(3)求D:
(4)將D與4比較:
故知30.56%這一數據應棄去。
2.拉依達檢驗法
(1)計算包括可疑值在內的平均值。
(2)計算包括可疑值在內的單一測定值的標準偏差S(以下均簡稱為標準偏差):
(2-4)
(3)計算可疑值與平均值的差的絕對值D,采用式(2-3):
(4)將計算得的D值與S比較,如D大于S的三倍,即D>3S,則該可疑數據棄去(見例2-2)。本法也較簡便,但只適用于測量次數較大(n>10)時,如測量次數較少(n=5~10)則可改為D>2S時,將該可疑數據棄去。它的缺點也和“4d”檢驗法一樣,如測量次數較少,則偏離較大的可疑值無法舍去。
例2-2 有一組分析測試數據:0.128、0.129、0.131、0.133、0.135、0.138、0.141、0.142、0.145、0.148、0.167。問:其中偏離較大的0.167這一數據是否應舍去?
解:
(1)計算包括可疑值在內的平均值及按式(2-4)計算標準偏差S:
(2)按式(2-3)計算D:
(3)將D與3S比較:
故按拉依達檢驗法,0.167這一可疑值不應舍去。從直觀上看,0.167與最接近它的0.148之差比其他數據之間的差要大得多,這樣的數據不舍去,正說明拉依達檢驗法的缺點,即在測量次數較少的情況下,偏離較大的可疑值無法舍去。
3.“Q”檢驗法
(1)先計算Q值”:
(2-5)
分母中xmax-xmin是指包括可疑值在內的最大值與最小值之差。
(2)選定顯著性水平a值,在表2-1中查得相應的Q(n,a)值,其中n為測量次數。
表2-1 Q檢驗臨界值

(3)將計算得的Q值與從表中查得的Q(n,a)值比較,若Q>Q(n,a),則舍去該可疑值(見例2-3)。
Q檢驗法適用于測量次數較少的情況。
顯著性水平a值,我們可以把它看成是由于舍掉該可疑值而犯錯誤的概率,故a值應選取適當。
如a取得太小,有可能使誤差大的、應該剔除的可疑數據被保留下來,但犯不應剔除的可疑值被舍去的錯誤的概率較小。如a取得太大,則有可能把不應剔除的數據也舍去,但犯應舍去的可疑值被保留的錯誤的概率較小。在化學分析中,檢驗可疑值的取舍時,不管用哪種檢驗方法,通常取a=0.01。只有在分析方法很成熟或對測量結果要求較高時,a值才可選用0.05或0.10。
例2-3 求某金屬標樣中石墨碳含量的標準值,由一個檢測機構分析數次,得到以下一組數據(按大小順序排列), %:0.220、0.223、0.236、0.284、0.303、0.310、0.478;問:偏差較大的0.478%這一數據是否應棄去?
解:
(1)根據式(2-5)計算Q值:
(2)查表2-1:Q(7,0.01)=0.637。
(3)將計算得的Q值與Q(n,a)值比較:
故在顯著性水平a為0.01時,0.478%這一數據應舍去。
4.格拉布斯(Grubbs)檢驗法
對一個偏高或偏低的可疑值進行檢驗時:
(1)計算包括可疑值在內的;
(2)按式(2-4)計算標準偏差S;
(3)求G0值:
(2-6)
(4)將計算得的G0值與表2-2中的G(n,a)值比較,若G0>G(n,a),則該可疑數據棄去(見例2-4)。
表2-2是以雙側檢驗為基礎計算得的數值,它適用于還不能確定可疑值是在高側還是低側時的情況。如該可疑值已確定在高側或已確定在低側,那么舍去該可疑值相應的a值為表中所標明的a值的。例如,按表中a=0.05某一數據可舍去,但該數據很明顯是偏高(在高側),則舍去該數據的實際的a值為0.025。
表2-2 Grubbs檢驗臨界值G(n,a)

例2-4 容量法測定某樣品中的錳含量,八次平行測定數據如下(%):
10.29、10.33、10.38、10.40、10.43、10.46、10.50、10.82。問:10.82%這一數據是否應舍去?
解:
(1)計算出包括可疑值在內的平均值和標準偏差S:
(2)根據式(2-6)計算G0值:
(3)選定顯著性水平a=0.01,由于這里可疑值已確定在高側,這是單側檢驗,故查表2-2時應查a=0.02,n=8相應的G(n,a)值,查得G(n,a)=2.22。
(4)結論:由于G0>G(n,a),故在顯著性水平a為0.01時,可疑值10.82%應舍去。
嚴格來說,應用格拉布斯(Grubbs)檢驗法時,式(2-6)中標準偏差的值不應由原來的一組測量數據中求得,而是應由相同的試樣,通過較多次數的分析測試求得,設此值為Sv,其中v為求標準偏差時的自由度,然后再查表2-3,如G0值大于該表中相應值,則棄去該可疑數據(見例2-5)。
表2-3 Grubbs檢驗臨界值G(n,v,a)

例2-5 采用電重量法測定某黃銅樣品中的銅含量,通過對樣品中銅含量的40次平行測定,計算所得的標準偏差為0.019%。現對同一黃銅樣品試樣,采用相同方法再做9次測定,得到如下測定數據(%):57.82、57.84、57.83、57.86、57.81、57.89、57.82、57.83、57.85。問:偏離較大的數據57.89%是否要舍去?
解:
(1)從題意得:Sv=0.019%,v=40-1=39
(2)計算包括可疑值在內的9次測定的平均值:
(3)計算G0值:
(4)查表2-3:v≈40,n=9,當a=0.05時,查得G(n,v,a)=2.50;
(5)結論:由于G0>G(n,v,a),故將57.89%這一數據舍去。
格拉布斯(Grubbs)檢驗法也可用于檢驗有兩個數據(x1,x2)較其他大多數數據偏小,或有兩個數據(xn-1,xn)偏大的情況。此時可僅檢驗內側數據,即前者檢驗x2,后者檢驗xn-1。如檢驗結果x2應舍去,則x1和x2兩個數據均舍去;同樣,如xn-1應舍去,則xn-1和xn。兩個數據均舍去。如果檢驗結果x2或xn-1不應舍去,則繼續檢驗x1或xn(見例2-6)。
例2-6 對同一銅合金,有10個分析人員分別進行分析,測定其中銅含量(%)的數據如下:68.20、68.49、70.30、70.65、70.82、71.03、71.22、71.25、71.33、71.38。
問:以上數據中68.20%和68.49%這兩個數據是否應舍去?
解:
(1)按檢驗一個可疑值的方法,檢驗內側的68.49%這個數據(外側的68.20%先不計算在內):
依據式(2-4)計算標準偏差S,S=0.9082
(2)按式(2-6)計算G0:
(3)選定顯著性水平a=0.01,由于這里是單側檢驗,故查表2-2時應查a=0.02,n=9相應的G(n,a)值,查得G(n,a)=2.32。
(4)由于G0>G(n,a),故在顯著性水平a為0.01時,68.49%這一數據應舍去。既然內側的數據已應舍去,作為外側的,偏離更大的68.20%更應舍去,即68.20%和68.49%兩個數據都應舍去。
在此情況下,也可用以下方法來判斷這兩個數據是否均應舍去:
(1)當可疑值為x1,x2時,計算包括可疑值在內的偏差平方和S2:
(2-7)
式中,為包括可疑值x1、x2的平均值。
(2)除去可疑值x1,x2,計算:
(2-8)
式中,為除去可疑值x1,x2的平均值。
(3)計算g0值:
(2-9)
(4)將g0值與表2-4中對應的g(n,a)值比較,如g0<g(n,a),則x1,x2兩數據均舍去(見例2-7)。
同樣,可用以上方法檢驗兩個偏大的可疑值(xn-1,xn),用和式(2-8)相似的方法計算,再以
代替式(2-8)中
算g0,然后查表,如g0<g(n,a),則xn-1,xn兩數據均舍去。
表2-4是雙側檢驗表。如已確定可疑值是偏大,或者已確定是偏小,則舍去該可疑值相應的a值為表中所標明的a值的1/2。
表2-4 Grubbs檢驗臨界值g(n,a)

例2-7 用例2-6的測試數據。
解:
(1)計算:,
(2)計算:
(3)計算g0:
(4)查表2-4:g(10,0.01)=0.1415
(5)比較:g0<g(10,0.01)
故在a=0.005下,68.20%及68.49%兩個數據應舍去。
同時規定計算S時,測量次數應大于7(n>7)。
如果標準偏差S=0.005已被確定,則應用表2-3查G(n,v,a),其中n為測量次數,v=∞,a為選定的顯著性水平。
5.狄克遜(Dixon)檢驗法
(1)根據測量次數n,確定相應的rij,見表2-5。
表2-5 根據測量次數n確定的rij

(2)根據可疑值是偏大還是偏小,按下式計算rij值,見表2-6。
表2-6 可疑值偏大、偏小時計算rij值的公式

(3)選定顯著性水平a,按計算得的rij,從表2-7中查得相應的ra值。
(4)將計算得的rij值與表中查得的ra值比較,如rij>ra,則舍去該可疑值(見例2-8)。
表2-7是單側檢驗表,若做雙側檢驗,則查相當于a/2的r值。
表2-7 Dixon檢驗臨界值

本法在試樣的真值(或標準值)和分析方法的標準偏差均為未知時特別適用。
例2-8 用分光光度法測定某樣品中的磷含量,一分析人員平行測定12次,得到以下數據(%):1.578、1.566、1.578、1.588、1.587、1.535、1.568、1.603、1.567、1.591、1.575、1.576,其中1.535%偏離較大,問:是否應舍去?
解:
(1)將數據從小到大依次排列(%):1.535、1.566、1.567、…、1.588、1.591、1.603。
(2)n=13,應選用r21。
計算r21,因1.535是偏小值,所以選用以下計算式:
由數據得:x1=1.535,x3=1.567,xn-1=1.591,則:
(3)查表2-7:rij=r21,n=13,a=0.01,查得ra=0.615。
(4)比較:rij<ra,故1.535這一數據不應舍去。
二、偏大和偏小的可疑數據同時出現的處理方法
在一組數據中,對偏小的數據x1和偏大的數據xn同時出現的情況,有以下幾種檢驗方法:
1.戴維(David)檢驗法
(1)包括可疑值在內,按式(2-4)計算標準偏差。
(2)計算d/S值
(2-10)
(3)選定顯著性水平a值,根據測量次數n,在表2-8中查得相應的數值。
(4)將計算得的d/S值與表2-8中查得的值比較,如計算值大于表中值,則可認為偏大的可疑值(xn)或偏小的可疑值(x1)的任一個或兩者都是應舍去的可疑值。
表2-8 David檢驗臨界值

為了進一步確定應舍去哪一個可疑值(x1或xn)或是否應同時舍去這兩個可疑值(x1和xn),可以再用上節中介紹的檢驗一個可疑值的Grubbs檢驗法檢驗。此時按以下步驟進行:
(1)先按下式確定x1是否應舍去:
(2-11)
式中,S及系包括x1及xn計算得到的標準偏差及平均值。如計算得到的G1值大于表2-2中相應的G(n,a)值,則舍去可疑值x1。
(2)再按下式確定xn是否應舍去:
(2-12)
如已確定x1應舍去,則此時計算S及均不包括x1值。同樣,如計算得的Gn值大于表2-2中相應的G(n,a)值,則舍去可疑值xn(見例2-9)。
例2-9 有一含錳試樣,需要測定其中錳元素的含量,檢測人員對此試樣進行15次連續平行測定,檢測結果如下(%):25.60、26.56、26.70、26.76、26.78、26.87、26.95、27.06、27.10、27.18、27.20、27.39、27.48、27.63、28.01。以上有兩個數據25.60%和28.01%與其他數據偏離較大,問:是否應舍去?
解:
(1)包括可疑值,按式(2-4)計算標準偏差S:
(2)按式(2-10)計算d/S:
(3)查表2-8:a=0.05,n=15,查得表中值為4.17。
(4)將計算值(d/S)與表中值比較:
這表明可疑值25.60%和28.01%,其中一個或兩個是應舍去的異常值。再用Grubbs方法檢驗,確定哪一個(或兩個)是應舍去的異常值。
(5)先檢驗25.60%這個數據,按式(2-11)計算:
查表2-2:G(15,0.05)=2.55。比較G1和G(n,a),因G1>G(n,a),故25.60%這一數據應舍去。
(6)除去25.60%這一數據后,在剩下的14個數據中再檢查28.01%這個數據,重新計算剩下14個數據的平均值和標準偏差S:
再按式(2-12)計算:
查表2-2:G(14,0.05)=2.51,比較Gn和G(n,a),因Gn<G(n,a),故28.01%這個數據應保留。
根據以上檢驗結果,在15個數據中應將可疑值25.60%舍去。
2.狄克遜(Dixon)檢驗法
上節中介紹的狄克遜(Dixon)檢驗法也適用于本節“偏大和偏小的可疑值同時出現”的情況,其步驟如下:
步驟(1)和(2)與上節介紹的狄克遜(Dixon)檢驗法中步驟(1)和(2)相同。
(3)選定顯著性水平a后查表。應該注意此時和上節介紹的只出現偏大可疑值或只出現偏小可疑值的情況不同。此時如欲選定a值為0.10,則查表2-7時應查a/2值,即查0.05一欄中相應值。也就是說表2-7中注明的顯著性水平為0.05時,則同時檢驗偏大和偏小可疑值的取舍的實際顯著性水平為0.10。
(4)將計算得的可疑值偏大的rij值和可疑值偏小的rij值分別與表2-7中所查的相應ra值比較,任一可疑值,只要大于表中的相應值,則將該可疑值舍去(見例2-10)。
例2-10 用例2-9的測試數據。
解:
(1)根據測量次數n=15,確定rij為r22。
(2)計算rij值:
①可疑值偏大:
②可疑值偏小:
(3)選定顯著性水平a=0.01,由于這里是做雙側檢驗,故查表2-7時,需查相應于a/2=0.005的r值,n=15,查得r0.005=0.647。
(4)將計算得的rij值分別同ra值比較:可疑值偏大的r22<ra;可疑值偏小的r22<ra。
(5)結論:由于r22<ra,故在顯著性水平a=0.01時,28.01%和25.60%兩個數據都應保留。
3.極差確定法
(1)選定顯著性水平a。
(2)查表2-9中q1-a(n,a)值,其中n為測定次數,另Sv為獨立測得的標準偏差,v為測得該標準偏差時所用的自由度,計算式見式(2-13)。
(3)計算w值:
(2-13)
(4)如xn-x1>w,則舍去該可疑值。
(5)舍去可疑值后,再按以上步驟重新檢驗剩下的數據,直至最大值減最小值小于按式(2-13)計算得的w值為止。
如果該測定方法的標準偏差Sv已事先確定或通過大量實驗事先求得,則在選定a值后,查表2-9中q1-a(n,∞)值,再按w=q1-aSv式計算w。如xn-x1>w,則舍去該可疑值,然后再按此方法重復檢驗,直至無可疑值要舍去為止。
例2-11 用一標準方法測定鋼樣品中的鉬含量,測定40次,得到分析測試的標準偏差為0.0030%。現用此方法分析組分相同、含量相近的鋼樣,測定其中鉬的含量,平行測定10次,得到結果如下(%):0.123、0.124、0.126、0.129、0.120、0.132、0.126、0.129、0.128、0.115。問:有無可疑值應舍去?
解:
(1)選定顯著性水平a=0.05。
(2)根據題意,已知:v=40-1≈40,n=10,
查表2-9:q1-a(n,v)=q0.95(10,40)=4.73
(3)計算w:已知Sv=0.0030%,
(4)比較:xn-x1=0.132-0.115=0.017(%)
在這組數據中,0.115比0.132偏離更大些,方將0.115%這一可疑值舍去;
(5)按以上步驟,再繼續檢驗剩下的9個數據:
仍選定a=0.05,此時n=9,查表2-9得:
計算得 w=4.63×0.0030=0.014;xn-x1=0.132-0.120=0.012,因為xn-x1<w,故表明此時無可疑值需要舍去。
結論:所測得的10個數據中,只有0.115%為異常值,應舍去。
如果真值(或標值)m和標準偏差S均為已知,則可用以下的極差確定法來檢驗可疑值。
(1)選定顯著性水平a。
(2)計算a'值:
(2-14)
(3)查表2-10中相應的值,其中
為式(2-14)所計算得的a'值除以2。
(4)計算測量值范圍:
(2-15)
(2-16)
(5)如果偏大的可疑值大于b,則將該可疑值舍去;同樣,如偏小的可疑值小于a,則舍去該可疑值;舍去可疑值后,再按以上方法檢驗,直至全部數據均落在范圍內為止。
以上檢驗方法也適用于只出現偏大可疑值或只出現偏小可疑值的情況,但此時式(2-14)需改為:
(2-17)
然后直接查表2-10中的值,再計算
。本法特別適用于通過較多檢測機構的大量數據所考核的標準分析方法(S已知),并用該標準方法所測得的某參考物質的標值(m已知)的情況。由于此時S和m均為已知,故如采用該標準分析方法和該參考物質再次進行分析時,則可檢驗所得的一組分析結果中是否存在應舍去的異常值。
表2-10 正態分布表
[u=(測量值-平均值)/標準偏差]

此表為單側檢驗表,若做雙側檢驗,則查對應于a/2的u值。
例2-12 某標鋼中含鐵量為70.91%,一分析方法的標準偏差為0.020%,現將此標鋼交給一分析人員,由他用該分析方法測定其中鐵含量。此分析人員平行測定六次,得到以下一些數據(%):70.85、70.88、70.90、70.91、70.95、70.93。問:這些分析測試數據是否都可靠?
解:
(1)選定a=0.05。
(2)計算a':,則
(3)查表2-10,u0.0043=2.627
(4)按式(2-15)及式(2-16)計算a,b值:
(5)偏大的可疑值70.95<b(70.96),所以70.95(%)這一數據應保留;偏小的可疑值70.85<a(70.86),故70.85(%)這一數據應舍去。
舍去70.85%后,再檢驗剩下的5個數據:
(6)此時n=5,,則
(7)查表2-10:u0.0050=2.575
(8)
(9)偏大的值70.95<b(70.96),偏小的值70.88>a(70.86),故此時無可疑值需舍去。
以上介紹了多種檢驗可疑值的方法,在實際應用時,對同一組數據中的可疑值用不同的方法進行檢驗,得到的結論不一定相同,因此推薦:如檢驗一個可疑值,以Grubbs方法為準;檢驗兩個以上可疑值,以Dixon方法為準。關于顯著性水平的選取,應當選得稍小一些,以使數據不能輕易被剔除,如果在0.01和0.05兩顯著性水平中任選其一,則常常選取0.01。