- 分析測試統計方法和質量控制
- 曹宏燕等編著
- 5309字
- 2020-05-06 20:08:50
1.4 正態分布的數字特征
隨機變量的正態分布及其概率密度中的兩個基本參數是均值μ和方差σ2,分別表示正態分布的中心位置和正態分布概率密度的形狀,或者說表示測量值的集中趨勢和其離散程度。確定了測量結果的μ和σ2,就可以了解總體分布并估計測量值落在某一區間的概率。因此,在分析測試中可以用μ和σ2來描述隨機變量分布的特征。
在實際測試中,只是對樣本進行有限次的測量,不能得到μ和σ2。以下將討論如何用樣本均值和樣本方差s2來合理估計總體均值μ和總體方差σ2。
1.4.1 數據集中位置的特征數
(1)平均值 設對同一量進行n次獨立測量,測量值分別為x1、x2、…、xn,測量中無系統誤差,則各隨機誤差可分別表示為:
……
由此,
由隨機誤差的抵償性,當測量次數n無限增多時,δi→0,則
(1-16)
式(1-16)表明,在消除系統誤差后,多次測量的平均值趨向于被測量的真值,是其真值的無偏估計,這就是平均值的原理。
從正態分布圖形可以看出,正態分布的密度函數曲線對于μ是對稱的,各測定值對μ的偏差有正有負,而正、負偏差出現的機會相等,當計算算術平均值后,一部分正、負誤差相抵消,因此用算術平均值x來估計μ值,其偏差最小,是最可信賴的值。
另外從測量值的概率分布也可導出平均值的最佳估計值。設一組等精度的測量(x1、x2、…、xn)服從正態分布,則xi出現的概率為:
由于它們是獨立測量所得的值,這些測量值同時出現的概率為:
從統計學觀點看,一組數據的最佳估計值μ應該是x出現概率最大的值。為使P最大,應當使指數項為最小,即
展開得:
(1-17)
由此,一組數據的算術平均值是總體均值μ的無偏估計值。所謂無偏估計,是表示計算的算術平均值
消除了測量的隨機誤差(但不是全部),其
的殘差平方和最小,與總體均值μ十分接近(但不是沒有偏離,而是偏離最小)。
計算算術平均值時,以下幾種變換方式對計算是有用的:
①若對xi作變換,yi=xi+c,其中c是常數,
則:
②若對xi作變換,yi=cxi,其中c是不為零的常數,
則:
③若對xi作變換,,其中a、b是不為零的常數,
則:
(2)加權平均值 在實際測量中,不可能都在同一條件下進行多次重復測量,或采用不同分析方法進行測量,或在實驗室間采用不同(或相同)分析方法測量,各測量結果的精密度亦不可能一致。對這種不等精度的測量,在計算最終測量結果時,要考慮測量精密度對測量結果的影響。
在不等精度的測量中,由于精密度高的測量數據更為可靠,而精密度差的數據可靠性相對較差,在計算時將精密度高的數據賦予較大的支配權,而精密度差的數據減小它的影響力,加權平均值是被測量的最佳估計值,它滿足最小二乘法原理。
設m組測量結果各自的平均值分別為、
、…、
;測量次數分別為n1、n2、…、nm;測量標準差分別為s1、s2、…sm、。令wi為i測量結果的權,
,則最終測量結果的加權平均值
為:
(1-18)
加權平均值的標準差為:
(1-19)
加權平均值具有以下特征:
①在不等精度測量中,加權平均值是出現概率最大的值。
②在不等精度測量中,加權平均值是總體均值μ的無偏估計。而在等精度測量中各測量值的權相同,w1=w2=…=wm,則加權平均值等于算術平均值。等精度測量只是不等精度測量的一種特例。
③在實際測試工作中,同一人在重復性條件下進行多次測量,可以看作是等精度測量。不同實驗室在再現性條件下進行測量,屬于不等精度測量,可采用加權平均值報告測量結果。
但是,如果再現性條件下各測量結果的精密度在統計上沒有顯示有顯著性差異,可認為是等精度測量,通常還是以算術平均值計算其測量結果。
【例1-3】 某實驗室分別用ICP-AES、AAS和光度法測定某低合金鋼中的鎳含量,分別各進行15次、10次、8次測量,測量結果分別為0.885%、0.877%和0.891%,其標準差分別為0.008%、0.021%和0.010%,計算鎳含量的測量值。
解 由于各測量方法對鎳的測量是不等精度的,以其測量精度的方差為權進行計算,于是
如果直接計算三個方法鎳含量的算術平均值,則=0.884%。在加權平均值中考慮了分析結果精密度的因素,對分析結果精密度高的值,給予較大的權,其計算結果更傾向于精密度高的測量結果。
注:計算時,先對三組測量結果用柯克倫法檢驗其精密度一致性(見第2章2.3.5.1)。
(3) 中位值M 當一組測量值不服從正態分布或只是近似正態分布時(存在偏峰或雙峰,對偏態分布或分布末端無確定數據資料情況,或測量數據分布情況不明),可用中位值來表示測量的最佳估計值。中位值又稱中位數。
將一組測量值按由小到大的順序排列,當測量數是奇數時,位于中間位置的測量值為中位值,當測量數是偶數時,位于中間相鄰兩位置測量值的平均值為中位值。
中位值估計不受特別大或特別小的值的影響,只受居中測量值波動的影響。當測量值波動大時,中位值是比平均值更穩健的統計量。例如,工資的抽樣調查,人群的工資分布往往是不對稱分布,低工資和較低工資的人群較集中,高工資人群雖少但工資高,區間跨度很大,通常用中位值來表示工資的集中趨勢,可認為有一半人群的工資低于中位值工資。而當用平均值表示時,將有一半多人的工資達不到平均工資。又如表1-1中分析者E的試驗數據,由于其極大值(1.91%)偏離其他數據的分布,用中位值(1.82%)表示均值比用其平均值(1.83%)更能恰當地反映數據的集中趨勢。醫學上的體征指標、傳染病的潛伏期等常用中位值表示其集中趨勢。實驗室間能力驗證的數據處理中,為避免極端值對統計結果的影響,多采用以中位值表征測量結果集中趨勢,以標準化四分位距表征分散性的穩健統計方法。
對于遵循正態分布(對稱分布)的測試數據,中位值與算術平均值是十分接近的。而數據分布偏峰愈嚴重,則其算術平均值和中位值相差愈大。
另外,對于一組測量值,還有用眾數、均方根平均值、幾何平均值、調和平均數來表示一組數據集中位置的特征數,但在分析測試中不常用。
(4)眾數M0 在總體分布中,出現頻數最大的測量值,稱為眾數。在直方圖中,有時可能出現一個以上的眾數。
(5)均方根平均值u
(1-20)
(6)幾何平均值G
(1-21)
(7)調和平均值H
(1-22)
按數理統計理論,由于受隨機誤差的影響,分析測量結果一般服從(或近似服從)正態分布,其算術平均值是測量結果的最佳估計值。
1.4.2 數據離散度的特征數
測量結果的離散度與其測量條件密切相關。在分析測試中通常用重復性和再現性來表示不同條件下的測量結果的精密度。
重復性和再現性是表征在兩種極端條件下測量結果的精密度。當然,很多測試是在這兩種實驗條件的中間條件下進行的,當表達精密度時應說明其測試的測量條件。通常將重復性和再現性表示為實驗室內精密度和實驗室間精密度。
分析測試中精密度通常用以下幾種統計量表示:
(1)平均偏差和相對平均偏差 用同一方法對同一樣品進行n次測定,測量值分別為x1、x2、…、xn,測量值的平均值為,則平均偏差
表示為各測量值與平均值
偏差di的絕對值的平均值:
(1-23)
某個測量值的偏差有正負號,但平均偏差不計正負號。用平均偏差表示精密度的方法簡單,但對大誤差的出現不敏感,數據處理中很少應用。
(2)標準差(標準偏差)和相對標準差 標準差可以用多種方法計算,分析測試中最常用的是貝塞爾計算法。
①貝塞爾(Bessel)法。在正態分布情況下,總體的標準差表示為:
(1-24)
式中,μ是被測量的真值,由于一般μ未知,無法求得總體標準差。
實際測量中測量次數是有限的,通常用樣本單次測量的標準偏差s表示σ的估計量。
設x1、x2、…、xn是總體x的樣本,則樣本的標準差s可表示為:
(1-25)
與此相對應的樣本方差為:
(1-26)
可以證明,s2是總體方差σ2的無偏估計量。在σ2的無偏估計量中,s2是最佳估計值。
將式(1-25)分子的平方項展開,可得
于是
(1-27)
式(1-25)和式(1-27)通常稱為計算標準差的貝塞爾公式。
為了計算上的方便,經變換式(1-27)也可表示為:
(1-28)
【例1-4】 分析某保護渣中的二氧化硅,5次測量結果分別為31.2%、31.4%、31.9%、31.5%和31.6%,計算測量結果的標準差。
解 計算得=31.5%,設a=31.5%,測量結果分別變換成-0.3%、-0.1%、0.4%、0.0%和0.1%,用變換公式(1-28)計算:
表1-6給出了隨機變量x的總體特征量和樣本估計量。
表1-6 隨機變量的總體特征量和樣本估計量

②合并樣本標準差。為提高測量的可靠性,有時對同一樣品同時進行多組測量,計算合并樣本標準差。
設m個分析人員或實驗室對同一樣品進行m組測量,其結果分別為:
x11、x12、…、x1n1,單次測量標準差s1,測量次數n1,平均值;
x21、x22、…、x2n2,單次測量標準差s2,測量次數n2,平均值;
……
xm1、xm2、…、xmnm,單次測量標準差sm,測量次數nm,平均值。
則合并樣本標準差:
(1-29)
其自由度為
當每一組測量次數ni均為n時,
(1-30)
其自由度ν=m(n-1)。需注意的是,各測量列的標準差si不應有顯著性差異(在統計上可以用柯克倫法檢驗各si的一致性)。
可以估計到,計算的合并樣本標準差在樣本的最小標準差和最大標準差之間。
合并樣本標準差的計算實質上同屬于貝塞爾法。
合并樣本標準差可以統計一個實驗室數個分析人員的測試精密度,也可以統計多個實驗室的測試精密度,或利用實驗室歷次在重復性條件下的測量數據的測試精密度。在分析方法精密度協同試驗中采用合并樣本標準差計算實驗室內的重復性標準差。
【例1-5】 有五個實驗室用ICP-AES法分析同一鋼樣中的鎳,每個實驗室獨立分析五次,測量結果見表1-7,計算測量結果的標準差。
表1-7 各實驗室測量鋼中鎳的結果

解 首先求各實驗室測量的平均值和標準差si,一并列于表1-7,又各實驗室測量次數相同,n=5,計算合并樣本標準差:

圖1-7 平均值標準差與測量次數n的關系
③平均值的標準差。對于一組等精度的測量,其平均值為:
單次測量的標準差為σ,根據誤差的傳播定律:
在有限次測量情況下,以表示樣本平均值的標準差,則
(1-31)
表1-8列出了不同測量次數的單次測量標準差與平均值標準差的關系。數據表明,雖然不同次數(n)測量得到的平均值()和標準差(s)都相同,而且測量結果的極差(R)也隨測量次數增加而增加,但平均值的標準差(
)卻隨之減小,測量的可靠性增加。計算表明,單次測量標準差不變時,平均值標準差與測量次數成反比。隨著測量次數的增加,一部分正、負隨機誤差相抵消,平均值的標準差減小,見圖1-7。但是,當測量次數n>5時,平均值標準差
減小較慢;n>10時,
減小很慢。因此,不能僅用增加測量次數(同時增加測量成本)來提高測量精度,而應輔以其他的改進措施。當n→∞,
→0時,表示無數次測量的隨機誤差趨于零。
表1-8 單次測量標準差與平均值標準差的關系實例

在測量不確定度評定中,以平均值的標準差表示測量重復性的不確定度分量。
從n個測量結果中取其中m個測量值,其平均值為,其平均值的標準差為:
(1-32)
標準差還可以用以下幾種方法進行近似計算。
④極差法。在重復性條件下,用測量結果的極差R(xmax-xmin)計算單次測量的標準差:
(1-33)
極差法的極差系數C和自由度ν見表1-9。在n<25條件下,C≈。由于極差法計算時只用到兩個極值,可靠性不及貝塞爾法,通常在n=4~9時使用。
表1-9 極差系數C及自由度ν

根據例1-4的測量數據,C=2.33,計算得。
⑤最大偏差法。在重復性條件下對同一樣品進行n次測定,計算其平均值,計算最大偏差的絕對值
,則單次測定的標準差可由下式計算:
(1-34)
式中,1/k'n是與測量次數有關的因素,見表1-10。
表1-10 最大偏差法因素

由例1-4測量數據,平均值=31.5,最大值31.9,最大偏差
=31.5-31.9=0.4,n=5,1/k'n=0.74,得s=0.4×0.74=0.30。
極差法和最大偏差法的計算比貝塞爾法方便,不用對諸多數據平方和開方。但是貝塞爾法利用了所有測量數據的信息,而且對測量值中較大的誤差比較敏感,計算的標準差的可靠性高。
⑥彼得斯(Peters)法。彼得斯法用各測量值偏差絕對值之和計算標準差:
(1-35)
彼得斯計算法中反映了各測量值xi的信息,計算值有較高的可信度。
由例1-4,按彼得斯法計算得:
于是
此外,在眾多測量數據的計算中,為消除極端值對統計結果的影響,可采用穩健統計方法,例如,用中位值、切尾平均值、文瑟平均值來表征測量數據的集中趨勢,用標準化四分位距、中位絕對偏差法表征測量數據的分散性。關于穩健統計方法詳見第7章相關內容。
⑦相對標準差。以標準差的相對百分數表示,稱相對標準差,通常用RSD表示:
(1-36)
相對標準差無量綱,用百分數(%)表示,但實際表達時通常省去%符號。相對標準差亦稱變異系數(CV)。通常情況下,測量值的標準差隨其量值的增加而增加,而其相對標準差隨之減小。
(3) 標準差的可靠性 標準差s是總體標準差σ的一個估計值,由一系列測量值計算而得到,是一個隨機變量,有一定的變動性。度量標準差變動性的標準差,稱為標準差的標準差,表示標準差的精度。
標準差的標準差與測量次數有關,經推導得:
(1-37)
在有限次的測定中:
(1-38)
這種變動性隨測量次數的增加而減小,標準差s更可靠。對樣本標準差s的相對精密度可表示為:
(1-39)
當n=51時,可計算得:
結果表示,其時標準差的十位數已不確定了。通常在有限次的測量中,標準差取兩位有效數字已足夠了。表1-11表示了不同測量次數標準差的精度,即標準差的不可靠程度。
表1-11 標準差的不可靠程度

(4)或然誤差 或然誤差ρ指在一組測量值的誤差中,落在-ρ和+ρ范圍內的誤差的個數與落在該區間范圍外的誤差個數相等。或者說,在所有的測量誤差中有一個誤差值,比它大的誤差與比它小的誤差出現的可能性恰好相等,這一誤差稱為或然誤差。
根據或然率理論,當測量次數足夠大時,或然誤差和平均偏差與標準差有如下關系:
通常情況下,采用貝塞爾法公式計算標準差表示測量結果的離散程度。