2.3 有限數據的統計處理
隨機誤差分布的規律給數據處理提供了理論基礎,但它是對無限多次而言。而實際測定只能是有限次。數據處理的任務是通過對有限次測量數據合理的分析,對總體作出科學的論斷,其中包括對總體參數的估計和對它的統計檢驗。
2.3.1 t分布曲線
在實際工作中,測定次數一般不多,總體標準偏差σ是不知道的,僅知道它的估計值s。因此,只能用樣本標準偏差s代替總體標準偏差σ,這必然引起正態分布的偏離。為補償這一誤差,可用t分布來處理。t分布是英國統計學家兼化學家Gosset提出來的,他當時用筆名“Student”發表論文,故稱其為t分布。t定義為:
(2-21)
此時隨機誤差不是正態分布,而是t分布。t分布曲線的縱坐標是概率密度,橫坐標是t。圖2-4為t分布曲線。

圖2-4 t分布曲線
由圖可見,t分布曲線與正態分布曲線相似,即t分布的橫坐標用統計量t代替u。t分布曲線隨自由度f而改變。當f趨于∞時,t分布就趨近于正態分布,t分布曲線下一定區間內的面積,就是某區間內的測量值或隨機誤差出現的概率。此概率稱為置信度,用P表示,它表示在某一t值時,測定值落在(μ±ts)范圍內的概率。落在此范圍之外的概率為(1-P),稱為顯著性水平,用α表示。
t分布曲線形狀隨t值而改變,還與f值有關。不同f值及概率所對應的t值已計算出來。表2-1列出了常用的部分值。由于t分值與置信度及自由度有關,故一般表示為tα,f。
表2-1 tα,f分布表

由表可見,當f→∞時,s→σ,t即u。實際上,f=20時,t與u已很接近。
2.3.2 平均值的置信區間
平均值的置信區間,是指在一定置信度下,以平均值為中心,包括總體平均值μ的范圍。用樣本平均值來表示的置信區間,可按t的定義式給出:
(2-22)
樣本平均值的置信區間一般就稱為平均值的置信區間。
對于置信區間的概念應正確理解。例如,μ=57.50%±0.10%(置信度為95%),它表示在57.50%±0.10%的區間內包括總體平均值μ的概率為95%,不能說μ落在某一區間的概率為多少,因為μ是客觀存在的,沒有隨機性。一般將置信度定在95%或90%。置信度越高,置信區間就越大,即所估計的區間包括真值的可能性就越大,可由下例看出。
例2-2 對某未知試樣中Cl-的質量分數進行測定,5次測定結果為:1.11%,1.12%,1.16%,1.12%,1.15%。計算置信度為90%、95%和99%時,總體平均值μ的置信區間。
解 計算得
查表2-1得,當P=90%時,t0.10,4=2.13
同理,當P=95%時,t0.05,4=2.78,μ=1.13%±0.027%
當P=99%時,t0.01,4=4.60,μ=1.13%±0.045%
從本例可以看出,置信度越高,置信區間就越大。
2.3.3 顯著性檢驗
在定量分析中,經常會遇到這樣一些問題:同一分析人員對標準試樣進行多次測定后其平均值與標準值不完全一致;當采用不同的分析方法對同一試樣進行分析測定得到的結果不完全相符;或不同分析人員或不同實驗室對同一試樣進行分析時,得到的結果存在較大的差異。這就需要我們判斷這些差異(誤差)是由系統誤差引起的,還是由隨機誤差引起的,從而消除或減小誤差,提高分析結果的準確度。如果分析結果之間存在明顯的系統誤差,則認為它們之間存在“顯著性差異”,反之,就認為沒有“顯著性差異”,而是由隨機誤差引起的,認為是正常的誤差。因此,顯著性檢驗就是利用數理統計方法來檢驗分析結果之間是否存在顯著性差異。其最常用、最重要的方法是t檢驗和F檢驗。
2.3.3.1 t檢驗法
(1)平均值和標準值比較 在定量分析中,為了檢驗分析方法或操作過程中是否存在較大的系統誤差,可計算出一定置信度下的t值,并與表2-1中的統計值t進行比較,即可作出判斷,分析結果的平均值與標準試樣的標準值是否存在顯著性差異,故稱為t檢驗法。其檢驗方法如下。
①在一定置信度下,平均值的置信區間為:
則有:
(2-23)
②根據上式計算出t值,并與表2-1中的t值(t表)進行比較:
當t>t表時,存在顯著性差異;當t<t表時,不存在顯著性差異。
在分析化學中,常采用95%的置信度。
例2-3 現采用某種新方法測定膽礬中銅的質量分數,得到7次分析結果,分別為:25.43%,25.45%,25.46%,25.47%,25.50%,25.46%,25.52%。已知膽礬中銅含量的標準值為25.46%。試判斷此新方法是否存在系統誤差(置信度為95%)。
解 已知:n=7,f=7-1=6
則
當P=0.95,f=6時,查表得t表=2.45,t<t表,故與μ之間不存在顯著性差異,此新方法沒有引起明顯的系統誤差。
(2)兩組平均值的比較 同一分析人員采用不同分析方法或不同分析人員分析同一試樣時,所得到的平均值常常是不完全相同,當遇到此種情況時,也可采用t檢驗法判斷其平均值之間是否存在顯著性差異,其檢驗方法如下。
設有兩組分析數據分別為:n1,s1,和n2,s2,
。它們之間是否存在系統誤差,可用下式判斷。
(2-24)
上式中s稱為合并標準偏差。可由下式求出:
(2-25)
在一定置信度下,總自由度f=n1+n2-2時,查出表2-1的t表值,當t>t表時,兩組平均值存在顯著性差異;t<t表時,則不存在顯著性差異。
2.3.3.2 F檢驗法
F檢驗法是通過比較兩組數據的方差(s2)之比來判斷兩組數據的精密度是否存在顯著性差異的方法。
統計量F定義為:
(2-26)
式中,為大的方差;
為小的方差。一般來說,如果兩組數據的精密度相差很小,則F值趨近于1;若兩組數據的精密度相差較大時,F值就較大。置信度為95%時的F值見表2-2。
表2-2 置信度95%時的F值

注:f大表示大方差數據的自由度;f小表示小方差數據的自由度。
可將計算的F值與表2-2所列的F值(F表)進行比較。即在一定置信度下,當F>F表時,則認為它們之間存在顯著性差異;反之,不存在顯著性差異。
例2-4 用兩種不同的方法測定亞鐵鹽中鐵的質量分數,所得結果如下。
第一種方法:14.23% 14.26% 14.24%
第二種方法:14.10% 14.12% 14.08% 14.06%
問在置信度為95%時,兩種方法是否存在顯著性差異?
解 先進行F檢驗:
則
查表2-2,f大=3,f小=2,F表=19.16,F<F表。故此兩種數據的精密度之間不存在顯著性差異。再用t檢驗法檢驗。
查表2-1,f=n1+n2-2=5時,t表=2.57,t>t表。故此兩種方法之間存在顯著性差異,即存在系統誤差。必須找出原因,加以解決。
注意,在進行顯著性檢驗之前,對一組測定數據首先必須剔除離群值,才能對一組或多組數據進行顯著性檢驗。通過t檢驗和F檢驗,不存在顯著的系統誤差和隨機誤差之后的一組測定數據或分析結果,才具有一定的可靠性。下面就離群值的取舍方法進行簡單介紹。
2.3.4 離群值的取舍
在進行多次平行測定時,往往有個別數據離群較遠,這種數據稱為離群值(outlier),又稱可疑值。對離群值不能隨意取舍,特別是在測定次數較少時,對結果影響較大。取舍時應考慮兩個方面的問題:一方面,如果是由于過失造成的誤差,此離群值應舍去;另一方面,離群值若并非由“過失誤差”引起,則應按一定的統計學方法進行處理。統計學處理離群值的方法很多,下面介紹處理方法較簡單的法、Q檢驗法和效果較好的格魯布斯(Grubbs)法。
2.3.4.1
法(四倍法)
根據隨機誤差的正態分布規律,偏差超過3σ的個別測定值的概率小于0.3%,故這一測定值通常可以舍去。而統計學可以證明,當測定次數非常多時,3σ≈4δ,即偏差超過4δ的個別測定值可以舍去。對于少量實驗數據,只能用s代替σ,用代替δ,故可粗略地認為,偏差大于
的個別測定值可以舍去。此法較為簡單,不必查表,但誤差較大。當
法與其他檢驗法相矛盾時,應以其他法則為準。
用法判斷離群值的取舍的方法步驟如下:
①求離群值xD之外的其余數據的平均值和平均偏差
;
②計算偏差和
的值;
③按下式判斷離群值xD的取舍。
(2-27)
(2-27a)
2.3.4.2 Q檢驗法
離群值的取舍的方法步驟如下:
①將一組數據從小到大排列起來:x1,x2,…,xn-1,xn。
②按下式計算舍棄商Q。Q為統計量,定義為:
(2-28)
設xn為離群值時,則
(2-28a)
設x1為離群值時,則
(2-28b)
③將計算出的Q值與表2-3中QP,n統計值相比較,若Q>QP,n,則該離群值應舍去,否則應保留。
表2-3 舍棄商Q表

例2-5 測定某藥物中鈷的含量(μg·g-1),4次平行測定結果數據如下:
1.25,1.27,1.31,1.40,試問用法和Q檢驗法(置信度為95%),判斷1.40這個數據是否應該保留?
解 (1)用法
首先求離群值xD=1.40之外的其余數據的平均值和平均偏差
:
則
故1.40這個數據應舍去。
(2)Q檢驗法
已知,n=4,查表2-3,Q0.90=0.76,Q<Q0.90,故1.40這個數據應予保留。
在此例中,法和Q檢驗法所得的結論不同。這時一般應以Grubbs法進行核準。要求不高時可直接采用Q檢驗法的結果,因為Q檢驗法比
法更具有統計意義。
2.3.4.3 格魯布斯(Grubbs)法
該法的具體步驟如下。
①先將測定的所有數據按照從小到大順序排列:x1,x2,…,xn-1,xn。其中x1或xn可能是可疑值。
②計算出該組數據的平均值及標準偏差s。
③計算統計量T計:
④根據測定次數n和所要求的置信度,查表2-4 T表,若T計>T表,說明可疑值相對平均值偏離較大,則可疑值舍去,否則可疑值保留。
表2-4 T表

格魯布斯法最大的優點是在判斷可疑值的過程中,引入了正態分布中兩個最重要的樣本參數平均值及標準偏差s,故方法的準確度較好。這種方法的缺點是需要計算
及s,手續稍麻煩。
例2-6 例2-5中的實驗數據用格魯布斯法判斷1.40這個數據是否應保留(置信度95%)?
解
查表2-4,T0.95=1.46,T計<T表,故1.40這個數據應該保留。此結論與例2-5中用法判斷所得結論不同。在這種情況下,一般取格魯布斯法的結論,因這種方法的可靠性較高。