- 分析測試統計方法和質量控制
- 曹宏燕等編著
- 3815字
- 2020-05-06 20:08:49
1.3 隨機誤差的正態分布
1.3.1 測量結果的分布
在重復測量的條件下,不可避免受到許多誤差因素的影響,這些影響最終都反映為測量結果的微小變化。例如,對某認定值為μ的標準物質進行n次獨立測量,得到一系列測量值x1、x2、…、xn,如果不考慮系統誤差,測量誤差分別為δ1=x1-μ、δ2=x2-μ、…、δn=xn-μ。在重復測量條件下,由于大量微弱的隨機因素的作用,出現的誤差 δ1、δ2 、…、δn是大小不等、符號不同的數值,其數值的分布反映誤差的隨機性。
表1-2列出了用紅外吸收法測定某碳素鋼中碳含量的160次重復測量結果。這些未經整理的測量值參差不齊、高低不一,看不出有什么規律,能直接提供的信息有限。
表1-2 碳素鋼中碳元素含量的測量結果 單位:%


為研究數據的分布規律,將這些數據加以整理,可獲得許多有用的信息。繪制直方圖是對大量原始數據進行初步整理的有效方法。
根據表1-2的測量結果,可按如下方法繪制直方圖:
①將測量結果由小到大排列,得最大值xmax=0.597%,最小值xmin=0.554%,極差R=0.043%,平均值=0.5755%;
②將全部測量數據按等組距(0.004%)分成12(m=12)組,計算每組的組中值及組中值的誤差;
③計算測量結果在每組中出現的頻數和積累頻數及頻率和積累頻率,計算數據列于表1-3。為避免位于分組點上的測量結果在分組時發生跨組的問題,組界值的有效數字比原測量結果多取一位。上下組界值的平均值為組中值。
表1-3 碳含量分組的頻數與頻率分布表

注:誤差指測量組中值與平均值(0.5755%)之差。
從頻數和頻率的分布基本可看出測量結果的變化規律,測量結果離平均值愈近,其出現的頻數和頻率愈大;而離平均值愈遠,其出現的頻數和頻率愈小。
④以各組組距為橫坐標,頻數和頻率為縱坐標,繪制測量結果分布直方圖(圖1-3)。

圖1-3 測量結果頻數和頻率直方圖
注:繪制直方圖時,分組數(m)可按m=1.52(n-1)2/5算式估計,n為樣本量,當n=160時,計算得m=11.55,可分為12組;也有推薦分組數取近似為樣本量平方根的數值。表1-3所有參數由表1-2數據通過Excel表格計算完成。
分析測試中,在消除了系統誤差的條件下,許多不可控制的隨機因素引起測量誤差,并使測量值隨之變動。因此,測量結果和測量誤差都是一個以概率取值的隨機變量。圖1-3表明了測量結果和測量誤差的分布規律:一是測量結果有明顯的集中趨勢,在平均值0.5755%附近出現的頻數(頻率)最高,即誤差為零附近測量值的頻數(頻率)最高;二是各測量值相對應平均值而言,大小相等、符號相反的誤差出現的頻數大體相等;三是正誤差和負誤差的分布大體呈對稱圖形,誤差小的測量結果出現的頻率遠比誤差大的測量結果出現的頻率多,大誤差出現的頻率趨于零。當測量次數進一步增加,各組距相對頻數趨向于一個穩定值,相對頻數分布的直方圖逐漸趨于一條中間高、兩邊對稱并漸漸降低、最終趨于零的平滑的鈴形曲線。這一鈴形曲線就是表示測量誤差分布的正態分布曲線。
數據處理的目的就是要從這種變動的數據中找出其中的統計規律。分析測試中,可認為隨機變量是由眾多互相獨立的隨機因素的微小影響疊加而成。由概率統計理論,隨機變量在數值上服從正態分布。因此,測量值和測量誤差都可以用正態分布來描述。
1.3.2 正態分布
正態分布函數是1809年德國數學家高斯(Gauss)推導出來的。
正態分布是連續隨機變量x的一種概率分布,其分布函數可表示為:
(1-9)
正態分布的概率密度函數為:
(1-10)
式中,x是正態分布總體中隨機抽取的樣本值;μ是正態分布總體的均值,-∞<μ<∞;σ2表示正態分布總體的方差,σ>0。因此,正態分布由μ和σ2這兩個基本參數確定,即隨機變量x和測量誤差δ服從均值μ、方差為σ2的正態分布,記為N(μ,σ2)。
要正確區分概率和概率密度的概念。概率是表示測量值落在某一區間可能性的大小,無量綱,其值在0到1之間;概率密度指單位隨機變量的概率(dP/dx),其值可以是任何正數,量綱是隨機變量x單位的倒數。
圖1-4表示以測量值x為橫坐標的N(μ,σ2)測量值正態概率密度曲線。

圖1-4 正態分布的概率密度曲線
圖1-5表示以誤差δ為橫坐標的N(0,σ2)誤差分布概率密度曲線,此時誤差分布概率密度可表示為:
(1-11)

圖1-5 誤差分布的概率密度曲線
測量值的方差σ2越小,表示測量的精密度越好,測量值集中;而σ2越大,表示測量的精密度越差,測量值分散。從圖1-4、圖1-5可以看出,正態分布函數曲線有以下幾個特性:
①單峰曲線,在x=μ(或δ=0)處有極大值,此時f(x)=1/(σ)。隨σ增大,峰形變寬,曲線變得平坦;當σ=1時,f(x)≈0.4;當σ=2時,f(x)≈0.2;絕對值小的誤差出現的概率比絕對值大的誤差出現的概率大。
②在x=μ(或δ=0)處,曲線具有對稱性。
③在x=μ±σ(或δ=±σ)處,曲線有兩個拐點。
④在x→±∞(或δ→±∞)時,曲線與x軸為漸近線。
⑤曲線與x軸(或δ軸)所圍的面積為1,表示各樣本值出現的概率總和。
⑥μ決定分布曲線的中心位置,稱為位置參數;σ決定曲線的形狀,稱為形狀參數。μ的變化只導致曲線的平移,不改變曲線的形狀;而σ的變化正好相反,只改變曲線的形狀,不改變曲線的中心位置。σ的數值反映曲線的“胖”“瘦”程度,σ越大,曲線越平坦,其最高點越低,呈“矮胖”型,隨機變量在其均值μ(或δ=0)附近的密度越小。而σ越小,曲線越陡,其最高點越高,呈“瘦高”型,隨機變量在其均值μ(或δ=0)附近的密度越大。當σ不變,均值μ變動時,其密度分布曲線形狀不變,只是其位置沿x軸移動。當x(或δ)→±∞時,曲線與x軸為漸近線。
由此,隨機誤差具有以下幾個特性:
①單峰性,絕對值小的誤差出現的概率比絕對值大的誤差出現的概率大,多數的測量值集中在其平均值附近。測量精密度愈高(σ愈小),測量值愈集中,而精密度愈差,測量值愈分散。
②對稱性,絕對值相等的正誤差和負誤差出現的概率相等。
③有界性,絕對值很大的誤差出現的概率近于零,即誤差有一定的限度。
④抵償性,在同一條件下對同一量進行多次測量,由于隨機誤差的對稱性,算術平均的隨機誤差值隨著測量次數的增加減小,并逐漸趨近于零。
正態分布函數恰當地表征了測量值和測量誤差的分布規律。
1.3.3 標準正態分布
正態分布曲線與橫坐標之間所夾的面積為函數在樣本x在-∞<x<∞區間的積分值,代表了各隨機誤差出現概率的總和,其值為1:
(1-12)
樣本x落在區間(a,b)的概率P(a≤x≤b)等于x=a、x=b區間的曲線與橫坐標之間所夾的面積:
(1-13)
為了計算上的方便,令
則
這樣,通過變量的變換,使N(μ,σ2)變換為均值μ=0,方差σ2=1的標準正態分布N(0,1)。
標準正態分布N(0,1)的積分要比N(μ,σ2)簡便得多。標準正態分布的分布函數和密度函數分別記為Φ(u)和φ(u),通過對式(1-13)的積分,可計算測量值落在任何給定區間(如a和b之間)的概率:
(1-14)
標準正態分布密度函數為:
(1-15)
圖1-6表示正態分布密度函數概率范圍。分布圖中陰影部分表示在橫坐標該區間所夾的面積,表示樣本測量值落在區間(a,b)的概率。

圖1-6 樣本值在各區間的概率示意圖
為計算和使用方便,可以將標準正態分布Φ(u)的數值制成各種形式的表,一般有(-∞,u)、(u,∞)、(0,u)等幾種形式的表,幾種表列的數值不同,概率值的計算方法也不同,但計算的結果是一致的,在引用時要注意。分析測試中常用的是(0,u)表,見表1-4。
表1-4 標準正態分布函數

表1-5列出的是標準正態分布分位數P對應的uP。
表1-5 標準正態分布分位數

由于正態分布的對稱形曲線,所以(―u,0)與(0,+u)范圍給出的積分值是相等的,如果要求+u至-u范圍內的概率,可查u值的概率,乘以2,即2Φ(u)。而在±u范圍之外的概率為:1-2Φ(u)。
例如,計算分析值落在(μ-2σ,μ+2σ)區間的概率P:
由于,
,
查表1-4得,u等于2.0時,Φ(u)=0.4773,則P(μ-2σ,μ+2σ)=0.4773×2=0.9546≈95.5%。
計算的概率值表明,單次測量結果落在μ±2σ范圍內的概率P為95.5%,而落在μ±2σ范圍外的概率(1-P)為1-95.5%=4.5%。
同理,可計算幾個典型取值區間的概率分布:
P(μ-σ,μ+σ)=0.3413×2=0.6826≈68.3%,表示單次測量結果落在μ±σ范圍內的概率為68.3%,而落在μ±σ范圍外的概率為31.7%。
P(μ-1.96σ,μ+1.96σ)=0.4750×2=0.950=95.0%,表示單次測量結果落在μ±1.96σ范圍內的概率為95.0%,而落在μ±1.96σ范圍外的概率為5.0%。
P(μ-2.58σ,μ+2.58σ)=0.4950×2=0.990=99.0%,表示單次測量結果落在μ±2.58σ范圍內的概率為99.0%,而落在μ±2.58σ范圍外的概率為1.0%。
P(μ-3σ,μ+3σ)=0.4987×2=0.9974≈99.7%,表示單次測量結果落在μ±3σ范圍內的概率為99.7%,而落在μ±3σ范圍外的概率為0.3%。
上述計算結果十分重要,可疑數值的取舍、測量值的取值范圍、分析方法精密度試驗的統計、測量不確定度的評定等都基于這些概率分布結果。
從理論上講,隨機變量x的取值范圍是(-∞,∞),但在實際測試中,測量值只是在某一有效范圍內變動。一般認為這個范圍為(μ-3σ,μ+3σ),則出現偏差大于3倍標準差的測量值的概率只有3‰(0.3%)。從統計上講,在有限次的測量中,出現偏差大于3倍標準差的測量值幾乎是不可能的,而一旦出現這樣大偏差的測量值,就有理由認為這個測量值是離群值,數據處理時可將其剔除,這就是所謂的“3σ”規則。在現在的分析測試中,更常用的是“2σ”規則,出現偏差大于2倍標準差的測量值認為是異常值。
【例1-1】 某樣品中碳的質量分數為0.445%,測量的σ=0.005%,假定測量的系統誤差已消除,求測量結果落在0.445%±0.005%范圍內的概率。
解
由表1-4可知,u=1.00時,Φ(u)=0.3413,其概率為2×0.3413=0.6826=68.26%。
【例1-2】 例1-1中,求測量結果大于0.452%的概率。
解 此例討論測量結果大于0.452%的概率,屬于單邊分布,
由表1-4可知,u=1.40時,Φ(u)=0.4192,測量結果大于0.452%的概率為0.5000-0.4192=0.0808=8.08%。
關于測量結果的正態性檢驗見第2章2.4。