官术网_书友最值得收藏!

1.3 隨機誤差的正態分布

1.3.1 測量結果的分布

在重復測量的條件下,不可避免受到許多誤差因素的影響,這些影響最終都反映為測量結果的微小變化。例如,對某認定值為μ的標準物質進行n次獨立測量,得到一系列測量值x1x2、…、xn,如果不考慮系統誤差,測量誤差分別為δ1=x1-μδ2=x2-μ、…、δn=xn-μ。在重復測量條件下,由于大量微弱的隨機因素的作用,出現的誤差 δ1δ2 、…、δn是大小不等、符號不同的數值,其數值的分布反映誤差的隨機性。

表1-2列出了用紅外吸收法測定某碳素鋼中碳含量的160次重復測量結果。這些未經整理的測量值參差不齊、高低不一,看不出有什么規律,能直接提供的信息有限。

表1-2 碳素鋼中碳元素含量的測量結果  單位:%

為研究數據的分布規律,將這些數據加以整理,可獲得許多有用的信息。繪制直方圖是對大量原始數據進行初步整理的有效方法。

根據表1-2的測量結果,可按如下方法繪制直方圖:

①將測量結果由小到大排列,得最大值xmax=0.597%,最小值xmin=0.554%,極差R=0.043%,平均值=0.5755%;

②將全部測量數據按等組距(0.004%)分成12(m=12)組,計算每組的組中值及組中值的誤差;

③計算測量結果在每組中出現的頻數和積累頻數及頻率和積累頻率,計算數據列于表1-3。為避免位于分組點上的測量結果在分組時發生跨組的問題,組界值的有效數字比原測量結果多取一位。上下組界值的平均值為組中值。

表1-3 碳含量分組的頻數與頻率分布表

注:誤差指測量組中值與平均值(0.5755%)之差。

從頻數和頻率的分布基本可看出測量結果的變化規律,測量結果離平均值愈近,其出現的頻數和頻率愈大;而離平均值愈遠,其出現的頻數和頻率愈小。

④以各組組距為橫坐標,頻數和頻率為縱坐標,繪制測量結果分布直方圖(圖1-3)。

圖1-3 測量結果頻數和頻率直方圖

注:繪制直方圖時,分組數(m)可按m=1.52(n-1)2/5算式估計,n為樣本量,當n=160時,計算得m=11.55,可分為12組;也有推薦分組數取近似為樣本量平方根的數值。表1-3所有參數由表1-2數據通過Excel表格計算完成。

分析測試中,在消除了系統誤差的條件下,許多不可控制的隨機因素引起測量誤差,并使測量值隨之變動。因此,測量結果和測量誤差都是一個以概率取值的隨機變量。圖1-3表明了測量結果和測量誤差的分布規律:一是測量結果有明顯的集中趨勢,在平均值0.5755%附近出現的頻數(頻率)最高,即誤差為零附近測量值的頻數(頻率)最高;二是各測量值相對應平均值而言,大小相等、符號相反的誤差出現的頻數大體相等;三是正誤差和負誤差的分布大體呈對稱圖形,誤差小的測量結果出現的頻率遠比誤差大的測量結果出現的頻率多,大誤差出現的頻率趨于零。當測量次數進一步增加,各組距相對頻數趨向于一個穩定值,相對頻數分布的直方圖逐漸趨于一條中間高、兩邊對稱并漸漸降低、最終趨于零的平滑的鈴形曲線。這一鈴形曲線就是表示測量誤差分布的正態分布曲線。

數據處理的目的就是要從這種變動的數據中找出其中的統計規律。分析測試中,可認為隨機變量是由眾多互相獨立的隨機因素的微小影響疊加而成。由概率統計理論,隨機變量在數值上服從正態分布。因此,測量值和測量誤差都可以用正態分布來描述。

1.3.2 正態分布

正態分布函數是1809年德國數學家高斯(Gauss)推導出來的。

正態分布是連續隨機變量x的一種概率分布,其分布函數可表示為:

  (1-9)

正態分布的概率密度函數為:

  (1-10)

式中,x是正態分布總體中隨機抽取的樣本值;μ是正態分布總體的均值,-∞<μ<∞;σ2表示正態分布總體的方差,σ>0。因此,正態分布由μσ2這兩個基本參數確定,即隨機變量x和測量誤差δ服從均值μ、方差為σ2的正態分布,記為Nμσ2)。

要正確區分概率和概率密度的概念。概率是表示測量值落在某一區間可能性的大小,無量綱,其值在0到1之間;概率密度指單位隨機變量的概率(dP/dx),其值可以是任何正數,量綱是隨機變量x單位的倒數。

圖1-4表示以測量值x為橫坐標的Nμσ2)測量值正態概率密度曲線。

圖1-4 正態分布的概率密度曲線

圖1-5表示以誤差δ為橫坐標的N(0,σ2)誤差分布概率密度曲線,此時誤差分布概率密度可表示為:

  (1-11)

圖1-5 誤差分布的概率密度曲線

測量值的方差σ2越小,表示測量的精密度越好,測量值集中;而σ2越大,表示測量的精密度越差,測量值分散。從圖1-4、圖1-5可以看出,正態分布函數曲線有以下幾個特性:

①單峰曲線,在x=μ(或δ=0)處有極大值,此時fx)=1/(σ)。隨σ增大,峰形變寬,曲線變得平坦;當σ=1時,fx)≈0.4;當σ=2時,fx)≈0.2;絕對值小的誤差出現的概率比絕對值大的誤差出現的概率大。

②在x=μ(或δ=0)處,曲線具有對稱性。

③在x=μ±σ(或δσ)處,曲線有兩個拐點。

④在x→±∞(或δ→±∞)時,曲線與x軸為漸近線。

⑤曲線與x軸(或δ軸)所圍的面積為1,表示各樣本值出現的概率總和。

μ決定分布曲線的中心位置,稱為位置參數;σ決定曲線的形狀,稱為形狀參數。μ的變化只導致曲線的平移,不改變曲線的形狀;而σ的變化正好相反,只改變曲線的形狀,不改變曲線的中心位置。σ的數值反映曲線的“胖”“瘦”程度,σ越大,曲線越平坦,其最高點越低,呈“矮胖”型,隨機變量在其均值μ(或δ=0)附近的密度越小。而σ越小,曲線越陡,其最高點越高,呈“瘦高”型,隨機變量在其均值μ(或δ=0)附近的密度越大。當σ不變,均值μ變動時,其密度分布曲線形狀不變,只是其位置沿x軸移動。當x(或δ)→±∞時,曲線與x軸為漸近線。

由此,隨機誤差具有以下幾個特性:

①單峰性,絕對值小的誤差出現的概率比絕對值大的誤差出現的概率大,多數的測量值集中在其平均值附近。測量精密度愈高(σ愈小),測量值愈集中,而精密度愈差,測量值愈分散。

②對稱性,絕對值相等的正誤差和負誤差出現的概率相等。

③有界性,絕對值很大的誤差出現的概率近于零,即誤差有一定的限度。

④抵償性,在同一條件下對同一量進行多次測量,由于隨機誤差的對稱性,算術平均的隨機誤差值隨著測量次數的增加減小,并逐漸趨近于零。

正態分布函數恰當地表征了測量值和測量誤差的分布規律。

1.3.3 標準正態分布

正態分布曲線與橫坐標之間所夾的面積為函數在樣本x在-∞<x<∞區間的積分值,代表了各隨機誤差出現概率的總和,其值為1:

  (1-12)

樣本x落在區間(ab)的概率Paxb)等于x=ax=b區間的曲線與橫坐標之間所夾的面積:

  (1-13)

為了計算上的方便,令

這樣,通過變量的變換,使Nμσ2)變換為均值μ=0,方差σ2=1的標準正態分布N(0,1)。

標準正態分布N(0,1)的積分要比Nμσ2)簡便得多。標準正態分布的分布函數和密度函數分別記為Φu)和φu),通過對式(1-13)的積分,可計算測量值落在任何給定區間(如ab之間)的概率:

  (1-14)

標準正態分布密度函數為:

  (1-15)

圖1-6表示正態分布密度函數概率范圍。分布圖中陰影部分表示在橫坐標該區間所夾的面積,表示樣本測量值落在區間(ab)的概率。

圖1-6 樣本值在各區間的概率示意圖

為計算和使用方便,可以將標準正態分布Φu)的數值制成各種形式的表,一般有(-∞,u)、(u,∞)、(0,u)等幾種形式的表,幾種表列的數值不同,概率值的計算方法也不同,但計算的結果是一致的,在引用時要注意。分析測試中常用的是(0,u)表,見表1-4。

表1-4 標準正態分布函數

表1-5列出的是標準正態分布分位數P對應的uP

表1-5 標準正態分布分位數

由于正態分布的對稱形曲線,所以(―u,0)與(0,+u)范圍給出的積分值是相等的,如果要求+u至-u范圍內的概率,可查u值的概率,乘以2,即2Φu)。而在±u范圍之外的概率為:1-2Φu)。

例如,計算分析值落在(μ-2σμ+2σ)區間的概率P

由于

查表1-4得,u等于2.0時,Φu)=0.4773,則Pμ-2σμ+2σ)=0.4773×2=0.9546≈95.5%。

計算的概率值表明,單次測量結果落在μ±2σ范圍內的概率P為95.5%,而落在μ±2σ范圍外的概率(1-P)為1-95.5%=4.5%。

同理,可計算幾個典型取值區間的概率分布:

Pμ-σμ+σ)=0.3413×2=0.6826≈68.3%,表示單次測量結果落在μ±σ范圍內的概率為68.3%,而落在μ±σ范圍外的概率為31.7%。

Pμ-1.96σμ+1.96σ)=0.4750×2=0.950=95.0%,表示單次測量結果落在μ±1.96σ范圍內的概率為95.0%,而落在μ±1.96σ范圍外的概率為5.0%。

Pμ-2.58σμ+2.58σ)=0.4950×2=0.990=99.0%,表示單次測量結果落在μ±2.58σ范圍內的概率為99.0%,而落在μ±2.58σ范圍外的概率為1.0%。

Pμ-3σμ+3σ)=0.4987×2=0.9974≈99.7%,表示單次測量結果落在μ±3σ范圍內的概率為99.7%,而落在μ±3σ范圍外的概率為0.3%。

上述計算結果十分重要,可疑數值的取舍、測量值的取值范圍、分析方法精密度試驗的統計、測量不確定度的評定等都基于這些概率分布結果。

從理論上講,隨機變量x的取值范圍是(-∞,∞),但在實際測試中,測量值只是在某一有效范圍內變動。一般認為這個范圍為(μ-3σμ+3σ),則出現偏差大于3倍標準差的測量值的概率只有3‰(0.3%)。從統計上講,在有限次的測量中,出現偏差大于3倍標準差的測量值幾乎是不可能的,而一旦出現這樣大偏差的測量值,就有理由認為這個測量值是離群值,數據處理時可將其剔除,這就是所謂的“3σ”規則。在現在的分析測試中,更常用的是“2σ”規則,出現偏差大于2倍標準差的測量值認為是異常值。

【例1-1】 某樣品中碳的質量分數為0.445%,測量的σ=0.005%,假定測量的系統誤差已消除,求測量結果落在0.445%±0.005%范圍內的概率。

由表1-4可知,u=1.00時,Φu)=0.3413,其概率為2×0.3413=0.6826=68.26%。

【例1-2】 例1-1中,求測量結果大于0.452%的概率。

 此例討論測量結果大于0.452%的概率,屬于單邊分布,

由表1-4可知,u=1.40時,Φu)=0.4192,測量結果大于0.452%的概率為0.5000-0.4192=0.0808=8.08%。

關于測量結果的正態性檢驗見第2章2.4。

主站蜘蛛池模板: 宁海县| 邯郸县| 怀仁县| 洪江市| 虎林市| 沽源县| 平罗县| 乡城县| 利津县| 马公市| 石台县| 张家川| 临颍县| 依安县| 巴中市| 延吉市| 辽宁省| 宣汉县| 扎鲁特旗| 灵台县| 陵川县| 衡阳县| 黔西县| 兰溪市| 汾西县| 新巴尔虎左旗| 岑巩县| 炉霍县| 德保县| 九寨沟县| 碌曲县| 万山特区| 宜宾市| 黑水县| 广宁县| 肃北| 洛川县| 麦盖提县| 奈曼旗| 叶城县| 三台县|