官术网_书友最值得收藏!

亞伯拉罕·棣莫弗與正態分布

亞伯拉罕·棣莫弗是一名來自法國的新教徒,曾在家鄉維特里遭受天主教當局的迫害,被監禁兩年后才得以出逃。[36]1688年,21歲的棣莫弗來到了倫敦,一邊拜讀牛頓的著作、學習各種數學知識,一邊當家教謀生。最終,他成功地將伯努利的理論向前推進了一步。

前面我們曾提到,帕斯卡和費馬研究了賭局被迫終止的情況下,賭資該如何公平分配的問題。他們的結論是,我們應當考慮如果比賽繼續進行,兩個人獲勝的概率分別有多大。換句話說,我們需要分析剩下的所有可能發生的結果中,哪些會令A獲勝,哪些會令B獲勝。

他們討論的其實就是本小節要介紹的二項分布。如果你拋一枚硬幣,那它要么正面朝上,要么背面朝上。如果你將一枚硬幣拋兩次,那么結果只有正正、反反、正反、反正4種。兩次正面、兩次反面的情形都只有一種,但一正一反的情形有2種。列成表格就是:

當然你也可以把它畫成數據圖:

這就是連拋2次硬幣的概率分布(只要是“每次只會出現兩種結果,且概率相等”的事件,其概率分布就是這樣)。連拋4次硬幣的概率分布表如下:

(你應該已經發現了,分子就是楊輝三角形第4行的數字)畫成概率分布圖就是:

p067

假定拋硬幣的總次數為N,正面朝上的次數為x,那么對任何N、任何x,我們都能根據公式算出其具體概率,公式我就不寫了(網上一搜就有),但我可以告訴大家,它會涉及N的階乘、x的階乘,以及N-x的階乘等數值。

階乘指的就是一個數乘以“它減1”再乘以“它減2”再乘以“它減3”……一直乘到數字1。比如5的階乘就是5×4×3×2×1=120。數字只要稍微大一點,它的階乘就會非常難算(階乘的增速實在太快了,比如6的階乘等于720,而10的階乘等于3628800)。

事實上,我們關心的往往不是拋N次硬幣正面剛好出現x次的概率。以賭博為例,現在有個人跟你說:“我跟你打賭,連拋100次硬幣,正面朝上的次數會小于60。如果我輸了,我就給你50英鎊;如果我贏了,你就給我10英鎊。”你覺得這個賠率合適嗎?如果利用二項分布來計算,我們就得把100的階乘、60的階乘、40的階乘代入公式;然后再把61的階乘、39的階乘代進去;之后再把62的階乘、38的階乘代進去……簡直沒完沒了。伯努利還真是這么干的,這或許就是他的書花了20年才寫完的原因。嚴格來說,他并沒有寫完,只是被迫放棄了。

當然,一旦有人真的算出了某個數的階乘,比如253的階乘——這個數一共有507位,結尾有62個0——他就可以把它記載下來,以供后人使用。即便如此,這一計算過程也相當枯燥、煩瑣。

不過棣莫弗關注的并不是數字大小,而是曲線形狀。[37]請再看看上面兩個概率分布圖:二者都是中間凸起,兩側逐漸平緩,只不過N=4的圖像要更加平滑,顯得更有規律。

拋硬幣的次數N越大,曲線就會越清晰。比如N=12時:

棣莫弗認為,與其費力地用公式去計算拋100次硬幣出現60次正面的概率,還不如去分析一下曲線的數學表達式,然后利用該表達式來計算某種結果的概率。他說的這條曲線其實就是著名的正態分布曲線,也有人叫它鐘形曲線(我認識的統計學家都不喜歡后面這個名字,因為大家覺得它根本不像個鐘)。

標準差

我們現在來討論一下亞伯拉罕·棣莫弗提出的兩個概念,即“均值”和“標準差”——后面這個詞直到150多年后才被人們創造出來。大家應當都知道什么叫均值(就是平均數),但我估計有很多人并不知道什么是標準差,可是很多專業人士在提到這個概念的時候并不會給出任何解釋,搞得好像我們天生就該知道似的。其實標準差表示的就是數據在均值附近的離散程度。

假定你有3個孩子,你想知道他們的平均身高。為此你測量了每個孩子的身高,加在一起除以3,結果為160厘米。這就是均值。

有無數種組合可以讓平均值為160厘米。比如三個孩子剛好都是160厘米;比如一個157厘米、一個160厘米、一個163厘米;再比如有兩個孩子都是130厘米的8歲幼童,另一個孩子則是身高220厘米的大學籃球運動員。

這幾組數據最重要的差別就是它們與平均值的差值不同。一般我們會用方差來衡量這種差別。得到方差之后,只要繼續求出它的算術平方根,我們就得到了標準差。

方差的計算方式為:用每個孩子的身高減去平均值,然后計算出每個差值的平方(這樣做是為了讓每項數據都是正數),最后再求這些平方數的均值。

我們以157、160、163這組數據為例。用每個孩子的身高減去平均值會得到-3、0、3,計算每個差值的平方會得到9、0、9,最后計算這些平方數的均值p070-1,6就是我們要求的方差。6的算術平方根約等于2.4,這就是標準差。

在8歲幼童和籃球運動員的例子中,用每個孩子的身高減去平均值會得到-30、-30、60,計算每個差值的平方會得到900、900、3600,最后計算這些平方數的均值p070-2,這就是方差。1800的算術平方根約等于42.4,這就是標準差。

得到標準差之后,我們就可以用它來衡量每個值和均值的距離有多遠(標準差通常簡寫為SD,或希臘字母σ)。

繼續以8歲幼童和籃球運動員為例,這組數據的標準差為42.4,意味著兩個8歲幼童的身高比均值低了30/42.4=0.7個標準差,而籃球運動員的身高比均值高了60/42.4=1.4個標準差。

有趣的是,如果數據呈正態分布,且樣本量足夠大,那我們就可以可靠地預測出與均值距離小于x個標準差的各個結果占全部結果的百分比。通常情況下,有68%的結果會落在與均值相差1個標準差的范圍之內——這意味著如果你的身高比均值高出1個標準差,那么你的身高大約超過了84%[38]的人口。此外,有95%的結果會落在與均值相差2個標準差的范圍之內;有99.7%的結果會落在與均值相差3個標準差的范圍之內。

亞伯拉罕·棣莫弗證明,只要求出正態分布曲線的表達式(盡管當時的叫法并不是正態分布),我們就可以快速得出任何一種結果的概率的近似值。一番計算之后,他給出了自己的答案:有68.2688%的結果會落在與均值相差1個標準差的范圍之內,而正確答案為68.2689%;有95.428%的結果會落在與均值相差2個標準差的范圍之內,而正確答案為95.45%;有99.874%的結果會落在與均值相差3個標準差的范圍之內,而正確答案為99.73%[39](當時也沒有“標準差”這個叫法,但他的確使用了標準差的概念,并將其視為衡量數據與均值的偏離程度的絕佳方法)。

由此一來,如果你想知道與均值相差特定距離之內的那些結果出現的概率有多大,那么你只需計算手中數據的標準差,然后將其代入棣莫弗計算出的曲線表達式即可。你再也不用花費大量時間去計算3600的階乘了。

棣莫弗還發現,數據的精確度——標準差的大小——取決于樣本數量,這其實就是伯努利一直在試圖弄清楚的置信度問題的拓展形式。伯努利花費了20年的時間,日復一日地計算樣本規模與置信度的關系,最終也沒算出來到底需要多大的樣本量,才能保證每1000次實驗中有999次的結果與真值的差距小于2%。棣莫弗則研究出了通用算法,盡管精度有出入,但意義非凡。換句話說,伯努利只發現了樣本量越大,結果越精確;而棣莫弗更進一步,實現了理論的量化。他的結論就是估計值的準確性和樣本量的平方根成正比。

但是棣莫弗所研究的問題和伯努利所研究的問題沒有什么不同:他們都在思考,在某種給定的前提之下,看到某種結果的概率是多少?比如前面那個“連拋100次硬幣,正面朝上的次數大于等于60的概率”(答案是2.8%,即你贏錢的概率。50 ∶ 10的賠率太不公平了,你可千萬別賭)。

棣莫弗和伯努利都沒能回答后來被稱為“反概率”的問題,而這才是概率學的核心內容。我們希望(或者說整個科學體系希望)統計理論能夠告訴我們,如何根據已經掌握的結果去構建某個理論。

主站蜘蛛池模板: 建宁县| 大城县| 岳池县| 延寿县| 留坝县| 吴旗县| 台南市| 墨江| 卢龙县| 克什克腾旗| 五华县| 龙游县| 达拉特旗| 奇台县| 青州市| 武强县| 金华市| 吴旗县| 扬中市| 阿瓦提县| 无为县| 巴彦淖尔市| 青龙| 万年县| 玉树县| 齐河县| 确山县| 昭觉县| 精河县| 宜宾市| 靖边县| 临猗县| 博爱县| 博白县| 垫江县| 盐津县| 大安市| 东源县| 溧水县| 新野县| 英山县|