- 貝葉斯定理:清晰思考與決策的科學工具
- (英)湯姆·奇弗斯
- 4169字
- 2025-05-29 16:57:20
大數定律
帕斯卡和費馬通信的內容,標志著現代概率論的開端,盡管當時概率論并不叫概率論,而是叫“機會學”。你完全可以這樣去理解概率:某件事發生的概率,就等于所有符合條件的結果的數量,除以所有可能發生的結果的數量。
瑞士數學家雅各布·伯努利將概率論的發展推向了新階段。繼續用剛才的例子來看,假如你真的把“連續拋7次硬幣”這件事重復了128次,那么最終“出現0次正面的結果有1個、出現1次正面的結果有7個、出現2次正面的結果有21個……”的可能性其實很小。
但如果將這件事重復1.28億次,那最終你很可能會發現“出現0次正面的結果有100萬個、出現1次正面的結果有700萬個、出現2次正面的結果有2100萬個……”,可能有誤差,但誤差非常小。再舉一個更簡單的例子:如果你連拋2次硬幣(每次出現正反的概率相等),那你會有很大可能性沒有遇到“1正1反”這種結果——具體來說,你有50%的概率遇不到這種結果,這意味著你看到的要么是2個正面,要么是2個反面。但如果你連拋100萬次硬幣,那你就會有很大可能遇到“50萬次正面,50萬次反面”這種結果,誤差非常非常小。
伯努利通過數學證明,你拋硬幣的次數越多,其分布越接近“真實”概率。
你可能會說:“這不是明擺著的嗎?我也知道會這樣,那又怎樣呢?”答案就是,你不需要真的拋100萬次硬幣,就可以準確預測正面朝上的次數基本上占總次數的一半。
不過目前為止,我們研究的都是已經確切知道概率的事件——拋硬幣、擲色子皆是如此。我們事先就知道游戲各種結果的概率(至少理論上是知道的)——拋硬幣的概率顯然是五五開,擲色子出現1的概率顯然是1/6。
但是有時候我們會對游戲的公平性產生疑問:硬幣會不會被動了手腳?色子里面會不會有機關?我們怎么才能判斷是否有人作弊?又或者,我們沒有在玩色子,而是在研究現實生活中某些事件發生的概率。為此,我們必須離開規則確定的游戲,走進充滿偶然性和模糊性的真實世界。
雅各布·伯努利主要生活在17世紀的瑞士,他的家族中出現了好幾位數學天才。首先我們要知道,雅各布·伯努利提出的是大數定律(也就是本小節的主要內容),而不是伯努利定律,后者是他的侄子丹尼爾·伯努利提出的,兩個定律完全是兩碼事。除了他們兩人,17—18世紀伯努利家族中比較有名的人還有3個約翰、2個尼古拉斯,以及另一個雅各布。
我們的主人公是雅各布·伯努利,他感興趣的不只有概率明晰的賭博游戲,還有那些事先并不知道概率的事物。
設想下面這種情形。[27]桌上有一個密不透光的盒子,盒子里面有許多黑球和白球,事先我們并不知道黑球和白球的比例。現在你拿出了幾顆小球,其中有黑有白。假設你具體拿了5顆球,其中有3顆黑球、2顆白球。利用這一結果,你能分析一下盒子里黑白小球的分布情況嗎?
現在我們討論的不再是“根據已知事實推測某些結果的概率”,而是一個完全相反的問題——根據觀測到的結果推測真實世界是某種可能性的概率。前者是“概率推斷”——根據對整體的認知情況推測個別事件的概率,后者是“統計推斷”——根據抽樣調查的結果推測整體的情況。
為了把問題說清楚,這里我要多說兩句。雖然乍一看這兩個問題沒多大區別,但實際上這種區別至關重要。后者其實就是現代統計學家每天所研究的問題,他們才不會閑坐在辦公室里,沒事算一算德州撲克中抽到同花順的概率,因為這種事情實在太簡單了。只要知道一共有多少張牌,任何一個數學成績不錯的學生都能算出來。他們也沒時間關心你到底在色子游戲中能擲出幾次6,因為楊輝三角形幾秒鐘之內就能給出具體概率。這些統計學家真正關心的是手中數據與某種假說之間的關系。假如我們現在給500人注射新冠疫苗,給另外500人注射安慰劑,結果疫苗組只有1人感染新冠病毒,而安慰劑組有10人感染新冠病毒。這能說明什么?我們有多大把握相信疫苗起了作用?
這就是雅各布·伯努利想搞清楚的事情。不過,雖然他的觀點很有創造力、洞察力,但本質上卻是錯誤的——至少《伯努利的謬誤:不合邏輯的統計學與現代科學的危機》一書的作者奧布里·克萊頓是這樣認為的。對奧布里·克萊頓,以及以他為代表的學術流派來說,雖然伯努利的確是個天才,但他卻不知不覺地將統計思想引入了歧途,以致統計學在接下來的5個多世紀都沒能走上正軌。奧布里·克萊頓的觀點并非獨創,相關討論已經在學術界持續了100多年,具體情況我們在其他章節另做討論。現在我們先來看看伯努利到底做了什么,為什么會引起這么大的爭議。
伯努利想知道,在我們抽取一定數量的小球之后,能夠有多大把握確定盒子里面黑球和白球的數量。假定現在盒子里面仍舊有數量不明的黑球和白球,但抽球的規則變了:每次只抽一顆,然后把它放回去,搖勻了接著抽[28](這一點很重要,因為只有搖勻了,才能保證每次抽到黑球或白球的概率都一樣)。此外,我們還要保證初始狀態下黑球和白球也已經被搖勻,且每顆球的大小、重量均相等。這意味著在把球拿出盒子之前,你無法判斷它是黑球還是白球,也沒有理由去預測某個顏色出現的概率比另一個顏色大。然后你開始抽球,一共抽了X次,其中有Y次是白球。這種情況下,你認為盒子里面黑球和白球的比例是多少?
樣本越大,我們抽到的結果越接近真實比例。假定盒子中白球與黑球的真實比例是3 ∶ 2,那么你只抽5次球的時候,剛好抽到3次白球、2次黑球的可能性并不大。但如果你抽50次球,就算白球與黑球的比例不是30 ∶ 20,也不會差太多。伯努利自己也承認:“即便某個人已經笨到家了,他也可以在沒有接受任何概率知識的前提下,僅憑本能認識到這一點。”[29](事實還真是這樣,1951年的一項調查發現,就連幼童都可以憑直覺掌握這一事實。[30])
但伯努利并沒有止步于此。他認為我們還有3個問題沒有搞清楚:我們到底需要多大的樣本?我們離真實的答案有多近?我們對自己的結論到底有多自信?他發現,我們永遠不可能百分之百確信自己的結論就是真實答案,只能“盡可能地”接近真實答案——不同結論具有不同的置信度。
比如,有時我們需要結論有99%的可能性讓它與真實情況的誤差保持在1%以內,有時我們也需要讓結論有70%的可能性讓誤差保持在10%以內。伯努利證明,無論是前者還是后者,抑或其他什么情況,我們都可以取特定次數的小球讓結果達到所需的置信度。此外,他還證明,沒有哪個特定次數可以讓結論的置信度達到100%;也沒有哪個特定次數讓置信度達到最大值,也就是繼續增加樣本數量無助于繼續提高置信度。
用數學語言來表達該定理就是(這些語言并不是伯努利的原話,而是現代概率學優化后的表述):假定我們想要的置信度為大寫的P,事件發生的真實概率為小寫的p;總實驗次數為n,其中事件發生的次數為m。對于任何一個正數ε,任何一個大于0、小于1的P,都存在一個n,使得m/n與p的絕對值小于等于ε。[31]
這里面的P、n、ε均為變量,改變其中任何一個變量,都至少會影響到另一個變量的數值。假定n足夠大,可以讓置信度P=90%,實驗結論與真實概率的誤差為10%。如果你想把P提高到99%,那么你要么提高誤差,使其大于10%;要么繼續擴大樣本,提高n的數值(正如奧布里·克萊頓所言,這就像項目管理中的那句老話一樣,“高速度、高質量、低成本,三者不可兼得”。放到這個案例中就是“精確估計、高置信度、低樣本量,三者不可兼得”)。[32]
成功證明該定理后,伯努利還想繼續弄清幾個變量之間具體的數值關系——他想知道在給定的樣本下,置信度到底能有多高?一番計算之后他發現,如果盒子中白球與黑球的真實數量分別為3000、2000,且取球次數為25500,那么每1000次這樣的實驗中,會有999次可以讓你得到的實際結果與真實概率的誤差小于2%。
[對一個生活在近代早期的歐洲人來說,這個樣本量實在太大了,他既沒有電腦,也沒有只需要一杯啤酒的錢就可以雇來參加社會實驗的廉價本科生。正如史蒂芬·斯蒂格勒在《統計學史》(The History of Statistics)一書中所指出的那樣,這一樣本量比當時伯努利所居住的巴塞爾市的總人口還要多。伯努利在《猜度術》一書的結尾寫道:“這已經不只是天文數字了,以人類的能力來衡量的話,我感覺這跟無限大沒有區別。”史蒂芬·斯蒂格勒給出了如此評價:“看到25500這個數字的時候,伯努利肯定心如死灰,我都不知道他哪兒來的力氣寫下最后這段話。”[33]]
如果采用比較現代的方法,那我們可以用更小的樣本量來實現伯努利想要的置信度。不過,就算以如今的統計標準來看,伯努利對置信度的要求也是相當高。我們稍后再談p值和置信區間的概念,現在我們先來看看伯努利所追求的置信度到底有多高——每1000次有999次落在給定的范圍——這樣相當于假陽性率只有0.001。而在大多數的社會科學中,我們追求的假陽性率只有0.05,伯努利的要求比我們高50倍,盡管其他某些學科會采用更嚴格的標準,尤其是物理學。
伯努利還意識到,概率不僅存在于游戲和賭博中,人類其實每時每刻都在和概率打交道,比如判斷謀殺案的兇手時需要分析概率,研究文件是否經過偽造時也要分析概率。因此,伯努利想要構造一個通用的哲學方法來分析那些經驗數據。其實兩千年來哲學家們一直在爭論,人們到底應該用理性還是感性去認知真理。柏拉圖認為,世界存在絕對的真實——他將其稱為“形式”——但我們的感官是不完美的,感官永遠無法感觸絕對的真實。[34]因此柏拉圖認為,認識真理的途徑應當是理性分析,而不是實驗本身。
作為一名物理學家、實驗主義者,伯努利認為,雖然我們永遠都不可能確切地知道任何事情,但是我們的確知道不同的事件有不同的概率。比如我們連續擲100次色子,發現每次的結果都是6,那么雖然我們無法判斷它肯定被動了手腳,但我們可以說它極有可能被動了手腳。為了讓接下來的各種話題(比如各種和概率相關的概念、貝葉斯定理——邏輯形式的一種拓展)的討論更為順暢,我們需要知道,伯努利認為確信程度可以用數字來衡量,1代表完全確定,0代表完全不可能[35],這意味著置信度是一個可以被量化的概念,具體數值會受到實驗數據的影響。
奧布里·克萊頓認為,問題在于伯努利所討論的仍舊是“抽樣概率”,而不是“推斷概率”,或者更確切地說,他根本沒有將二者區分開來。伯努利已經成功證明,樣本中的黑球、白球比例“很可能接近”盒子中的黑球、白球的真實比例(具體有多可能、有多接近取決于樣本大小),所以他自然而然地認為,盒子中的黑球、白球的真實比例同樣“很可能接近”樣本中的黑球、白球的比例。可是他錯了,兩者的可能性完全可以天差地別。直到牧師托馬斯·貝葉斯出現,人們才明白伯努利錯在哪兒了。