- 大數據:挖掘數據背后的真相
- (日)松本健太郎
- 832字
- 2020-07-22 18:43:20
·即使不喝光大醬湯也能品嘗出其味道
在開展輿情調查時,大眾傳媒要在日本的所有選民中抽取作為其縮影的回答者,我們把前者稱為“總體”,把后者稱為“樣本”。這是因為不可能做到對所有選民進行調查,所以要從總體中抽取一部分作為樣本,對這部分人提問。
不問全體人員,只問部分人員的方法恰當嗎?經常被當作例子來使用的就是“品嘗大醬湯的味道”。這個例子來源于單口相聲藝術家立川志之輔師傅與數學家秋山仁先生之間的一段對話。
師傅:“開票率僅5%就確認當選實在讓人搞不懂。”
先生:“那是統計學啊。”
師傅:“奇怪啊,開票率才5%,就能確認當選?”
先生:“早餐做了一大鍋大醬湯,想品嘗一下味道,你是用大鍋喝嗎?”
師傅:“用小碟喝。”
先生:“那就是5%啊。”
請把大鍋想象成總體,把小碟想象成樣本。
當然,大醬湯一直放置下去的話,醬和湯會分開,大醬會沉底。因此,細心地攪拌,然后從大鍋中舀出帶有大醬的醬湯才會和整鍋的醬湯保持相同的濃度。用小碟喝醬湯,就能得出“好喝”“濃度低了”“濃度高了”的結論。
統計學經常用總體比例和樣本比例來思考問題。總體比例是指“對全國的所有選民(總體)進行調查得出的內閣支持率”;樣本比例是指“對總體的縮影(樣本)進行調查得出的內閣支持率”。通常情況下,所有的輿情調查都采用樣本比例。如圖3-4所示:

圖3-4 總體和樣本的影像
假設樣本比例為30%,總體比例未必也是30%。以95%的概率計算,,可用這一公式求出總體比例所在的范圍區間。
如果你認為數學公式很難,對其很不擅長,請了解下面三件事:
1.總體比例是樣本比例的上下百分之幾。假設樣本比例為30%,總體比例就是26.8%~33.2%。
2.樣本數量越多,上下百分之幾的幅度就越窄。假設樣本數量為500人,上下幅度就約為±4.02%;1,000人就約為±2.84%;5,000人就收窄到約±1.27%。
3.雖然是95%的概率,但關鍵是樣本比例以5%的概率偏離總體比例的可能性。無論以同樣的方法進行多少次隨機抽樣,支持率的調查結果始終為上下百分之幾的概率都為95%,換言之,就是都有5%的偏離可能性。