- 魔鬼統(tǒng)計學(xué)
- (美)伊恩·艾瑞斯
- 10192字
- 2021-01-26 16:40:32
前言 超級數(shù)據(jù)分析師的崛起
奧利·阿森費爾特(Orley Ashenfelter)非常喜愛葡萄酒。“你只要把優(yōu)質(zhì)紅酒放上一段時間,它就會發(fā)生一些非常神奇的事情。”阿森費爾特不僅對于葡萄酒的品鑒很著迷,而且希望知道優(yōu)質(zhì)葡萄酒和普通葡萄酒背后的推動力量。
“當(dāng)你購買優(yōu)質(zhì)紅酒時,”他說,“你是在進(jìn)行一項投資,因為它未來很可能會變得愈發(fā)誘人。你希望知道的不是它現(xiàn)在的價值,而是它未來的價值,盡管你可能不會賣掉它或者喝掉它。你可以通過推遲品嘗獲得多少快樂呢?這是一個非常有趣的話題。”過去25年,這個話題占據(jù)了他的很大一部分時間。
阿森費爾特的日常工作是分析數(shù)字。他用統(tǒng)計量提取隱藏在大型數(shù)據(jù)集合中的信息。作為普林斯頓的經(jīng)濟(jì)學(xué)家,他曾考察同卵雙胞胎的工資,以估計多上一年學(xué)所帶來的影響。他曾考察限速差異,以估計各州對于統(tǒng)計壽命的重視情況。他曾在多年時間里擔(dān)任美國頂級經(jīng)濟(jì)學(xué)期刊《美國經(jīng)濟(jì)評論》的編輯。
阿森費爾特個子很高,留著濃密的白色絡(luò)腮胡子,他那洪亮而友好的嗓音往往會成為會場上的主旋律。他并不膽小。你可能認(rèn)為數(shù)字分析師是一些懦弱而靦腆的人,但阿森費爾特會使你迅速消除這種成見。我曾見過阿森費爾特在教室里踱步,用和藹而熱情的語氣闡述一篇研討會論文背后的原理。當(dāng)他以高度贊揚的語氣開始他的評論時,你就要當(dāng)心了。
阿森費爾特通過分析數(shù)字評價波爾多葡萄酒品質(zhì)的做法使他遇上了很大的麻煩。他不是使用羅伯特·帕克(Robert Parker)等葡萄酒大師“痛飲和回味”的方法,而是用統(tǒng)計量尋找與拍賣價格高低相關(guān)的年份酒特征。
“這是顯而易見的,”他說,“葡萄酒是農(nóng)業(yè)產(chǎn)品,它會受到不同年份天氣的極大影響。”根據(jù)法國波爾多地區(qū)數(shù)十年的天氣數(shù)據(jù),阿森費爾特發(fā)現(xiàn),較少的收獲期降水量和較高的平均夏季氣溫可以給人們帶來品質(zhì)最佳的葡萄酒。正如彼得·帕塞爾(Peter Passell)在《紐約時報》中所說,阿森費爾特的統(tǒng)計方程與數(shù)據(jù)吻合得相當(dāng)完美。
當(dāng)葡萄成熟、汁液濃縮時,波爾多酒是最好的。在夏季特別熱的年份里,葡萄會充分成熟,其酸度會降低。在降水量低于平均水平的年份里,水果汁液會濃縮。所以,你往往會在炎熱干燥的年份得到具有傳奇色彩的年份酒。成熟的葡萄可以釀造出口感柔和的(酸度低的)葡萄酒。汁液濃縮的葡萄可以釀造出風(fēng)味濃郁的葡萄酒。
阿森費爾特大膽地將他的理論簡化成一個公式:
葡萄酒品質(zhì)= 12.145+0.00117×冬季降水量+0.0614×生長季平均氣溫- 0.00386×收獲期降水量
沒錯。通過將當(dāng)年的天氣數(shù)據(jù)代入這個公式,阿森費爾特可以預(yù)測任何年份酒的總體品質(zhì)。通過另一個更加復(fù)雜的公式,他可以更加準(zhǔn)確地預(yù)測100多個莊園的葡萄酒品質(zhì)。“這看上去可能有一點數(shù)學(xué)成分,”阿森費爾特說,“但這正是法國人在著名的1855年分類中為葡萄酒廠排名時使用的方法。”
傳統(tǒng)葡萄酒評論家并不接受阿森費爾特基于數(shù)據(jù)的預(yù)測。英國《葡萄酒》雜志說:“這個公式顯然很可笑,不值得尊重。”紐約葡萄酒商威廉·索克林(William Sokolin)說,在波爾多葡萄酒從業(yè)者眼里,阿森費爾特的工作“介于野蠻和歇斯底里之間”。阿森費爾特時常遭到葡萄酒交易者的輕視,當(dāng)他在佳士得葡萄酒部門發(fā)表關(guān)于葡萄酒的演講時,會場后排的交易商公然對他的演講發(fā)出噓聲。
羅伯特·帕克也許是世界上最有影響力的葡萄酒評論家,他也是《葡萄酒先鋒》的出版人。他生動地將阿森費爾特形容為“徹頭徹尾的騙子”。雖然阿森費爾特是世界上最受尊重的計量經(jīng)濟(jì)學(xué)家之一,但是在帕克看來,他的方法“是尼安德特人看待葡萄酒的方式。它太荒謬了,簡直不值得嘲笑”。帕克否認(rèn)了數(shù)學(xué)公式有助于鑒別優(yōu)質(zhì)葡萄酒的可能性,“我不想去他家做客,喝他家的葡萄酒”。
帕克說,阿森費爾特“就像一個從不看電影、僅僅根據(jù)演員和導(dǎo)演判斷電影好壞的影評人一樣”。
帕克的觀點有一定的道理。既然通過觀影得到的判斷更加準(zhǔn)確,通過品嘗葡萄酒得到的判斷不也應(yīng)該更加準(zhǔn)確嗎?但是,這里有一個問題:波爾多和勃艮第葡萄酒需要在橡木桶里存放18到24個月,然后封裝在酒瓶里。像帕克這樣的專家在葡萄酒裝進(jìn)酒桶4個月以后才能開封品嘗。即便此時,他們喝到的仍然只是正在發(fā)酵的非常難聞的混合物。我不知道品嘗這種無法飲用的早期葡萄酒能否為品酒師帶來關(guān)于葡萄酒未來品質(zhì)的非常準(zhǔn)確的信息。例如,巴特菲爾德拍賣行葡萄酒部門前主管布魯斯·凱澤(Bruce Kaiser)說過:“早期葡萄酒變化很快,在其存放至少10年甚至更長時間以前,沒有一個人可以對葡萄酒做出準(zhǔn)確評價。”
與之形成鮮明對比的是,阿森費爾特通過分析歷史數(shù)據(jù)找到了天氣和價格之間的關(guān)系。他通過這種方式發(fā)現(xiàn),冬季降水量每增加1厘米,預(yù)期價格往往會增加0.00117美元。當(dāng)然,這只是一種趨勢。不過,通過分析數(shù)字,阿森費爾特可以在葡萄收獲時立即預(yù)測出未來的年份酒品質(zhì)——比首次品嘗提前幾個月,比首次銷售提前幾年。由于葡萄酒期貨交易頻繁,因此阿森費爾特的預(yù)測為葡萄酒收藏者帶來了巨大的競爭優(yōu)勢。
20世紀(jì)80年代后期,阿森費爾特開始在半年度簡報《流動資產(chǎn)》上發(fā)布他的預(yù)測。他首先在《葡萄酒觀察者》上用小篇幅廣告宣傳他的簡報,逐漸積累了大約600名訂閱者。訂閱者來自世界各地,包括許多百萬富翁和品酒專家——其中大多數(shù)人來自接受計量經(jīng)濟(jì)學(xué)方法的葡萄酒收藏者小圈子。羅伯特·帕克的簡報《葡萄酒先鋒》有3萬訂閱者,年費為30美元。相比之下,阿森費爾特的訂閱群體顯得不值一提。
1990年初,《紐約時報》頭版發(fā)布了一篇關(guān)于阿森費爾特新型預(yù)測機器的文章,使更多的人接觸到了他的思想。他公開批評帕克對于1986年波爾多葡萄酒的評估。帕克認(rèn)為1986年葡萄酒“非常好,簡直稱得上出類拔萃”。阿森費爾特不同意這種觀點。他認(rèn)為這種酒的生長季平均氣溫低于平均水平,收獲期降水量高于平均水平,因此該年份酒一定很平庸。
不過,這篇文章中真正的重磅炸彈與阿森費爾特對1989年波爾多葡萄酒的預(yù)測有關(guān)。這些葡萄酒在酒桶里只存放了3個月,還沒有機會得到評論家品嘗,但阿森費爾特認(rèn)為它們將成為“這個世紀(jì)的葡萄酒之選”。他表示,這種酒一定“非常好”。根據(jù)他的評分標(biāo)準(zhǔn),如果上好的1961年波爾多葡萄酒是100分,那么1989年波爾多葡萄酒將達(dá)到驚人的149分。阿森費爾特公然表示,它們的“售價不會輸給過去35年釀造的任何一款葡萄酒”。
葡萄酒評論家被激怒了。帕克此時稱阿森費爾特的定量估計“荒謬可笑”。索克林說,人們的反應(yīng)夾雜著“憤怒和恐懼。阿森費爾特的確惹惱了許多人”。在幾年時間里,《葡萄酒觀察者》不再為阿森費爾特(和其他人)的簡報發(fā)布任何廣告。
傳統(tǒng)專家團(tuán)結(jié)在一起,試圖詆毀阿森費爾特及其方法。他們說,阿森費爾特的方法存在缺陷,因為它無法精確預(yù)測未來的價格。例如,《葡萄酒觀察者》品嘗主管托馬斯·馬修斯(Thomas Matthews)抱怨說,阿森費爾特對于27種年份酒的價格預(yù)測只有3次是完全準(zhǔn)確的。雖然阿森費爾特的“公式得到了特別設(shè)計,以擬合價格數(shù)據(jù)”,但他的“預(yù)測價格不是高于實際價格,就是低于實際價格”。不過,對于統(tǒng)計學(xué)家(以及其他任何稍做思考的人)來說,擁有時高時低的預(yù)測是一件好事,它是無偏估計的象征。實際上,阿森費爾特指出,帕克最初對于年份酒的評價存在系統(tǒng)性的上偏趨勢。帕克常常需要對他最初的評價進(jìn)行下調(diào)。
1990年,阿森費爾特做出了更加冒險的舉動。在將1989年葡萄酒稱為“世紀(jì)年份酒”之后,他發(fā)現(xiàn),根據(jù)數(shù)據(jù),1990年的葡萄酒將會表現(xiàn)得更好。他宣布了這一結(jié)果。事后來看,我們知道《流動資產(chǎn)》的預(yù)測是非常準(zhǔn)確的。1989年葡萄酒成了非常優(yōu)秀的年份酒,而1990年葡萄酒表現(xiàn)得更好。
怎么能連續(xù)兩年擁有“世紀(jì)年份酒”呢?原來,自從1986年以來,每一年的生長季氣溫都要高于平均水平。法國天氣已經(jīng)溫暖了20多年。這是種植柔和的波爾多葡萄的好時機,對葡萄酒愛好者來說也是一個好消息。
傳統(tǒng)專家現(xiàn)在對天氣的重視大大提高了。許多人從未公開承認(rèn)阿森費爾特的預(yù)測威力,但他們自己的預(yù)測與阿森費爾特那個簡單公式得到的結(jié)果更加吻合了。阿森費爾特仍然在維護(hù)他的網(wǎng)站www.liquidasset.com,但他不再制作簡報了。他說:“現(xiàn)在和過去不同了,品酒師不會再犯可怕的錯誤了。坦白地說,我是在自掘墳?zāi)埂N以僖矝]有像之前那么高的附加值了。”
阿森費爾特的詆毀者將他看作異端。他揭開了葡萄酒的神秘面紗,對他們產(chǎn)生了威脅。他回避了華麗而荒謬的術(shù)語(“強健”“緊實”“輕快”),為他的預(yù)測給出了理由。
葡萄酒行業(yè)毫不妥協(xié)的態(tài)度不僅與審美有關(guān)。“葡萄酒交易商和作家不想讓公眾獲得阿森費爾特提供的那種信息,”凱澤評論道,“事情始于1986年陳釀。阿森費爾特稱之為騙局,因為那一年很糟糕,下了很多雨,氣溫也不夠高。不過,當(dāng)時所有葡萄酒作家都在唱贊歌,稱之為偉大的年份酒。阿森費爾特是正確的,但正確并不總是受人歡迎。”
通過維持對于葡萄酒品質(zhì)的信息壟斷,葡萄酒交易商和作家可以從中獲利。交易商通過長期高估的初始評價穩(wěn)定價格。《葡萄酒觀察者》和《葡萄酒先鋒》維持著葡萄酒品質(zhì)主要評判者的地位,并以此獲取數(shù)百萬美元收入。正如厄普頓·辛克萊(以及現(xiàn)在的阿爾·戈爾)所說:“當(dāng)一個人的工資取決于他對某件事情的不理解時,你很難讓他理解這件事情。”同樣的道理也適用于葡萄酒。“許多人的生計取決于葡萄酒飲用者對于這個公式的不信任,”阿森費爾特說,“他們突然之間變得有些過時了,這使他們感到憤怒。”
你可以看到一些變化的跡象。倫敦佳士得國際葡萄酒部門主席邁克爾·布羅德本特(Michael Broadbent)以外交家的口吻表述這件事:“許多人認(rèn)為阿森費爾特是個怪人,我認(rèn)為他在許多方面的確如此。不過,我發(fā)現(xiàn)他的思想和研究每年都與事實相符。他所做的事情對于希望購買葡萄酒的人相當(dāng)有幫助。”
棒球界的奧利·阿森費爾特
葡萄酒品鑒這一高端行業(yè)似乎與面向大眾的棒球運動相去甚遠(yuǎn)。不過,從許多方面來看,阿森費爾特為葡萄酒所做的事情與比爾·詹姆斯(Bill James)為棒球所做的事情是相同的。
詹姆斯在簡報《棒球摘要》中對于棒球?qū)<彝ㄟ^觀察判斷球員天賦的觀點提出了疑問。邁克爾·劉易斯(Michael Lewis)在《魔球》中指出,詹姆斯將數(shù)據(jù)驅(qū)動型決策引入了棒球領(lǐng)域。詹姆斯的觀點簡單而有力,他認(rèn)為基于數(shù)據(jù)的棒球分析優(yōu)于專業(yè)觀察:
肉眼無法獲得評價球員所需要的知識。想想吧,你顯然無法通過觀察判斷打擊率為0.300的擊球手和打擊率為0.275的擊球手之間的差異。這種差異相當(dāng)于每兩個星期相差一次打擊……如果你觀看兩個人在一年中的15場比賽,那么打擊率為0.275的擊球手的擊球數(shù)超過打擊率為0.300的擊球手的概率是40%……優(yōu)秀擊球手和普通擊球手之間的差異是肉眼無法看到的——它只能在數(shù)據(jù)中體現(xiàn)出來。
和阿森費爾特類似,詹姆斯相信公式。他說:“你應(yīng)該用擊球手試圖取得的成功衡量他,而擊球手試圖取得的成功是制造得分。”于是,詹姆斯提出了一個新的公式,用于衡量擊球手對于得分的貢獻(xiàn):
制造得分=(擊球數(shù)+保送數(shù))×總壘數(shù)/(打數(shù)+保送數(shù))
這個公式重點強調(diào)了球員的上壘率,為那些經(jīng)常獲得保送的球員給出了特別高的評分。球探特別討厭詹姆斯的數(shù)字分析方法。像羅伯特·帕克那樣的葡萄酒評論家通過感受口感和氣味生存,而球探的眼睛則可以決定他們的生死。這是他們的附加值。正如劉易斯所說:
在球探看來,要想發(fā)掘大聯(lián)盟球員,你需要開車行駛10萬公里,在100家劣質(zhì)汽車旅館里住宿,無數(shù)次在丹尼餐廳就餐,以便在4個月時間里觀看200場高中和大學(xué)棒球比賽,其中199場對你毫無意義……你會走進(jìn)球場,在捕手正后方第四排鋁制長椅上找到一個座位,看到其他人看不到的一些事情——至少沒有人知道這些事情的意義。你只要看到這個球員一次就夠了。“只要你一看到他,你就明白了。”
球探和像羅伯特·帕克那樣的葡萄酒評論家的共同點不僅僅是喜歡回味和吐痰。帕克相信,他能根據(jù)一次品鑒評估莊園年份酒的質(zhì)量。類似地,棒球球探相信,他們可以根據(jù)一次觀賽評價高中潛力球員的質(zhì)量。
在這兩個領(lǐng)域,人們試圖預(yù)測未經(jīng)檢驗的不成熟產(chǎn)品的市場價值,不管它們是葡萄還是棒球選手。到底應(yīng)該依靠專家的觀察還是定量數(shù)據(jù)呢?這是這兩個領(lǐng)域的核心爭議。
和評論家類似,棒球球探常常使用無法證偽的委婉說法,比如“他是真正的選手”或者“他是工具型球員”。
在《魔球》中,當(dāng)奧克蘭運動家隊總經(jīng)理比利·比恩(Billy Beane)想要買入杰里米·布朗(Jeremy Brown)時,數(shù)據(jù)和傳統(tǒng)專業(yè)知識的沖突達(dá)到了頂點。比恩讀過詹姆斯的文章,決定根據(jù)數(shù)字選秀。比恩喜歡杰里米·布朗,因為他的保送頻率是大學(xué)球員中最高的。球探討厭他,因為他很胖。一名運動家隊球探嘲笑說,如果他穿著燈芯絨服裝跑步,“他就會引發(fā)火災(zāi)”。球探認(rèn)為,像他這種體型根本不可能在大聯(lián)盟打球。比恩完全不在乎球員的外表。他的選秀準(zhǔn)則是“我們不是賣牛仔褲的”。比恩只想贏得比賽。球探似乎想錯了。在運動家隊當(dāng)年征召的新人中,布朗的進(jìn)步是最快的。2006年9月,他代表運動家隊在大聯(lián)盟首次出場,取得了0.300的打擊率(上壘率為0.364)。
阿森費爾特和詹姆斯最初宣傳數(shù)字分析結(jié)果的方式具有驚人的相似性。和阿森費爾特類似,詹姆斯起初為他的第一份簡報《棒球摘要》發(fā)布小廣告(他將《棒球摘要》適度修飾成一本書)。第一年,他一共賣出了75份。阿森費爾特遭到《葡萄酒觀察者》封殺。類似地,當(dāng)詹姆斯請求分享數(shù)據(jù)時,他遭到了埃利亞斯體育中心的排斥。
不過,詹姆斯和阿森費爾特在其行業(yè)里永遠(yuǎn)留下了自己的印跡。《魔球》所記載的奧克蘭運動家隊的長期成功以及波士頓紅襪隊在西奧·愛潑斯坦(Theo Epstein)的數(shù)據(jù)管理下首奪世界大賽冠軍的壯舉都被歸功于詹姆斯的持續(xù)影響。現(xiàn)在,即使是傳統(tǒng)葡萄酒評論家的預(yù)測也會考慮到天氣因素,而且進(jìn)行相對優(yōu)化,這是對阿森費爾特所做貢獻(xiàn)的無聲致敬。
兩個人都促成了分析團(tuán)隊的誕生,這些團(tuán)隊擁有自己的數(shù)據(jù)分析品牌。在詹姆斯的影響下,美國棒球研究協(xié)會得以成立。棒球數(shù)據(jù)分析現(xiàn)在甚至擁有了自己的名字,叫作賽伯計量學(xué)。2006年,在阿森費爾特的幫助下,《葡萄酒經(jīng)濟(jì)學(xué)期刊》得以創(chuàng)刊。現(xiàn)在,美國甚至有了一個葡萄酒經(jīng)濟(jì)學(xué)家協(xié)會。阿森費爾特不出意外地成為協(xié)會首任主席。順便一提,事后看來,阿森費爾特最初的預(yù)測非常準(zhǔn)確。我查詢了拉圖莊園最近的拍賣價格。顯然,1989年葡萄酒的價格是1986年葡萄酒的兩倍多,1990年葡萄酒的價格還要更高。聽到了嗎,羅伯特·帕克?
酒中的真相
本書的核心觀點是,數(shù)據(jù)分析在葡萄酒和棒球領(lǐng)域的興起不是孤立事件。實際上,葡萄酒和棒球的案例是本書核心主題的縮影。我們正處于馬車和火車相互競爭的歷史性時刻,我們的直覺和經(jīng)驗知識正在一次又一次地輸給數(shù)據(jù)分析。過去,許多決策僅僅依賴于經(jīng)驗和直覺的某種結(jié)合。專家憑借幾十年的個人試錯經(jīng)歷獲得了神圣地位。我們相信他們知道最好的行事方式,因為他們之前做過幾百次同樣的事情。經(jīng)驗型專家的角色被保留下來,而且發(fā)展得很好。如果你想知道某件事情應(yīng)該怎樣做,你應(yīng)該詢問銀發(fā)老人。
現(xiàn)在,一些事情正在發(fā)生變化。商業(yè)和政府專業(yè)人士正在越來越多地用數(shù)據(jù)庫指導(dǎo)他們的決策。對沖基金的故事實際上是新一代數(shù)據(jù)分析師的故事——我稱之為超級數(shù)據(jù)分析師——他們分析大型數(shù)據(jù)集,以便在看似無關(guān)的事物之間發(fā)現(xiàn)實證關(guān)聯(lián)。想為大量購買歐元避險嗎?事實上,你應(yīng)該賣出由26種其他股票和商品精心搭配而成的投資組合,其中可能包括沃爾瑪股票。
什么是超級數(shù)據(jù)分析?它是影響現(xiàn)實決策的統(tǒng)計分析。超級數(shù)據(jù)分析公式預(yù)測通常是大小、速度和規(guī)模的某種組合。首先,從觀測值的數(shù)量和變量的數(shù)量來看,數(shù)據(jù)集合通常很大。其次,分析的速度正在加快。我們常常可以看到與數(shù)據(jù)生成同時進(jìn)行的數(shù)據(jù)分析。最后,影響的規(guī)模有時是很大的。這不是幾個書呆子在制造戲謔式的期刊文章。超級數(shù)據(jù)分析有些是由決策者執(zhí)行的,有些是為決策者執(zhí)行的,這些決策者希望尋找更好的行事方式。
當(dāng)我說超級數(shù)據(jù)分析師在使用大型數(shù)據(jù)集合時,我指的是非常大的數(shù)據(jù)集。企業(yè)和政府的數(shù)據(jù)集合正在越來越多地用太字節(jié)甚至拍字節(jié)(1,000太字節(jié))衡量,而不是用兆(M)字節(jié)或吉(G)字節(jié)衡量。1太字節(jié)(terabyte)相當(dāng)于1,000吉字節(jié)。前綴tera來自希臘語,表示怪獸。一太字節(jié)的確十分龐大,像怪獸一樣。整個國會圖書館大約有20太字節(jié)文本。本書的一個目標(biāo)是讓大家開始習(xí)慣這個前綴。例如,沃爾瑪數(shù)據(jù)庫存放了超過570太字節(jié)數(shù)據(jù)。谷歌擁有大約4拍字節(jié)存儲量,它在不斷對其進(jìn)行分析。太字節(jié)挖掘不是巴克·羅杰斯(Buck Rogers)的幻想——而是正在發(fā)生的事情。
在一個又一個領(lǐng)域,“直覺主義者”和傳統(tǒng)專家正在對抗超級數(shù)據(jù)分析師。在醫(yī)療領(lǐng)域,關(guān)于“循證醫(yī)學(xué)”的激烈爭論可以歸結(jié)為是否根據(jù)統(tǒng)計分析選擇療法。直覺主義者不會束手就擒。他們說,數(shù)據(jù)庫永遠(yuǎn)無法體現(xiàn)出臨床專家通過一生的經(jīng)歷培養(yǎng)出來的知識,回歸永遠(yuǎn)無法和擁有20年經(jīng)驗的急診室護(hù)士相比,后者可以判斷一個孩子看上去是否有問題。
我們往往認(rèn)為,國際象棋大師加里·卡斯帕羅夫(Garry Kasparov)之所以輸給深藍(lán)計算機,是因為國際商用機器公司的軟件更加聰明。那個軟件實際上是一個為不同局面排序的大型數(shù)據(jù)庫。計算機的速度很重要,但是最具決定性的是計算機訪問70萬盤大師棋局?jǐn)?shù)據(jù)庫的能力。卡斯帕羅夫的直覺輸給了基于數(shù)據(jù)的決策。
超級數(shù)據(jù)分析師不僅在入侵傳統(tǒng)專家的地盤并取代他們,而且正在改變我們的生活。他們不僅在改變決策方式,而且正在改變決策本身。棒球球探之所以輸給分析師,不僅僅是因為分析數(shù)據(jù)比搭乘飛機前往帕路卡維爾成本更低。最主要的原因在于,數(shù)據(jù)分析得到的預(yù)測結(jié)果更加準(zhǔn)確。當(dāng)然,超級數(shù)據(jù)分析師和專家并不總是存在沖突。數(shù)據(jù)分析有時會證實傳統(tǒng)觀點。世界不是絕對的,傳統(tǒng)專家不會永遠(yuǎn)犯錯,他們的表現(xiàn)至少比碰運氣要好。不過,數(shù)據(jù)分析仍然可以引導(dǎo)決策者做出不同的決策。總體而言,這種決策比之前要好。
在一個又一個領(lǐng)域,統(tǒng)計分析在完全不同的信息之中發(fā)現(xiàn)了一些隱性關(guān)系。如果你是政客,希望知道誰最有可能為你投票以及哪種拉票方式最有可能成功,那么你不需要憑空猜測、遵循經(jīng)驗規(guī)則或者信任頭發(fā)花白的傳統(tǒng)主義者。相反,你可以從不同特性中梳理出越來越多的可測效應(yīng),從而更好地知道哪種拉票方式效果最好。數(shù)據(jù)庫搜索可以揭示出傳統(tǒng)專家從未考慮過的內(nèi)在因素。
在我們周圍,基于數(shù)據(jù)的決策正在變得越來越多:
● 租車公司和保險商拒絕向信用分?jǐn)?shù)不佳的人提供服務(wù),因為數(shù)據(jù)挖掘顯示,信用分?jǐn)?shù)與較高的事故概率存在相關(guān)性。
● 現(xiàn)在,當(dāng)航班取消時,航空公司會跳過常旅客,首先向那些最有可能選擇其他航空公司的旅客提供開放席位。當(dāng)然,這些旅客是通過數(shù)據(jù)挖掘確認(rèn)的。航空公司不是遵循先來后到原則,而是根據(jù)幾十項與消費者有關(guān)的因素提供服務(wù)。
● 《不讓一個孩子掉隊》法案要求學(xué)校采用由嚴(yán)格數(shù)據(jù)分析支持的教學(xué)方法。在其幫助下,教師花費高達(dá)45%的課堂時間培訓(xùn)孩子們通過標(biāo)準(zhǔn)化考試的方法。超級數(shù)據(jù)分析甚至使一些教師轉(zhuǎn)向了每句臺詞得到編排和統(tǒng)計審查的課堂模式。
直覺主義者要當(dāng)心了。本書將會講述一系列超級數(shù)據(jù)分析的故事,向你介紹執(zhí)行這些分析的人物。數(shù)字分析革命不僅與棒球甚至整個體育界有關(guān)。它關(guān)乎我們生活中的方方面面。很多時候,這種超級數(shù)據(jù)分析革命對消費者有利,因為它可以幫助商家和政府更好地預(yù)測誰需要什么東西。不過,在另一些時候,消費者需要面對以統(tǒng)計為武器的對手。數(shù)據(jù)分析會使普通人處于極為不利的境地,因為商家可以更好地預(yù)測他們能從我們身上榨取多少利潤。
史蒂文·D.萊維特(Steven D. Levitt)和斯蒂芬·J.都伯納(Stephen J. Dubner)在《魔鬼經(jīng)濟(jì)學(xué)》中提到了幾十個案例,展示了對于數(shù)據(jù)庫的統(tǒng)計分析是如何揭示隱秘因果關(guān)系的。萊維特和約翰·多諾霍(John Donohue,他是我的合著者和朋友,你在后面還會聽到他的名字)指出,1970年墮胎率和1990年犯罪率這兩個看似無關(guān)的數(shù)字存在重要關(guān)聯(lián)。不過,《魔鬼經(jīng)濟(jì)學(xué)》并沒有過多地談?wù)摱糠治鰧τ诂F(xiàn)實決策的影響程度。與之相比,本書會談?wù)摂?shù)據(jù)分析的影響。商業(yè)和其他領(lǐng)域的決策者正在以你從未想象過的方式使用統(tǒng)計分析,以進(jìn)行各種選擇。
全球各行各業(yè)都在圍繞現(xiàn)代計算機的數(shù)據(jù)庫容量進(jìn)行升級。萬斯·帕卡德(Vance Packard)的《隱形說客》等作品展示了人們在20世紀(jì)50年代至60年代的預(yù)期(和恐懼)——由大政府和大公司實施的復(fù)雜的社會工程即將控制世界。現(xiàn)在,這個預(yù)期突然在這一代人心中復(fù)活了。過去,我們認(rèn)為大政府可以通過指揮和控制解決人類所有問題。現(xiàn)在,我們看到,類似的事情正在以大規(guī)模數(shù)據(jù)網(wǎng)絡(luò)的形式出現(xiàn)。
我與《魔鬼經(jīng)濟(jì)學(xué)》
我本人是數(shù)據(jù)分析師。雖然我在耶魯教授法律,但我在麻省理工讀博士時學(xué)過計量經(jīng)濟(jì)學(xué)。從保釋保證書和腎移植,到槍支管制和沖動型犯罪,我曾為各種事情做過數(shù)據(jù)分析。你可能認(rèn)為,象牙塔里的書呆子與現(xiàn)實世界中的決策沒有任何關(guān)系。(是的,我屬于那種粗心大意的教授。我曾在火車上專注于寫作,忘記在紐黑文下車,直接坐到了波基普西。)不過,即使是書呆子的數(shù)據(jù)挖掘有時也會對世界產(chǎn)生影響。
幾年前,我曾和史蒂文·萊維特合作,以研究路捷對汽車盜竊的影響。這是一件非常現(xiàn)實的事情。路捷是一種小型無線電發(fā)射器,可以隱藏在汽車內(nèi)部的許多部位。接到失竊報告時,警方會遠(yuǎn)程激活發(fā)射器,然后用特殊裝備的警車跟蹤失竊車輛的確切位置。路捷是一種非常有效的汽車尋回設(shè)備。路捷公司知道這一點,并且自豪地宣布,路捷的尋回率為95%。不過,我和史蒂文希望測試路捷是否有助于降低整體汽車失竊率。許多汽車防盜設(shè)備的問題在于,它們可能只是把罪行轉(zhuǎn)移到了其他地方。如果你在汽車上使用“俱樂部”這一產(chǎn)品,它很可能無法阻止犯罪。竊賊會沿著街道繼續(xù)前進(jìn),盜竊下一輛汽車。路捷的優(yōu)點在于其隱蔽性。在一座由路捷覆蓋的城市里,竊賊并不知道某輛車是否安裝了路捷。
這正是萊維特喜歡探索的那種反常現(xiàn)象。《魔鬼經(jīng)濟(jì)學(xué)》的評論家說,史蒂文看待事物的角度和常人不同,這話一點不假。幾年前,我手里多出一張票,因此邀請史蒂文去看芝加哥公牛隊邁克爾·喬丹的比賽。史蒂文認(rèn)為,如果他對比賽投資,那么他會更加享受比賽過程。不過,他不太在乎公牛隊的輸贏,這一點和我完全不同。所以,在比賽即將開始時,他在網(wǎng)上下了很大的賭注,賭芝加哥獲勝。現(xiàn)在,他為比賽做了投資,網(wǎng)上的賭注改變了他的觀賽動機。
奇怪的是,路捷也是一種改變動機的設(shè)備。在路捷出現(xiàn)以前,許多職業(yè)竊賊幾乎不會留下任何線索。路捷改變了這一切。有了路捷,警方不僅可以尋回車輛,而且常常可以捉住竊賊。僅在洛杉磯,警方就通過路捷發(fā)現(xiàn)了100多家汽車銷贓店。如果你在安裝路捷的城鎮(zhèn)偷走100輛汽車,那么你幾乎一定會偷到一些裝有路捷的車輛。我們希望測試路捷能否震懾盜竊犯,使之不在當(dāng)?shù)匦懈`。如果是,路捷就創(chuàng)造出了經(jīng)濟(jì)學(xué)家所說的“正外部效應(yīng)”。當(dāng)你在車上安裝“俱樂部”產(chǎn)品時,你很可能提高了其他人的汽車遭到盜竊的概率。不過,我和史蒂文認(rèn)為,如果足夠多的人安裝路捷,他們也許可以震懾職業(yè)偷車賊,使之不敢在他們的街區(qū)行竊。
我們最大的問題是說服路捷和我們分享銷售數(shù)據(jù)。我記得,我曾反復(fù)撥打電話,對他們說,如果我和史蒂文是對的,這件事就可以成為人們購買路捷的另一個理由。如果路捷可以降低竊賊盜竊其他車輛的概率,那么路捷公司也許可以說服保險公司向路捷用戶提供更大的折扣。最后,一位低級別經(jīng)理終于向我們發(fā)送了大量有用數(shù)據(jù)。說實話,路捷最初對于這項研究不太感興趣。
當(dāng)他們看到我們的論文初稿時,一切都變了。在考察了56座城市14年的汽車盜竊數(shù)據(jù)后,我們發(fā)現(xiàn),路捷可以為其他人帶來巨大的好處。在高犯罪率地區(qū),一個人對于路捷的500美元投資可以使非路捷用戶的汽車失竊損失減少5,000美元。我們按照年份和城市分析了路捷銷量,對于行駛在路上的路捷車輛比例做出了非常準(zhǔn)確的估計。(例如,波士頓擁有州內(nèi)最大的保險折扣,該市超過10%的汽車安裝了路捷。)我們考察了當(dāng)路捷用戶數(shù)量增長時整個城市的汽車失竊情況。由于路捷服務(wù)出現(xiàn)在不同城市的年份不同,因此我們可以排除當(dāng)年總體犯罪水平因素,單獨估計路捷的影響。在一座又一座城市,隨著路捷汽車比例的提升,汽車失竊率大幅下降。保險公司并沒有為路捷用戶提供充分的折扣,因為他們沒有考慮到路捷為安裝車輛和未安裝車輛減少了多少賠付支出。
我和史蒂文從未購買路捷股票(因為我們不想改變自己的動機,這是實話),但我們知道,我們掌握著非常寶貴的信息。當(dāng)我們的研究報告發(fā)表時,路捷股價上漲了2.4%。在我們這項研究的幫助下,其他城市也采用了路捷技術(shù),保險折扣也略有提升(但是漲幅還不夠大)。
我想說的是,我對數(shù)據(jù)分析非常熱心。我本人也是數(shù)據(jù)挖掘咖啡館的一名廚師。和阿森費爾特類似,我是嚴(yán)肅期刊《法律、經(jīng)濟(jì)和組織期刊》的編輯,我需要不斷評估這份期刊中統(tǒng)計論文的質(zhì)量。我很適合探索數(shù)據(jù)驅(qū)動型決策的興起,因為我既是參與者,也是觀察者。我對這一領(lǐng)域了如指掌。
本書的要點
接下來的五章將會詳述超級數(shù)據(jù)分析在社會各領(lǐng)域的興起。前三章將會向你介紹兩種基本統(tǒng)計方法——回歸和隨機化試驗——并且展示定量預(yù)測藝術(shù)是如何改變企業(yè)和政府的。我們將在第四章探索有關(guān)“循證”醫(yī)學(xué)的辯論。第五章將會介紹諸多測試,以便對基于數(shù)據(jù)的決策與基于經(jīng)驗和直覺的決策進(jìn)行比較。
本書第二部分將會回過頭來評估這種趨勢的重要性。我們將會探索為什么這一趨勢發(fā)生在當(dāng)下,以及我們是否應(yīng)該對此感到高興。第七章將從地位和自由裁量權(quán)的角度考慮誰在吃虧。最后,第八章將會展望未來。超級數(shù)據(jù)分析的興起既不意味著直覺的終結(jié),也不意味著工作經(jīng)驗失去意義。相反,我們可能會看到一個新的時代。屆時,最優(yōu)秀、最聰明的人既了解統(tǒng)計學(xué),又擁有專業(yè)知識。
歸根結(jié)底,本書并不想將直覺和經(jīng)驗知識排除在決策規(guī)范之外。相反,我會展示直覺和經(jīng)驗是如何與數(shù)據(jù)驅(qū)動型決策相互融合的。實際上,像史蒂文·萊維特這樣的新一代創(chuàng)新型超級數(shù)據(jù)分析師可以在直覺和數(shù)據(jù)分析之間來回切換,從而看到直覺主義者和數(shù)據(jù)分析師永遠(yuǎn)無法看到的事情。
- 大轉(zhuǎn)型:互聯(lián)網(wǎng)時代的傳統(tǒng)企業(yè)進(jìn)化之道
- ERP與企業(yè)管理:理論、方法、系統(tǒng)(第2版)
- AI經(jīng)濟(jì):機器人時代的工作、財富和社會福利
- 中等收入陷阱:基于經(jīng)濟(jì)轉(zhuǎn)型與社會治理的理解
- 美元陷阱
- 互聯(lián)網(wǎng)供應(yīng)鏈金融
- 未來工作
- 自貿(mào)區(qū)背景下平行進(jìn)口貿(mào)易中供應(yīng)鏈運營與協(xié)調(diào)研究
- 解密TikTok:中國的爆款應(yīng)用如何改變世界
- 我國勞務(wù)派遣用工市場演化路徑與治理對策研究
- 氣候變化與保險
- 人力資源管理實操從入門到精通
- 我國新生代農(nóng)民工城市文化融入研究:基于移動互聯(lián)網(wǎng)社會影響視角
- 漫畫經(jīng)濟(jì)學(xué)一看就懂 從家庭收支到國際貿(mào)易
- 平臺博弈:網(wǎng)絡(luò)平臺無序擴(kuò)張與元宇宙規(guī)則