- 打通企業數字化價值鏈(抗“疫”復工特刊)(《哈佛商業評論》微管理系列)(哈佛商業評論)
- 哈佛商業評論
- 594字
- 2020-04-22 11:18:08
二、數據是如何分析的?
即使數據得到了準確和良好的維護,數據分析模型的質量也會有很大差異。一般而言,各種數據分析模型是通過開源平臺(如GitHub)組合在一起,并要為特定的分析任務進行重新的組合部署。但是,過不了多久,人們就忘記該模型究竟來自何處,也不再關心它究竟是如何評估特定的數據集合的了。
類似于這樣的失誤要比你所能想象到的更為常見,并且有可能造成嚴重的損失。我們可以回顧一下如下案例:曾經有兩位著名的經濟學家發表了一份工作報告,警告說美國債務即將面臨一個關鍵的節點。他們的工作引發了一場政治風暴,但事實證明,他們犯了一個簡單的Excel錯誤,導致他們夸大了債務對GDP的影響。這就是對數據處理方式的失誤造成的。
隨著數據處理模型變得越來越復雜,并納入了更多的數據來源,我們也越來越能看到,在數據模型的訓練上不斷出現更為嚴重的問題。最常見的錯誤之一是過度擬合,這大體意味著,用來創建模型的變量越多,模型本身就越難變得普遍有效。而在某些情況下,過量的數據會導致數據泄漏,在數據泄露中,訓練數據和測試數據攪和在一起了。
這些類型的錯誤甚至會困擾最為先進的公司。對此我們僅僅舉出兩個最為突出的例子就足夠了:亞馬遜和谷歌,最近與模型偏見有關的丑聞被高度曝光了。當我們處理數據時,我們需要不斷地向我們的模型提出難題:它們適合于我們的使用目的嗎?它們是否考慮到了正確的因素?模型所輸出的數據是否真實地反映現實世界中發生的事情?
推薦閱讀
- 巨頭們沒有邊界(《21世紀商業評論》)
- 資產保衛戰(新錢專刊01)
- 證券市場周刊-紅周刊(2016年第32期)
- 現代經濟信息(2021年第8期·上旬刊)
- 蔚來:定義用戶企業(《商業評論》2022年2-3月號)
- 雪球專刊231期:擇基而動,2020基金投資攻略
- 比較(總第103輯)
- 送你一份年度管理大餐:2018年度最受歡迎TOP10(《哈佛商業評論》微管理系列)
- 共生·共贏:不確定時期的新雇主經濟(《哈佛商業評論》增刊)
- 人口“兇猛”(《商界》2022年第3期)
- 雪球專刊第154期:2017,巴菲特的新啟示
- 證券市場周刊-紅周刊(2016年第21期)
- 長投專刊023:金鵝飼養指南
- 大眼鵝(創刊號):將“AI”進行到底
- 比較(總第94輯)