- 打通企業(yè)數(shù)字化價(jià)值鏈(抗“疫”復(fù)工特刊)(《哈佛商業(yè)評(píng)論》微管理系列)(哈佛商業(yè)評(píng)論)
- 哈佛商業(yè)評(píng)論
- 594字
- 2020-04-22 11:18:08
二、數(shù)據(jù)是如何分析的?
即使數(shù)據(jù)得到了準(zhǔn)確和良好的維護(hù),數(shù)據(jù)分析模型的質(zhì)量也會(huì)有很大差異。一般而言,各種數(shù)據(jù)分析模型是通過開源平臺(tái)(如GitHub)組合在一起,并要為特定的分析任務(wù)進(jìn)行重新的組合部署。但是,過不了多久,人們就忘記該模型究竟來自何處,也不再關(guān)心它究竟是如何評(píng)估特定的數(shù)據(jù)集合的了。
類似于這樣的失誤要比你所能想象到的更為常見,并且有可能造成嚴(yán)重的損失。我們可以回顧一下如下案例:曾經(jīng)有兩位著名的經(jīng)濟(jì)學(xué)家發(fā)表了一份工作報(bào)告,警告說美國債務(wù)即將面臨一個(gè)關(guān)鍵的節(jié)點(diǎn)。他們的工作引發(fā)了一場政治風(fēng)暴,但事實(shí)證明,他們犯了一個(gè)簡單的Excel錯(cuò)誤,導(dǎo)致他們夸大了債務(wù)對GDP的影響。這就是對數(shù)據(jù)處理方式的失誤造成的。
隨著數(shù)據(jù)處理模型變得越來越復(fù)雜,并納入了更多的數(shù)據(jù)來源,我們也越來越能看到,在數(shù)據(jù)模型的訓(xùn)練上不斷出現(xiàn)更為嚴(yán)重的問題。最常見的錯(cuò)誤之一是過度擬合,這大體意味著,用來創(chuàng)建模型的變量越多,模型本身就越難變得普遍有效。而在某些情況下,過量的數(shù)據(jù)會(huì)導(dǎo)致數(shù)據(jù)泄漏,在數(shù)據(jù)泄露中,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)攪和在一起了。
這些類型的錯(cuò)誤甚至?xí)_最為先進(jìn)的公司。對此我們僅僅舉出兩個(gè)最為突出的例子就足夠了:亞馬遜和谷歌,最近與模型偏見有關(guān)的丑聞被高度曝光了。當(dāng)我們處理數(shù)據(jù)時(shí),我們需要不斷地向我們的模型提出難題:它們適合于我們的使用目的嗎?它們是否考慮到了正確的因素?模型所輸出的數(shù)據(jù)是否真實(shí)地反映現(xiàn)實(shí)世界中發(fā)生的事情?
- 從人口紅利到人才紅利(《復(fù)旦金融評(píng)論》第14期)
- 現(xiàn)代經(jīng)濟(jì)信息(2021年第7期·上旬刊)
- 全球商業(yè)經(jīng)典(2021年第5期)
- 風(fēng)口下一城(《商界》2018年第1期)
- 中歐商業(yè)評(píng)論9月刊
- 做多中國 分享牛市盛宴:證券市場紅周刊2020年49期(證券市場紅周刊)
- 中歐商業(yè)評(píng)論(2022年9-10月刊)
- 蔚來:定義用戶企業(yè)(《商業(yè)評(píng)論》2022年2-3月號(hào))
- 比較(總第80輯)
- 雪球?qū)??39期:2016十大最受歡迎理財(cái)文章
- 雪球?qū)??30期:戰(zhàn)“疫”之機(jī),公募基金經(jīng)理解讀疫情下的投資策略
- 證券市場周刊-紅周刊(2016年第04期)
- 證券市場周刊-紅周刊(2016年第38期)
- 比較(總第104輯)
- 如何在職場中贏得尊重(《哈佛商業(yè)評(píng)論》微管理系列)