靠谱捕鱼平台

書名：打通企業(yè)數(shù)字化價(jià)值鏈（抗“疫”復(fù)工特刊）（《哈佛商業(yè)評(píng)論》微管理系列）（哈佛商業(yè)評(píng)論）
作者名：哈佛商業(yè)評(píng)論
本章字?jǐn)?shù)： 594字
更新時(shí)間： 2020-04-22 11:18:08

二、數(shù)據(jù)是如何分析的？

即使數(shù)據(jù)得到了準(zhǔn)確和良好的維護(hù)，數(shù)據(jù)分析模型的質(zhì)量也會(huì)有很大差異。一般而言，各種數(shù)據(jù)分析模型是通過開源平臺(tái)(如GitHub)組合在一起，并要為特定的分析任務(wù)進(jìn)行重新的組合部署。但是，過不了多久，人們就忘記該模型究竟來自何處，也不再關(guān)心它究竟是如何評(píng)估特定的數(shù)據(jù)集合的了。

類似于這樣的失誤要比你所能想象到的更為常見，并且有可能造成嚴(yán)重的損失。我們可以回顧一下如下案例：曾經(jīng)有兩位著名的經(jīng)濟(jì)學(xué)家發(fā)表了一份工作報(bào)告，警告說美國債務(wù)即將面臨一個(gè)關(guān)鍵的節(jié)點(diǎn)。他們的工作引發(fā)了一場政治風(fēng)暴，但事實(shí)證明，他們犯了一個(gè)簡單的Excel錯(cuò)誤，導(dǎo)致他們夸大了債務(wù)對GDP的影響。這就是對數(shù)據(jù)處理方式的失誤造成的。

隨著數(shù)據(jù)處理模型變得越來越復(fù)雜，并納入了更多的數(shù)據(jù)來源，我們也越來越能看到，在數(shù)據(jù)模型的訓(xùn)練上不斷出現(xiàn)更為嚴(yán)重的問題。最常見的錯(cuò)誤之一是過度擬合，這大體意味著，用來創(chuàng)建模型的變量越多，模型本身就越難變得普遍有效。而在某些情況下，過量的數(shù)據(jù)會(huì)導(dǎo)致數(shù)據(jù)泄漏，在數(shù)據(jù)泄露中，訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)攪和在一起了。

這些類型的錯(cuò)誤甚至?xí)_最為先進(jìn)的公司。對此我們僅僅舉出兩個(gè)最為突出的例子就足夠了：亞馬遜和谷歌，最近與模型偏見有關(guān)的丑聞被高度曝光了。當(dāng)我們處理數(shù)據(jù)時(shí)，我們需要不斷地向我們的模型提出難題：它們適合于我們的使用目的嗎？它們是否考慮到了正確的因素？模型所輸出的數(shù)據(jù)是否真實(shí)地反映現(xiàn)實(shí)世界中發(fā)生的事情？

官术网_书友最值得收藏!

打通企業(yè)數(shù)字化價(jià)值鏈（抗“疫”復(fù)工特刊）（《哈佛商業(yè)評(píng)論》微管理系列）（哈佛商業(yè)評(píng)論）

二、數(shù)據(jù)是如何分析的？