官术网_书友最值得收藏!

二、數(shù)據(jù)是如何分析的?

即使數(shù)據(jù)得到了準(zhǔn)確和良好的維護(hù),數(shù)據(jù)分析模型的質(zhì)量也會(huì)有很大差異。一般而言,各種數(shù)據(jù)分析模型是通過開源平臺(tái)(如GitHub)組合在一起,并要為特定的分析任務(wù)進(jìn)行重新的組合部署。但是,過不了多久,人們就忘記該模型究竟來自何處,也不再關(guān)心它究竟是如何評(píng)估特定的數(shù)據(jù)集合的了。


類似于這樣的失誤要比你所能想象到的更為常見,并且有可能造成嚴(yán)重的損失。我們可以回顧一下如下案例:曾經(jīng)有兩位著名的經(jīng)濟(jì)學(xué)家發(fā)表了一份工作報(bào)告,警告說美國債務(wù)即將面臨一個(gè)關(guān)鍵的節(jié)點(diǎn)。他們的工作引發(fā)了一場政治風(fēng)暴,但事實(shí)證明,他們犯了一個(gè)簡單的Excel錯(cuò)誤,導(dǎo)致他們夸大了債務(wù)對GDP的影響。這就是對數(shù)據(jù)處理方式的失誤造成的。


隨著數(shù)據(jù)處理模型變得越來越復(fù)雜,并納入了更多的數(shù)據(jù)來源,我們也越來越能看到,在數(shù)據(jù)模型的訓(xùn)練上不斷出現(xiàn)更為嚴(yán)重的問題。最常見的錯(cuò)誤之一是過度擬合,這大體意味著,用來創(chuàng)建模型的變量越多,模型本身就越難變得普遍有效。而在某些情況下,過量的數(shù)據(jù)會(huì)導(dǎo)致數(shù)據(jù)泄漏,在數(shù)據(jù)泄露中,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)攪和在一起了。


這些類型的錯(cuò)誤甚至?xí)_最為先進(jìn)的公司。對此我們僅僅舉出兩個(gè)最為突出的例子就足夠了:亞馬遜和谷歌,最近與模型偏見有關(guān)的丑聞被高度曝光了。當(dāng)我們處理數(shù)據(jù)時(shí),我們需要不斷地向我們的模型提出難題:它們適合于我們的使用目的嗎?它們是否考慮到了正確的因素?模型所輸出的數(shù)據(jù)是否真實(shí)地反映現(xiàn)實(shí)世界中發(fā)生的事情?


主站蜘蛛池模板: 延津县| 郴州市| 新安县| 麻江县| 台南县| 礼泉县| 普定县| 青川县| 类乌齐县| 乌拉特前旗| 大竹县| 阳朔县| 饶平县| 十堰市| 辰溪县| 闽侯县| 甘泉县| 蓝田县| 罗甸县| 莱州市| 运城市| 平昌县| 财经| 南溪县| 阜宁县| 合山市| 苏尼特左旗| 阿克陶县| 永安市| 台江县| 锡林郭勒盟| 裕民县| 汝州市| 上饶县| 黄龙县| 白银市| 库伦旗| 大余县| 兴文县| 鄢陵县| 大悟县|