官术网_书友最值得收藏!

二、數據是如何分析的?

即使數據得到了準確和良好的維護,數據分析模型的質量也會有很大差異。一般而言,各種數據分析模型是通過開源平臺(如GitHub)組合在一起,并要為特定的分析任務進行重新的組合部署。但是,過不了多久,人們就忘記該模型究竟來自何處,也不再關心它究竟是如何評估特定的數據集合的了。


類似于這樣的失誤要比你所能想象到的更為常見,并且有可能造成嚴重的損失。我們可以回顧一下如下案例:曾經有兩位著名的經濟學家發表了一份工作報告,警告說美國債務即將面臨一個關鍵的節點。他們的工作引發了一場政治風暴,但事實證明,他們犯了一個簡單的Excel錯誤,導致他們夸大了債務對GDP的影響。這就是對數據處理方式的失誤造成的。


隨著數據處理模型變得越來越復雜,并納入了更多的數據來源,我們也越來越能看到,在數據模型的訓練上不斷出現更為嚴重的問題。最常見的錯誤之一是過度擬合,這大體意味著,用來創建模型的變量越多,模型本身就越難變得普遍有效。而在某些情況下,過量的數據會導致數據泄漏,在數據泄露中,訓練數據和測試數據攪和在一起了。


這些類型的錯誤甚至會困擾最為先進的公司。對此我們僅僅舉出兩個最為突出的例子就足夠了:亞馬遜和谷歌,最近與模型偏見有關的丑聞被高度曝光了。當我們處理數據時,我們需要不斷地向我們的模型提出難題:它們適合于我們的使用目的嗎?它們是否考慮到了正確的因素?模型所輸出的數據是否真實地反映現實世界中發生的事情?


主站蜘蛛池模板: 东方市| 桃江县| 兴仁县| 巴马| 开封县| 武隆县| 额尔古纳市| 维西| 顺平县| 义马市| 天峻县| 奈曼旗| 灌云县| 栾川县| 遂溪县| 宁阳县| 嘉祥县| 筠连县| 行唐县| 涞水县| 称多县| 南木林县| 调兵山市| 贵港市| 和平县| 苍山县| 厦门市| 正镶白旗| 铁岭市| 晋州市| 武威市| 阜平县| 得荣县| 会昌县| 昆明市| 禹城市| 响水县| 墨脱县| 中江县| 海阳市| 托克托县|