官术网_书友最值得收藏!

·為什么會發生數據造假

請再看一下“與戀人鬧點別扭”這一問題。你有沒有想到,與高深的統計學和AI相比,“別扭程度如何用數字表現出來”“尋找兩人鬧別扭的原因”好像更難。

數據科學家很重視“發現”這類數字和原因。為什么?因為這是確保推導出結論的分析步驟

分析的目的雖然因發現問題型、解決問題型和驗證結果型而各有不同,但推導出結論的分析步驟都是相同的。用圖來表現,請參見圖1-6。

圖1-6 分析步驟

最初是設定目的。根據剛才介紹的分析類型,分析為什么鬧別扭、怎么做才能和好如初、出現了哪些變化……決定為了搞清什么而展開分析就是設定目的。

所有分析都被“設定目的”左右。如果把方向搞錯了,那么無論在多么好的時間起跑,都會因為犯規而喪失資格。如果不想浪費付出的努力,就需要在設定目的上花費更多的時間,而這對大腦的邏輯性提出了很高的要求。

接下來就是收集數據。要想弄清楚由設定目的而確定下來的“想了解的事情”,就要思考需要什么樣的數據并著手收集。如果沒有數據,就有必要從預估開始。

為了思考鬧別扭的理由而將“網聊的次數”和“發送的文字數”作為鬧別扭的原因,將“已讀信息的件數”和“回復信息所用的時間”作為鬧別扭的結果,那就要將這些數據收集好。把模棱兩可的別扭程度與“已讀信息件數”聯系起來,對情商也提出了很高的要求。

分析并不僅僅是個人的感想,還是分解事物、找出原因,并由此尋找解決方法的思考。因此,為了不引起認識上的分歧,使用世界通用的“數字”來表現是最好不過的。所以,收集數據非常重要。

接下來是對收集來的數據進行檢查/統計。收集來的數據未必都是百分之百正確的,如果把錯誤的數據包括在內進行分析,就很可能得出奇怪的結果。我自己也有過多次重新回到上一個步驟,甚至重新收集數據的經歷。這項工作需要嚴肅認真地對待、腳踏實地地進行,因為檢查/統計關乎數據的精度。

作為具有代表性的例子,關于酌量勞動制的數據異常值問題,在2018年2月的日本國會上作為“工作方式改革”的重點事項被受理。盡管以天或周為單位來看,加班時間為零,但以月為單位的加班時間卻被清清楚楚地記錄下來,很多這樣的數據都被很好地保存著,所以這成了引發朝野上下關注的重大問題。

在野黨和大眾傳媒展開了一場批判政府的大合唱,“官僚在玩揣摩游戲”“政府在搞陰謀”。但在數據科學及其相關學科領域,卻有很多人發出了“數據的檢查工作沒做好吧”“沒想到官僚都讀不懂數據”的奚落。這件事給人們留下了很深的印象。

到這里,我們終于要著手分析了。

對于“設定目的”、“收集數據”和“檢查/統計”三個步驟,無論是哪位數據科學家都會不惜花費大量時間。如果在這幾個步驟上節省時間、敷衍了事,就很容易得出失真的分析結果,從而陷入多次返工的困境。

主站蜘蛛池模板: 尉犁县| 高州市| 宁陵县| 云龙县| 大方县| 呈贡县| 兰州市| 牟定县| 姚安县| 辉县市| 宁武县| 巴里| 长治县| 晴隆县| 辽阳市| 朝阳区| 松滋市| 杭锦后旗| 丹寨县| 卓资县| 黄梅县| 邻水| 清河县| 溧水县| 广宁县| 肃宁县| 弋阳县| 小金县| 兴化市| 洮南市| 周口市| 渭南市| 沙雅县| 治多县| 庆城县| 松潘县| 惠来县| 奇台县| 贵州省| 汉寿县| 宜都市|