不朽情缘大奖截图

·為什么會發生數據造假

請再看一下“與戀人鬧點別扭”這一問題。你有沒有想到，與高深的統計學和AI相比，“別扭程度如何用數字表現出來”“尋找兩人鬧別扭的原因”好像更難。

數據科學家很重視“發現”這類數字和原因。為什么？因為這是確保推導出結論的分析步驟。

分析的目的雖然因發現問題型、解決問題型和驗證結果型而各有不同，但推導出結論的分析步驟都是相同的。用圖來表現，請參見圖1-6。

圖1-6　分析步驟

最初是設定目的。根據剛才介紹的分析類型，分析為什么鬧別扭、怎么做才能和好如初、出現了哪些變化……決定為了搞清什么而展開分析就是設定目的。

所有分析都被“設定目的”左右。如果把方向搞錯了，那么無論在多么好的時間起跑，都會因為犯規而喪失資格。如果不想浪費付出的努力，就需要在設定目的上花費更多的時間，而這對大腦的邏輯性提出了很高的要求。

接下來就是收集數據。要想弄清楚由設定目的而確定下來的“想了解的事情”，就要思考需要什么樣的數據并著手收集。如果沒有數據，就有必要從預估開始。

為了思考鬧別扭的理由而將“網聊的次數”和“發送的文字數”作為鬧別扭的原因，將“已讀信息的件數”和“回復信息所用的時間”作為鬧別扭的結果，那就要將這些數據收集好。把模棱兩可的別扭程度與“已讀信息件數”聯系起來，對情商也提出了很高的要求。

分析并不僅僅是個人的感想，還是分解事物、找出原因，并由此尋找解決方法的思考。因此，為了不引起認識上的分歧，使用世界通用的“數字”來表現是最好不過的。所以，收集數據非常重要。

接下來是對收集來的數據進行檢查/統計。收集來的數據未必都是百分之百正確的，如果把錯誤的數據包括在內進行分析，就很可能得出奇怪的結果。我自己也有過多次重新回到上一個步驟，甚至重新收集數據的經歷。這項工作需要嚴肅認真地對待、腳踏實地地進行，因為檢查/統計關乎數據的精度。

作為具有代表性的例子，關于酌量勞動制的數據異常值問題，在2018年2月的日本國會上作為“工作方式改革”的重點事項被受理。盡管以天或周為單位來看，加班時間為零，但以月為單位的加班時間卻被清清楚楚地記錄下來，很多這樣的數據都被很好地保存著，所以這成了引發朝野上下關注的重大問題。

在野黨和大眾傳媒展開了一場批判政府的大合唱，“官僚在玩揣摩游戲”“政府在搞陰謀”。但在數據科學及其相關學科領域，卻有很多人發出了“數據的檢查工作沒做好吧”“沒想到官僚都讀不懂數據”的奚落。這件事給人們留下了很深的印象。

到這里，我們終于要著手分析了。

對于“設定目的”、“收集數據”和“檢查/統計”三個步驟，無論是哪位數據科學家都會不惜花費大量時間。如果在這幾個步驟上節省時間、敷衍了事，就很容易得出失真的分析結果，從而陷入多次返工的困境。