- 大數據:挖掘數據背后的真相
- (日)松本健太郎
- 1111字
- 2020-07-22 18:43:17
·為什么會發生數據造假
請再看一下“與戀人鬧點別扭”這一問題。你有沒有想到,與高深的統計學和AI相比,“別扭程度如何用數字表現出來”“尋找兩人鬧別扭的原因”好像更難。
數據科學家很重視“發現”這類數字和原因。為什么?因為這是確保推導出結論的分析步驟。
分析的目的雖然因發現問題型、解決問題型和驗證結果型而各有不同,但推導出結論的分析步驟都是相同的。用圖來表現,請參見圖1-6。

圖1-6 分析步驟
最初是設定目的。根據剛才介紹的分析類型,分析為什么鬧別扭、怎么做才能和好如初、出現了哪些變化……決定為了搞清什么而展開分析就是設定目的。
所有分析都被“設定目的”左右。如果把方向搞錯了,那么無論在多么好的時間起跑,都會因為犯規而喪失資格。如果不想浪費付出的努力,就需要在設定目的上花費更多的時間,而這對大腦的邏輯性提出了很高的要求。
接下來就是收集數據。要想弄清楚由設定目的而確定下來的“想了解的事情”,就要思考需要什么樣的數據并著手收集。如果沒有數據,就有必要從預估開始。
為了思考鬧別扭的理由而將“網聊的次數”和“發送的文字數”作為鬧別扭的原因,將“已讀信息的件數”和“回復信息所用的時間”作為鬧別扭的結果,那就要將這些數據收集好。把模棱兩可的別扭程度與“已讀信息件數”聯系起來,對情商也提出了很高的要求。
分析并不僅僅是個人的感想,還是分解事物、找出原因,并由此尋找解決方法的思考。因此,為了不引起認識上的分歧,使用世界通用的“數字”來表現是最好不過的。所以,收集數據非常重要。
接下來是對收集來的數據進行檢查/統計。收集來的數據未必都是百分之百正確的,如果把錯誤的數據包括在內進行分析,就很可能得出奇怪的結果。我自己也有過多次重新回到上一個步驟,甚至重新收集數據的經歷。這項工作需要嚴肅認真地對待、腳踏實地地進行,因為檢查/統計關乎數據的精度。
作為具有代表性的例子,關于酌量勞動制的數據異常值問題,在2018年2月的日本國會上作為“工作方式改革”的重點事項被受理。盡管以天或周為單位來看,加班時間為零,但以月為單位的加班時間卻被清清楚楚地記錄下來,很多這樣的數據都被很好地保存著,所以這成了引發朝野上下關注的重大問題。
在野黨和大眾傳媒展開了一場批判政府的大合唱,“官僚在玩揣摩游戲”“政府在搞陰謀”。但在數據科學及其相關學科領域,卻有很多人發出了“數據的檢查工作沒做好吧”“沒想到官僚都讀不懂數據”的奚落。這件事給人們留下了很深的印象。
到這里,我們終于要著手分析了。
對于“設定目的”、“收集數據”和“檢查/統計”三個步驟,無論是哪位數據科學家都會不惜花費大量時間。如果在這幾個步驟上節省時間、敷衍了事,就很容易得出失真的分析結果,從而陷入多次返工的困境。