- 大數據:挖掘數據背后的真相
- (日)松本健太郎
- 1112字
- 2020-07-22 18:43:16
·為了發現問題,豐田要反復問五回為什么
數據科學家平時都做些什么工作呢?
坦率地說,就是“分析”。分析大體上分為三種類型,即發現問題型、解決問題型和驗證結果型。可能大家難以形象地理解,我們可以先思考一下“戀人之間稍稍鬧點小別扭”這個問題。
為什么要鬧別扭呢?肯定會有關系不融洽的理由。為找出那個理由進行的分析就是“發現問題”。
例如,統計一下兩人從開始交往到現在的網上聊天情況,可以發現,最近一段時間,兩人的網聊次數及發送信息的文字數都出現了減少的傾向。除此之外,還可以把只靠感覺的“別扭”略微有些牽強地用已讀信息(指已經收到并讀取但未回復的信息,下同)的件數及回復信息的時間來表示,或許會發現,這種“別扭”無須介意,只是耍點小脾氣而已。
關鍵是要把發生的變化用數字表現出來。“這難道不是理由嗎”,確立這種假設的分析就是“發現問題”。
既然問題已經明確了,思考該如何解決的分析就是“解決問題”。
有一種不用考慮解決問題的方法,那就是跟他(或她)分手。但如果想解決問題,就要分析解決方法。例如,設定一個剛開始交往時每天網聊的次數或發送的文字數的平均值,并將其作為今后努力的目標??紤]到已讀信息件數減少、立即答復增加,可以將其目標分別設定為每天100次、超過2,000個字。據此,再進行下一步分析,思考如何達成該目標。
關鍵是要把解決問題的方法用數字表現出來?!斑@樣做應該能很好地解決了”,做出這一假設的分析就是“解決問題”。
將解決方法轉移到落實上來,雖說多少要花費些時間,但必然會得出結果。看看得出的結果與預想的結果差別有多大,對此進行回顧的分析就是“驗證結果”。
例如,通過一定的挽救措施,兩人網上聊天的次數及短信的字數增加了多少、已讀信息件數減少了多少、回復信息的時間縮短了多少,對這些予以確認之后,再搞清楚與當初預想的差異。出現差異并非壞事,思考為什么會出現差異才具有意義。在關系進展不順利的時候,思考是解決方法錯了,還是問題本身錯了。
整個過程的關鍵是把預想的結果和得出的結果用數字表現出來?!笆鞘裁锤沐e了”,對這些進行驗證的分析就是“驗證結果”。
順便提一下,剛才介紹的“只有叔叔阿姨在用Facebook”的分析,就是對“本來什么才是問題”進行探索的分析,這類分析就屬于發現問題型。

圖1-5 分析的三種類型
在這三種類型中,最重要的分析是哪一種呢?是“發現問題”。如果把應該解決的問題搞錯了,隨后展開的分析就沒有任何意義了。因此,最初的發現問題非常重要。
我經常接受有關數據分析方面的咨詢,其中的大多數都屬于已經發現了問題卻不知道該如何解決的。但實際上,仍有很多情況是問題本身搞錯了。真正亟須解決的問題很難馬上就找出來,所以,豐田汽車公司嚴格要求員工要“反復問五回為什么”!