- 人人可做數據分析:從數據分析到數據驅動運營
- 于琪
- 366字
- 2023-11-20 20:45:24
第2章 數據采集、存儲與整理
數據分析最花時間的是哪個階段?有人說是業務分析階段。其實業務分析階段,也就是把業務問題轉化成數據分析問題的階段,這個是“難者不會,會者不難”的階段。若不會,就算花再多的時間也難以搞清楚;若會,業務分析階段就不會成為數據分析的瓶頸。其實,收集需要的數據所花費的時間最長。一方面,大多數原始數據并不能直接拿來用,存在缺失值和異常值,我們將其稱為“臟數據”(dirty data)。臟數據通過清洗和整理后得到干凈的數據。另一方面,一個模型需要的數據可能來自多個渠道,這就要求把多個渠道的數據關聯在一起,形成一張大的寬表,我們將其稱為“主表”(master table)。
這里說的“收集需要的數據”包括數據的采集、整理與存儲。注意是“收集需要的數據”,而不是“收集數據”。“收集數據”指的是數據采集,而“收集需要的數據”還包含數據的整理和存儲等過程。