官术网_书友最值得收藏!

第2章 數據采集、存儲與整理

數據分析最花時間的是哪個階段?有人說是業務分析階段。其實業務分析階段,也就是把業務問題轉化成數據分析問題的階段,這個是“難者不會,會者不難”的階段。若不會,就算花再多的時間也難以搞清楚;若會,業務分析階段就不會成為數據分析的瓶頸。其實,收集需要的數據所花費的時間最長。一方面,大多數原始數據并不能直接拿來用,存在缺失值和異常值,我們將其稱為“臟數據”(dirty data)。臟數據通過清洗和整理后得到干凈的數據。另一方面,一個模型需要的數據可能來自多個渠道,這就要求把多個渠道的數據關聯在一起,形成一張大的寬表,我們將其稱為“主表”(master table)。

這里說的“收集需要的數據”包括數據的采集、整理與存儲。注意是“收集需要的數據”,而不是“收集數據”。“收集數據”指的是數據采集,而“收集需要的數據”還包含數據的整理和存儲等過程。

主站蜘蛛池模板: 思茅市| 固始县| 旌德县| 怀化市| 神木县| 冕宁县| 紫金县| 宁海县| 巫山县| 年辖:市辖区| 北京市| 拉萨市| 璧山县| 孙吴县| 木兰县| 宝清县| 成都市| 梅河口市| 宜君县| 南木林县| 铅山县| 乌鲁木齐市| 布拖县| 绥江县| 海原县| 兴城市| 临沧市| 会宁县| 五大连池市| 堆龙德庆县| 兴海县| 米泉市| 合作市| 察哈| 永嘉县| 本溪市| 绥中县| 历史| 奉新县| 邵阳县| 从化市|