- 數據分析從入門到進階
- 陳紅波 劉順祥等
- 2714字
- 2019-11-12 14:03:51
1.1.2 數據分析的操作步驟
數據分析有一套比較規范的操作步驟,作為數據分析人員必須掌握好它,才能減少工作失誤,提高工作效率。數據分析的操作步驟如圖1-2所示。

圖1-2 數據分析的操作步驟
1.明確目的
數據分析的第一步就是要明確分析目的。和大家在生活中處理某件事情一樣,先確定目標,然后再去動手實施。例如,某電商APP上線后,前期導入了大量新用戶但是用戶質量不是很好(包括登錄、付費等表現),需要通過數據分析查明原因。作為數據分析師,需要明確此次分析的目的是找出大量注冊用戶登錄時間不長、付費金額低的原因,可以首先從注冊用戶本身的屬性著手展開分析。
2.數據收集
數據是進行數據分析的前提,“巧婦難為無米之炊”說的就是這個道理。因此,數據的收集顯得尤為重要。按收集方式的不同,數據收集可以分為線上收集和線下收集;按收集渠道的不同,又可以分為內部收集和外部收集。數據收集的兩種不同分類如圖1-3所示。

圖1-3 數據收集的分類
線上收集的數據指的是利用互聯網技術自動采集的數據。例如,企業內部通過數據埋點的方式進行數據收集,然后將收集來的數據存儲到數據庫中。此外,利用爬蟲技術獲取網頁數據或借助第三方工具獲取網上數據等都屬于線上收集方式。一般情況下,互聯網科技企業、互聯網電商企業、互聯網游戲企業等都采用此種方式收集用戶行為數據,因為其效率高且錯誤率較低。
線下收集的數據相對比較傳統,對技術要求不高。例如,通過傳統的市場調查問卷獲取數據即為線下收集。此外,通過手工錄入獲取數據、出版物收集的權威數據以及通過其他人提供的電子表格獲取數據等都屬于線下收集方式。這種收集數據的方式效率低且容易出現偏差。一般情況下,傳統制造型企業、線下零售企業、市場調研咨詢類企業等都采用此種方式收集數據。
內部收集的數據指的是獲取的數據都來源于企業內部數據庫、日常財務數據、銷售業務數據、客戶投訴數據、運營活動數據等。此類數據的獲取相對較為方便,數據分析人員可以根據實際業務需求對內部收集的數據進行處理分析。
外部收集的數據指的是數據不是企業內部產生的,而是通過其他手段從外部獲取的。例如,利用爬蟲技術獲取的網頁數據,從公開出版物收集的權威數據,市場調研獲取的數據以及第三方平臺提供的數據等。外部數據的收集不像內部收集那么容易,且大部分都是碎片化、零散的數據。因此,數據分析人員需要對這些數據進行清洗和整合,然后再去進行分析。
總之,不管以何種方式收集過來的數據,都是企業寶貴的財富。數據分析人員需要多和這些數據打交道,多去研究數據背后隱藏的規律,為業務決策提供支持。
3.數據處理
一般通過不同途徑收集過來的原始數據都是相對比較粗糙且無序的。此時,需要利用數據處理軟件進行一系列的加工處理,降低原始數據的復雜程度,最終匯總成用戶可以解讀的業務指標。數據處理包括前期的臟數據清洗、缺失值填充、數據分組轉換、數據排序篩選等,后期的業務指標計算、報表模板填充等。常用的數據處理工具包括Excel之類的電子表格軟件、各類數據庫軟件、Python、R、SAS、SPSS等,這些工具都包含數據處理模塊,方便用戶對數據進行快速清洗,然后進行分析。
4.數據分析與數據挖掘
基于處理好的數據,數據分析人員才可以對其進行分析和挖掘,結合實際業務得出相關結論,提供給管理層進行決策。因此,數據分析人員需要掌握數據分析和數據挖掘的常用方法,才能為后期的數據報告的制作打下堅實的基礎。
數據分析的側重點在于對業務的熟練掌握,一個優秀的數據分析人員往往對公司業務了如指掌。例如,產品日常活動的前期設計、中期上線跟蹤、后期效果評估以及最終的建議與反饋等,數據分析人員都要非常熟悉。當然,除了熟練掌握業務之外,數據分析人員對數據分析常用的分析策略和分析方法也必須掌握。一般情況下,數據分析策略分為描述性統計分析、探索性統計分析、推斷性統計分析,如圖1-4所示。

圖1-4 數據分析常用的分析策略
常用數據分析方法包括對比分析法、分組分析法、預測分析法、漏斗分析法、A/B測試分析法,如圖1-5所示。通過這些數據分析方法,可以挖掘出數據隱藏的價值,從而降低企業成本,提高營業利潤等。

圖1-5 數據分析常用的分析方法
數據挖掘的側重點在于對模型和算法的理解,一個優秀的數據分析人員必須擁有扎實的數學基礎和熟練的編碼能力。數據的復雜性、多樣性、動態性等特點會使得數據挖掘變得很困難。因此,在數據挖掘過程中,應該要清楚每一步需要做什么,達到什么樣的效果,有問題及時調整方案策略,從而確保整個數據挖掘項目的最終成功。
數據挖掘的規范化步驟可以采用SIG組織在2000年推出的CRISP-DM模型,如圖1-6所示。該模型將數據挖掘項目的生存周期定義為六個階段。六個階段分為商業理解(Business Understanding)、數據理解(Data Understanding)、數據準備(Data Preparation)、建立模型(Modeling)、模型評估(Evaluation)、結果部署(Deployment)。數據挖掘的流程并非要完全參照這個順序執行,數據分析人員可以根據實際業務場景進行調整,通過不斷地測試和驗證,才能做好一個完整的數據挖掘項目。此外,數據挖掘具有循環特性,并不是一次部署完就結束挖掘過程,需要通過不斷的迭代優化,獲得最優結果。

圖1-6 CRISP-DM模型流程圖(來源網絡)
5.制作數據報告
數據分析的最終結果需要匯總成一份數據報告,最常見的是PPT格式的報告。因此,關于數據分析報告的制作顯得尤為重要。數據分析報告的制作要求目的明確、結構清晰、有理有據。
報告開始部分一般為目錄和前言,簡單扼要地列出本次匯報需要陳述的章節;中間部分為正文,主要是對目錄的各章節點展開敘述;結尾部分進行報告總結并提出相關建議和解決措施。數據分析報告的結構如圖1-7所示。

圖1-7 數據分析報告結構圖
開始部分的目錄是數據分析報告的整體綱要,要求簡潔扼要、結構清晰、邏輯有序,讓閱讀者能快速了解整個匯報的內容。目錄切記要歸納總結,不要分太多章節,大致包含分析目的、分析要點、結論與建議。前言是對分析報告的目的、背景、思路、方法、結論等內容的基本概括,然后引出分析報告的正文內容。
正文部分的分析和論證是數據分析報告的核心部分,按目錄的章節排序分別進行闡述,詳解分析思路并進行論證。分析和論證要求條理清晰、層層剖析、有理有據。
結尾部分的結論和建議是依據前面的分析結果得出的相關結論。結論要求準確、干練、有價值,切不可冗余拖沓。在準確的結論基礎之上,提出自己的見解和建議,為管理者進行決策時提供參考依據。
最后,數據分析報告的風格要前后一致,內容也可以加入一些動態展示效果,讓閱讀者賞心悅目,心情舒暢。當然,數據分析報告的核心還是分析、結論與建議,過分重視分析報告的美觀程度而忽視分析報告的本質是不可取的。數據分析人員應抱著科學嚴謹的態度,將對業務的理解與分析挖掘技術相結合,得出可靠且令人信服的分析報告,提供給管理層進行業務決策。
- Python for Secret Agents:Volume II
- Visual FoxPro程序設計教程
- 劍指JVM:虛擬機實踐與性能調優
- 技術領導力:程序員如何才能帶團隊
- Python從入門到精通(精粹版)
- MATLAB 2020 從入門到精通
- 教孩子學編程:C++入門圖解
- Java網絡編程實戰
- Android移動開發案例教程:基于Android Studio開發環境
- 單片機原理及應用技術
- Android技術內幕(系統卷)
- Wearable:Tech Projects with the Raspberry Pi Zero
- HTML5/CSS3/JavaScript技術大全
- MonoTouch應用開發實踐指南:使用C#和.NET開發iOS應用
- Flask Web開發實戰:入門、進階與原理解析