書名: 精益數據分析:數據驅動商業決策與業務增長作者名: 石強本章字數: 1406字更新時間: 2024-06-06 18:49:02
1.4 數據分析技術方法
結合業務理解和分析經驗,采用一定的數據分析技術方法對數據進行分析,才能獲得準確的結果以解決業務問題。業務人員掌握和使用基本的數據分析方法即可。復雜業務場景或復雜數據處理會涉及有一定技術難度的分析技術方法,這類場景中的數據分析通常需要數據專業技能人員參與。數據分析中的各種技術方法僅僅是工具和手段。利用數據分析方法進行業務分析時,關鍵是將業務邏輯轉化為數據邏輯。
數據分析技術方法分為3個層次:描述型統計分析、驗證型統計分析和預測型統計分析。描述型統計分析通過數據統計特征、數據表或圖形等,對業務中蘊含的數據規律進行量化描述,側重于展示信息。驗證型統計分析是通過分析方法或模型對既定假設進行驗證和評估,側重對數據結論和結果的準確性校驗。預測型統計分析是利用模型發現的內在規律對關鍵數據變量進行預測,該數據變量會影響分析結論。
常見的基本數據技術分析方法包括分組分析法、對比分析法、漏斗分析法、下鉆分析法、象限分析法、歸因分析法、數學公式分析法等,概要說明如下。
? 分組分析法是依據分析對象的某個特征或維度進行分組,對不同組的指標進行分析,比如不同年齡段人群的平均身高數據是依據年齡維度進行分組。分組分析法通常需要結合對比分析法使用。
? 使用對比分析法時,要注意縱向和橫向維度的比對,比如不同業務的相同指標參考基準等。
? 漏斗分析法通常用于鏈路轉化評估分析,通過將業務的重要環節進行串接,分析每個環節的影響和轉化情況,可用于互聯網用戶行為分析。
? 下鉆分析法其實是對維度層級拆解,拆解到能夠定位問題的子維度以進行深入分析。
? 象限分析法是將多個數據指標排在一起進行分析,將定量的指標提煉成定性的總結分析,在不同象限上直觀反映出來。四象限分析就是典型的象限分析法。
? 歸因分析法和數學公式分析法的用途較廣,它們能夠表達出復雜的數據邏輯,可以將各種因素都考慮到,同時每個因子也可以進行下一層級的拆解和表達。
數據分析技術方法中對數據的表達和分析經常會用到數據的統計量特征,比如均值、中位數、眾數、標準差、方差、百分位數等,有時還會通過概率分布(比如高斯分布、幾何分布、二項分布、泊松分布等)來表達數據中蘊含的規律信息。具有一定技術深度的經典數據分析方法如下。
? 抽樣分析:主要包括隨機抽樣、系統抽樣和分層抽樣。
? 相關分析:利用Pearson相關系數分析出兩個變量間的關系(包括強度和方向),可用于關聯分析和挖掘。通常,Pearson相關系數大于或等于0.8可認為兩者高度相關,低于0.3則認為兩者不相關。
? 主成分分析:利用正交降維,減少特征和數據量,精練地表達數據信息。
? 因子分析:利用協方差提取數據中的共性因子。
? 聚類分析:通過計算歐式距離,利用聚類算法對數據進行聚類,屬于無監督的機器學習方法。
? 假設檢驗:利用卡方檢驗、正態分布檢驗來驗證兩個數據集是否存在顯著性差異,也叫顯著性檢驗,用于兩種數據的驗證分析,比如產品改版前后某個關鍵指標的變化。
? 回歸分析:驗證數據間是否存在某種線性或非線性規律,并提取出來。
? 分類分析:依據數據特征將其分類,獲得分類的數學模型,屬于有監督的機器學習方法。
可以發現,在上述分析技術方法中,相關分析、假設檢驗等屬于驗證型方法,回歸分析和分類分析屬于預測型分析。不論采用簡單的數據分析技術方法,還是采用具有一定技術深度的數據分析技術方法,一定是建立在業務邏輯之上。在數據上能夠準確地表達出業務邏輯,才能發現問題并解決問題。