- 數據分析從入門到進階
- 陳紅波 劉順祥等
- 1189字
- 2019-11-12 14:04:04
2.3.2 描述性統計分析
在對一組數據進行分析之前,需要對數據進行描述性統計分析,以了解不同變量的分布情況,然后再進行深入分析。描述性統計分析要對調查總體所有變量的有關數據進行統計性描述,主要包括數據的頻數分析、集中趨勢分析、離散程度分析、數據分布以及一些基本的統計圖形。
(1)描述性統計分析的作用
● 頻數分析。利用頻數分析和交叉頻數分析可以檢驗異常值。
● 趨勢分析。用來反映數據的一般水平,常用的指標有平均值、中位數和眾數等。
● 離散程度分析。用來反映數據之間的差異程度,常用的指標有方差和標準差。
● 數據分布。利用偏度和峰度兩個指標來檢查樣本數據是否符合正態分布。
● 圖形繪制。用圖形的形式來表達數據,比用文字表達更清晰、更簡明。
(2)案例分析
某網站平臺的專題運營活動結束后,需要對活動期間的登錄用戶數和付費金額(單位:元)的平均值、最大最小值等進行統計,作為分析每天登錄人數和付費金額的價值以及數據波動的一個衡量的依據。要求得到平均值、標準誤差(相對于平均值)、中值、眾數、標準偏差等統計指標。活動期間登錄用戶數和付費金額數據如表2-22所示。
表2-22 登錄用戶數和付費金額表

(3)操作步驟
1)單擊“數據|分析|數據分析”,在“數據分析”對話框中選擇“描述統計”選項,然后單擊“確定”按鈕。
2)如圖2-141所示,在“描述統計”對話框進行參數設置,輸入區域選擇登錄用戶數和付費金額所屬區域$B$1:$C$11(包含標題),勾選“標志位于第一行”選項,輸出區域選擇單元格$F$2,勾選“匯總統計”“平均數置信度”“第K大值”“第K小值”選項。

圖2-141 “描述統計”對話框
3)登錄用戶數和付費金額的描述性統計結果如圖2-142所示。

圖2-142 “描述統計”分析結果
(4)描述性統計的指標解釋
匯總統計的指標包括平均值、標準誤差、中位數、眾數、標準差、方差、峰值、偏度、區域、最小值、最大值、求和、觀測數、最大K值、最小K值和置信度等指標。
● 平均值:一組數據之和除以數據的個數。
● 標準誤差:標準差除以樣本容量的開平方來計算的。
● 中位數:排序后位于中間的數據的值。
● 眾數:出現次數最多的值。
● 標準差:各個數據分別與其平均數之差的平方的和的平均數的平方根。標準差是反映一組數據離散程度最常用的一種量化形式,是表示精確度的重要指標。
● 方差:各個數據分別與其平均數之差的平方的和的平均數。
● 峰值:衡量數據分布起伏變化的指標,以正態分布為基準,比其平緩時值為正,反之則為負。
● 偏度:衡量數據峰值偏移的指數,根據峰值在均值左側或者右側分別為正值或負值。● 區域:最大值與最小值的差值。
● 最小值:一組數據中的值最小的數據。
● 最大值:一組數據中的值最大的數據。
● 求和:一組數據中所有數據的和。
● 觀測數:一組數據中所有數據的個數。
● 第K大(小)值:輸出表的某一行中包含每個數據區域中的第K個最大(小)值。
● 置信度:總體均值區間估計的置信度。95%指的是總體均值有95%的可能性在計算出的區間中。
- AngularJS Web Application Development Blueprints
- Windows Forensics Cookbook
- Asynchronous Android Programming(Second Edition)
- Yii Project Blueprints
- 詳解MATLAB圖形繪制技術
- Python網絡爬蟲技術與應用
- Java Web從入門到精通(第2版)
- Practical Predictive Analytics
- C#面向對象程序設計(第2版)
- 你真的會寫代碼嗎
- 用Python動手學統計學
- 輕松學Scratch 3.0 少兒編程(全彩)
- Enterprise Application Architecture with .NET Core
- 數據結構與算法詳解
- C/C++程序設計教程