- 數據分析從入門到進階
- 陳紅波 劉順祥等
- 4369字
- 2019-11-12 14:03:52
1.3.1 三類統計分析策略
描述性統計分析、探索性統計分析和推斷性統計分析三類策略是一種循序漸進、由淺入深的分析步驟,從事數據分析需要掌握這三類源自統計學領域的統計分析策略。
1.描述性統計分析
描述性統計分析側重于對數據的描述,這種描述就相當于在闡述所看見的一幅圖畫。對數據的描述性統計,其實就是描述數據的特征,如數據的平均水平、數據的可行范圍、數據的波動分散程度等。通過描述性統計分析,可以使數據分析人員更好地掌握和理解數據,做到心中有“數”。描述性統計分析在數據分析過程中,既是基礎環節也是重要環節,基礎是因為它的操作非常簡單,重要是因為它是進行下一步數據分析工作的前提。
下面是一個描述性統計分析的例子。
老板可能會問:小王,幫我查一下9月份網站流量的基本數據。
那么問題來了,這個基本數據都會包含哪些內容呢?首先查看9月份的流量數據。如圖1-9所示,其中PV和UV分別代表頁面訪問量和用戶訪問量,即網站的訪問人次和訪問人數。如果你了解描述性統計分析,就可以將網站流量的基本數據展現在表格中。

圖1-9 待描述的網站流量數據
如表1-1所示,即為常用的基本統計指標,以PV為例,簡單解釋這7個指標的含義:9月份網站的日均訪問人次為41,072.87次,標準差為5,685.52,最少的一次訪問量為30,471次,該月中有四分之一天數的每天訪問人次在36791.5次以下,該月中有一半天數的每天訪問人次在42,529次以下,該月中有四分之三天數的每天訪問人次在44,643.25次以下,全月中最多的一次訪問量為49,847次。需要注意的是,表格中的下四分位數即統計學意義的25%分位點,上四分位則為統計學意義的75%分位點。
表1-1 統計描述的匯總結果

該案例就是一個典型的描述性統計分析,其實就是針對數據的統計結果做簡單的描述,表達出數據的統計特征。除此之外,還可以通過圖形的方式描述數據的內在規律。例如,需要統計某電商平臺在近一個月各支付渠道的支付比例,或者分析用戶年交易額的分布特征。通過餅圖和直方圖就可以很好地描述這兩個問題。
如圖1-10所示,電商的快捷支付占比最大,達到42%,占比第二的是微信支付,達到28%,兩者相差14%,貨到付款的比例最小,只有7.3%,該支付方式與其他支付方式的比例非常接近。

圖1-10 各支付方式的占比
如圖1-11所示,用戶的總交易金額存在嚴重的不平衡,交易額在2000元以內的用戶最多,且占到絕對優勢;幾乎所有用戶的交易額都在10000元以內,超過10000元的用戶只有零星點點;從數據的分布形態來看,存在嚴重的右偏特征(即長尾分布在右側)。圖中還繪制了兩條曲線,分別是實際分布曲線(即核密度曲線)和理論分布曲線(即正態密度曲線),通過兩條曲線的對比,發現它們的吻合度并不是很高,故進一步斷定該數據的分布并非正態分布。

圖1-11 用戶交易金額的直方圖
因此,描述性統計分析包括數據的頻數分析、數據的集中趨勢分析(如均值、中位數、眾數等)、數據離散程度分析(如標準差、極差、變異系數等)、數據的分布(如偏度值,峰度值等)以及一些基本的統計圖形(如餅圖、直方圖、箱線圖等)。在日常的學習或工作中,數據分析人員需要掌握這些基本的統計描述方法,進而可以很好地融入業務中,并了解業務的數據環境。
2.探索性統計分析
探索性統計分析主要用于數據分析過程中的探索,通過探索可以發現數據背后隱藏的內在規律和聯系,通常探索性統計分析還可以挖掘出數據中出現異常的原因。例如,需要研究某些變量之間是否存在一定的相關性,研究兩組樣本之間是否存在顯著的差異,探索企業內某指標(如曝光量、廣告點擊率、支付成功率、某支付渠道占比等)沒有達標的原因,探索企業內某指標在接下來的一段時間內將會有怎樣的變化趨勢等。
對于數據分析人員而言,探索性統計分析的策略在工作中的應用非常頻繁,因為通過該策略可以幫助分析人員了解數據中不易發現的內在價值和聯系。在絕大多數情況下,探索性統計分析都是借助于數據可視化的技術將問題的答案圖形化呈現,以便于直觀地發現數據中有意思的信息。
為使讀者更好地理解探索性統計分析的應用,這里舉三個通俗易懂的小例子:探索汽車的速度與剎車距離之間的關系;探索某電商的交易量在PC端和移動端之間的比例變化;探索泰坦尼克號男女乘客在一等艙內的票價是否存在差異。
對于探索兩變量之間的關系,最常用的方法就是繪制它們的散點圖,通過散點圖可以直觀地發現兩者之間的某種內在關系(如線性關系、非線性關系或無相關關系)。所以,在探索汽車的速度與剎車距離之間的關系時,不妨繪制散點圖來觀察兩者之間的關系,如圖1-12所示。

圖1-12 汽車速度與剎車距離的散點圖
圖1-12中,橫軸表示汽車的行駛速度,縱軸表示汽車的剎車距離。從圖中可知,隨著行駛速度的增加,剎車距離也在增加。所以,可以明確地得出,它們之間存在正相關的線性關系。那么,這種線性關系可否通過某個具體的數學函數來表達呢?答案是肯定的,這部分內容將涉及后文所介紹的推斷性統計分析。
通常在對比兩組或多組樣本之間的差異時,可以選擇統計學中的箱形圖(也稱為盒須圖,關于該圖形的具體介紹可以查看2.4.2節的內容),該圖形有兩大作用:一是可以方便地實現數據的對比;二是可以識別出數據中的異常樣本點。所以,在探索泰坦尼克號男女乘客在一等艙內的票價是否存在差異時,不妨選擇箱線圖來描述,如圖1-13所示。

圖1-13 男女乘客的票價箱線圖
圖1-13中橫軸表示乘客的票價,縱軸表示男女性別,在兩個箱線圖的中間箱體部位都有一個明顯的分界線,它是中位數(一種用于描述數據的中心化指標,即理解為整體水平)。從圖中可知,兩個箱線圖的中位數并沒有近似垂直對齊,說明男女乘客的票價存在顯著差異。而且從圖的最右側,也發現了一些樣本點,它們就是利用箱線圖技術識別出的異常點。很顯然,這是通過圖形的對比,得出兩者存在差異,那么有沒有定量的方式驗證男女性別在票價上存在顯著差異呢?答案仍然是肯定的,可以通過推斷性統計分析實現。
對于探索某電商的交易量在PC端和移動端之間的比例變化,可以選擇百分比堆疊條形圖,該圖形最大的特色是將所有的條形高度標準化到100%(即所有條形高度都是一樣的),然后可以對比內部比例的變化趨勢。如圖1-14所示,即為交易量在PC端和移動端在不同時間段上的比例差異。

圖1-14 PC端與移動端的占比趨勢
圖1-14中橫軸代表2014—2016年的各個季度,縱軸代表占比,圖形的上半部分代表移動端,下半部分代表PC端。借助于百分比堆疊條形圖,可以非常直觀地發現移動端的交易量在迅速擴張(即隨著移動互聯網的發展,用戶越來越青睞于選擇移動端完成網上的交易),由2014年第一季度的11.7%,發展到2016年第四季度的85.5%,短短的三年時間,發生了翻天覆地的變化。
3.推斷性統計分析
推斷性統計分析非常經典但相對較難。我們都知道,統計學實質上就是根據樣本的特征來推斷總體的情況。例如,借助于隨機抽樣的方法,從總體中抽出部分樣本,并根據樣本推斷出總體的平均水平(解決問題的方法是統計推斷中的均值檢驗);根據樣本的兩個屬性(即兩個變量),判斷屬性間是否存在相關性(需利用統計推斷中的相關系數檢驗或卡方檢驗);根據樣本的分布,判斷其總體是否服從正態分布(該問題的解決可以使用數據的正態性檢驗技術)。
相比于探索性統計分析,推斷性統計分析更加側重于尋找定量的答案,通常是計算統計量和對應的概率P值。如果概率P值小于0.05(默認的對比值),則需要拒絕原假設(原假設即假設事件成立的情況,如樣本均值等于某個值,兩屬性之間不相關,樣本服從正態分布),反之需要接受原假設。
為使讀者掌握推斷性統計分析的方法,接下來通過幾個小的例子加以說明:通過t檢驗推斷兩樣本之間的均值是否存在差異;通過卡方檢驗與Pearso相關性檢驗推斷樣本的兩個屬性是否不相關;通過Shapiro正態性檢驗推斷樣本是否服從正態性分布。
(1)t檢驗
t檢驗也稱為均值檢驗,即通過該檢驗方法可以驗證樣本的均值是否滿足某個常數或者兩樣本之間的均值是否存在差異。假設如表1-2所示的數據為某品牌充電寶電容量的抽樣數據,為檢驗該品牌充電寶是否滿足其宣傳的5000毫安容量的說法,需要借助于t檢驗的工具(基于Python):
表1-2 充電寶電容量數據

1)提出原假設與備擇假設。
● H0:樣本均值為5000毫安(原假設)。
● H1:樣本均值不為5000毫安(備擇假設)。
2)計算統計量。

結果顯示,t檢驗的所得的統計量為-0.694。如果單從該統計量的值,并不能直接得出樣本是否滿足均值為5000毫安的說法,所以需要進一步比較概率P值。
3)對比概率P值,下結論。

結果顯示,概率P值為0.502,大于0.05的閾值,說明不能拒絕原假設,即認為樣本均值為5000毫安的說法是正確的,也就是說該品牌的充電寶符合其宣傳的電容量5000毫安的說法。
(2)卡方檢驗與Pearson相關性檢驗
卡方檢驗用于驗證兩個離散型變量之間的獨立性,而Pearson相關性檢驗則用于驗證兩個數值型變量之間的獨立性。圖中為兩組數據(部分):一組是關于高三某班級學生的性別與其是否被錄取的數據(如圖1-15所示);另一組是關于汽車速度與剎車距離的數據(如圖1-16所示)。

圖1-15 學生錄取表

圖1-16 汽車信息表
首先通過卡方檢驗對學生性別與其是否被錄取進行相關性分析。步驟如下(仍然基于Python):
1)提出原假設與備擇假設。
● H0:學生的性別與其是否被錄取相互獨立。
● H1:學生的性別與其是否被錄取不相互獨立。
2)計算統計量。

結果顯示,卡方檢驗的統計量為4.86,可以進一步借助于概率P值得到明確的判斷結果。
3)對比概率P值,下結論。

結果顯示,概率P值為0.028,小于0.05的閾值,說明應該拒絕原假設,即認為學生的性別與其是否被錄取是相關的。
接下來通過Pearson相關性檢驗分析汽車速度與剎車距離的相關性。具體步驟如下:
1)提出原假設與備擇假設。
● H0:汽車速度與剎車距離不相關。
● H1:汽車速度與剎車距離相關。
2)計算統計量。

結果顯示,汽車速度與剎車距離之間的Pearson相關系數為0.807,說明兩者之間存在很強的相關性,為進一步驗證這個結論,可以計算概率P值。
3)對比概率P值,下結論。

結果顯示,概率P值遠小于0.05,說明需要拒絕原假設,即認為汽車速度與剎車距離之間強相關性是正確的。
(3)Shapiro正態性檢驗
對于樣本的正態性檢驗,可以使用Shapiro檢驗方法(通常要求樣本數量在5000以內,如果樣本量在5000以上,可以使用KS檢驗方法)。不妨以Titanic乘客的年齡數據為例,驗證其是否服從正態性分布。
1)提出原假設與備擇假設。
● H0:乘客的年齡數據服從正態性分布。
● H1:乘客的年齡數據不服從正態性分布。
2)計算統計量。

結果顯示,Shapiro檢驗的統計量為0.981,但看該值,無法直接得出檢驗的結論,故仍然需要結合概率P值才能夠明確地下結論。
3)對比概率P值,下結論。

結果顯示,概率P值遠小于0.05,故需要拒絕原假設,即Titanic乘客的年齡并不服從正態性分布。
所以,在數據分析過程中,通常要對數據做如上的探索和研究,一方面通過探索方法,讓分析人員能夠對數據做到心中有“數”,了解數據呈現的特征和規律;另一方面通過深入研究,讓隱藏在數據背后的價值淋漓盡致地展現在數據分析人員的面前,進而基于數據分析的結果,為下一步的決策提供有力依據。
- Learning Single:page Web Application Development
- Oracle從入門到精通(第3版)
- HoloLens Beginner's Guide
- CentOS 7 Linux Server Cookbook(Second Edition)
- Python GUI Programming Cookbook
- GameMaker Programming By Example
- Node.js Design Patterns
- Swift Playgrounds少兒趣編程
- MySQL入門很輕松(微課超值版)
- 深入實踐Kotlin元編程
- PHP與MySQL權威指南
- Oracle 12c從入門到精通(視頻教學超值版)
- Web編程基礎:HTML5、CSS3、JavaScript(第2版)
- Mastering Apache Camel
- DB2SQL性能調優秘笈