- Python數據分析與可視化(微課版)
- 李俊吉 宋祥波主編
- 1816字
- 2024-06-20 18:21:54
1.2 數據分析的常用方法
通常數據分析師在做數據分析時會依賴一些特定的方法去分析一組數據,而不是“隨心所欲”,采用這些方法能帶來清晰的思路和相對準確的結果。常用的方法包括5W1H分析法、邏輯樹分析法、對比分析法、群組分析法等。
1.2.1 5W1H分析法
5W1H,即為什么(Why)、什么事(What)、誰來做(Who)、什么時候(When)、什么地方(Where)、如何做(How)。5W1H分析法廣泛應用于企業管理、生產活動、教學科研等方面,這種思維方法極大地方便了人們的工作、生活。5W1H分析法如圖1.2所示。

圖1.2 5W1H分析法
以商品的出售為例,5W1H分析內容如下。
售賣什么商品?(What)
在哪里售賣這些商品?(Where)
什么時候售賣這些商品?(When)
哪些人員負責售賣這些商品?(Who)
為什么要售賣這些商品?(Why)
如何售賣這些商品?(How)
1.2.2 邏輯樹分析法
邏輯樹,又稱為麥肯錫邏輯樹、問題樹、演繹樹或分解樹,其最大的優勢在于將繁雜的數據分析工作細分為多個關系密切的部分,不斷地分解問題,幫助人們在紛繁復雜的現象中找出關鍵點,推動問題的解決。
邏輯樹分析法的形式就像是一棵樹,如圖1.3所示,需要把問題比作樹干,然后考慮與已知問題有關的子問題和任務,把這些子問題比作樹枝,所以邏輯樹分析法就是由一個大問題不斷延伸出一個又一個的小問題,逐步對問題的分析思路產生一個清晰明了的認知。

圖1.3 邏輯樹分析法
在運用邏輯樹分析法時,可從上至下、從左至右地先畫出主干,簡要分析其內容,然后依次畫出主要分支,再畫出細節分支。原則上,其可以劃分出任意層級,但一般情況下不要超過3層。超過3層的邏輯樹,一般來說需要從中間斷開,單獨分析。
邏輯樹最經典的案例就是費米問題。費米問題因美國科學家恩利克·費米(Enrica Fermi)而得名,通常會被用來檢驗一個人是否具備理科思維,或是否具有問題拆解的能力。有人曾經問科學家費米:“芝加哥有多少鋼琴調音師?”為了保證琴音的準確性,需要定期由專業人員檢查,調整不準確的音,從事這類工作的人被稱為鋼琴調音師。通過邏輯樹分析法進行問題的拆解,可將“芝加哥有多少鋼琴調音師”這個問題拆解為2個子問題,如圖1.4所示。

圖1.4 第一次拆解
第一個子問題“全部鋼琴調音師一年的總工作時長”可拆解為3個子問題,如圖1.5所示。
其中,“芝加哥有多少架鋼琴”又可拆解成2個子問題,如圖1.6所示。
通過查詢,芝加哥人口大約有250萬,由于鋼琴不是普通家庭能夠添置的物件,因此,鋼琴的人均擁有比例是較低的,再考量學校等機構擁有的鋼琴數量,估算其為2%。

圖1.5 第二次拆解

圖1.6 第三次拆解
鋼琴平均每年調音的次數估算為一次,調一次音需要的時間估算為2小時,如圖1.7所示。

圖1.7 解決子問題
由此可以推算出第一個子問題的答案:全部鋼琴調音師一年的總工作時長=250萬×2%×2小時=10萬小時。接下來回到第二個子問題“一位鋼琴調音師每年的工作時間”,如圖1.8所示。一個人每天工作時長約為8小時,一年約50個星期,一星期工作5天,8×5×50=2000,減去路程上損耗的20%的時間,一位鋼琴調音師每年工作的實際時間是1600小時。

圖1.8 第四次拆解
芝加哥有多少鋼琴調音師?最終的結果為100000÷1600≈63(人)。
在后來的調查中,費米找到了一份芝加哥的鋼琴調音師名錄,上面記錄了83名調音師,但是有不少名字是重復的,可見費米估計的人數是十分接近事實的。
1.2.3 對比分析法
對比分析法就是將兩個或者兩個以上的數據進行比較,進而發現數據之間差異和規律的方法。對比包括絕對對比和相對對比。絕對對比是指絕對數據之間的比較,如用戶數、訪問量、下單量、注冊量等。相對對比是指相對數據之間的比較,如轉化率、留存率、沉默率、下單率、注冊率等。
從不同的對比視角,可以歸納出如下常見的對比場景:時間對比,包括同比、環比、變化趨勢等;空間對比,包括不同城市的對比、不同類別的對比、不同渠道的對比等;用戶對比,包括新用戶與老用戶對比、登錄用戶與未登錄用戶對比、高黏性用戶與低黏性用戶對比、活躍用戶與不活躍用戶對比等;轉化對比,包括不同渠道轉化對比、不同類別轉化對比、不同活動轉化對比等。在實際分析過程中需要針對不同情況采用不同的對比場景。
1.2.4 群組分析法
群組分析法就是按某個特征對數據進行分組,通過分組比較得出結論的方法。群組分析法通常有3個步驟:數據分組、假設檢驗和相關性分析。
以日常生活中的某品牌共享單車用戶為例進行群組分析。首先對該品牌共享單車的用戶進行分組整合,將用戶分為注冊用戶和未注冊用戶;然后將注冊用戶按照注冊時間、年齡段等分為相應的組;最后對不同組的用戶做對應的數據分析,產生可視化圖表。