官术网_书友最值得收藏!

1.3 數據分析方法

數據分析是從數據中提取有價值的信息的過程,過程中需要對數據進行各種處理和歸類,只有掌握了正確的數據分析方法,才能起到事半功倍的效果。

數據分析方法一般分為:描述性數據分析、探索性數據分析和驗證性數據分析,如圖1-1所示。其中,描述性數據分析是最基礎、最初級的,例如,本月收入增加了多少、客戶增加了多少、哪個單品銷量好都屬于描述性數據分析。而探索性數據分析側重于發現數據的規律和特征,例如有一份數據,你對它完全陌生,又不了解業務情況,會不會感覺無從下手?如果你什么都不管,直接把數據塞進各種模型,卻發現效果并不好,這時就需要先進行數據探索,找到數據的規律和特征,知道數據里有什么沒有什么。驗證性數據分析就是已經確定使用哪種假設模型,通過驗證性數據分析來對你的假設模型進行驗證。后兩者是比較高級的數據分析。

數據分析方法

圖1-1 數據分析方法的類別

數據分析方法從技術層面又可分為三種:統計分析類,以基礎的統計分析為主,包括對比分析法、同比分析法、環比分析法、定比分析法、差異分析法、結構分析法、因素分析法、80/20法則等;高級分析類,以建模理論為主,包括回歸分析法、聚類分析法、相關分析法、矩陣分析法、判別分析法、主成分分析法、因子分析法、對應分析法、時間序列分析法等;數據挖掘類,以機器學習、數據倉庫等復合技術為主。下面將重點介紹幾個常用的數據分析方法。

1.3.1 對比分析法

對比分析法是對客觀事物進行比較,以達到認識事物的本質和規律的目的并做出正確的評價。對比分析法通常是把兩個相互聯系的指標數據進行比較,從數量上展示和說明研究對象規模的大小、水平的高低、速度的快慢及各種關系是否協調。

對比分析法一般來說有以下幾種方法:縱向對比、橫向對比、標準對比、實際與計劃對比。例如,淘寶2018年上半年每月銷售情況對比分析,如圖1-2所示。

圖1-2 每月銷售情況對比分析圖

1.3.2 同比分析法

同比分析法是按照時間即年度、季度、月份、日期等進行擴展,用本期實際發生數與同口徑歷史數字相比,產生動態的相對指標,用以揭示發展水平以及增長速度。

同比分析法主要是為了消除季節變動的影響,用以說明本期水平與往年同期水平對比而達到的相對值。例如,本期1月比去年1月、本期2月比去年2月等。在實際工作中,經常使用這個指標,如某年、某季、某月與上年同期(年、同季度或同月)相比的發展速度,也就是同比增長速度,公式如下:

同比增長速度=(本期-往年同期)/往年同期×100%

例如,2017年和2018年兩年1月至6月銷量情況對比,如圖1-3所示,同比增長速度如圖1-4所示。

圖1-3 本期、同期銷量情況對比

圖1-4 同比增長速度圖

1.3.3 環比分析法

環比分析是報告期水平與前一時期水平之比,表明現象逐期的變化趨勢。如果計算一年內各月與前一個月對比,即1月比去年12月,2月比1月,3月比2月……,6月比5月,說明逐月的變化程度。本期數據與上期數據比較,形成時間序列圖。環比增加速度公式如下:

環比增長速度=(本期-上期)/上期×100%

例如,2018年1月至6月本月(本期)與上個月(上期)銷量情況環比分析如圖1-5所示,按月環比增長速度如圖1-6所示。

圖1-5 本期與上期環比分析圖

圖1-6 環比增長速度圖

1.3.4 80/20法則

80/20法則,又稱二八法則、帕累托法則、帕累托定律、最省力法則或不平衡原則。此法則是由意大利經濟學家帕累托提出的。80/20法則認為:原因和結果、投入和產出、努力和報酬之間本來存在著無法解釋的不平衡。

例如,80%的收入僅來自于20%最暢銷的產品。下面是全彩系列圖書2018年上半年收入占80%的產品,效果如圖1-7所示。通過該分析結果可以考慮對這部分產品加大投入、重點宣傳。

圖1-7 全彩系列圖書2018年上半年收入占80%的產品

80/20法則僅僅是一個比喻和實用基準。真正的比例不一定正好是80%∶20%。80/20法則表明在多數情況下該關系很可能是不平衡的,并且接近于80/20。

1.3.5 回歸分析法

回歸分析法多用于統計分析和預測。它研究變量之間的相關關系以及相互影響程度,通過建立自變量和因變量的方程,研究某個因素受其他因素影響的程度或用來預測。回歸分析法有線性和非線性回歸、一元和多元回歸之分。常用的回歸有一元線性和多元線性回歸方程。

一元線性回歸方程是以X為自變量,Y為因變量的一元線性方程。例如以廣告費為因變量,以銷售收入為自變量,分析廣告費對銷售收入的影響程度,以及對未來銷售收入的預測。

多元線性回歸方程是當自變量有兩個或多個時,研究因變量Y和多個自變量1X,2X,…,nX之間的關系。例如,考慮多個因素影響銷售收入時,銷售收入為因變量,滿減、打折、季節變化等指標為自變量,分析這些因素對銷售收入的影響程度,以及對未來銷售收入的預測。

建立一個回歸分析一般要經歷這樣一個過程:先收集數據,再用散點圖確認關系,然后利用最小二乘法或其他方法建立回歸方程,檢驗統計參數是否合適,進行方差分析或殘差分析,優化回歸方程。

例如,通過預支廣告費(60000元)預測銷售收入,首先根據以往廣告費(X實際)和銷售收入(Y實際)形成散點圖,然后使用最小二乘法建立一元線性回歸方程擬合出一條回歸線來預測銷售收入,如圖1-8所示。

圖1-8 一元線性回歸分析圖

1.3.6 聚類分析法

聚類分析法多用于人群分類和客戶分類。所謂聚類是一個將數據集中在某些方面相似的數據成員進行分類組織的過程(即將相似數據并成一組),聚類就是一種發現這種內在結構的技術。聚類的意思就是把一個大數據集按照某種距離計算方式,分成若干個分類。其中每個分類內的差異性要比類與類之間的差異性小很多。

聚類與分類分析不同,它所劃分的類是未知的。因此,聚類分析也稱為無指導或無監督的學習。它是一門靜態數據分析技術,在許多領域受到廣泛應用,包括機器學習、數據挖掘、模式識別、圖像分析以及生物信息。

例如,客戶價值分析中對客戶進行分類(根據業務需要分為4類),其中的某一類客戶如圖1-9所示。

1.3.7 時間序列分析法

時間序列分析法多用于統計和預測。它是按照時間的順序把隨機事件變化發展的過程記錄下來構成一個時間序列,并對這個時間序列進行觀察、研究,找出它變化發展的規律,預示它將來的走勢。

時間序列分析法可分為描述性時序分析法和統計時序分析法。描述性時序分析法是通過直觀的數據比較或繪圖觀測,尋找序列中蘊含的發展規律。例如,某淘寶店鋪近兩年增長趨勢和季節波動趨勢,如圖1-10和圖1-11所示。從圖中可以看出近兩年該淘寶店鋪的收入持續穩定增長,而季節性波動比較明顯。

圖1-9 聚類分析

圖1-10 增長趨勢

圖1-11 季節波動趨勢

統計時序分析法的原理是:根據系統觀察得到的時間序列數據,通過曲線擬合和參數估計來建立數學模型的理論和方法,一般使用自回歸移動平均模型ARMA(pq),它是時間序列中最為重要的模型之一,主要由兩部分組成:AR代表p階自回歸過程,MA代表q階移動平均過程。

統計序列分析法常用于國民經濟宏觀控制、市場潛力預測、氣象預測、農作物害蟲災害預報等方面。

主站蜘蛛池模板: 高青县| 正安县| 邳州市| 措勤县| 永寿县| 易门县| 乌鲁木齐市| 广州市| 霸州市| 岚皋县| 临颍县| 宁波市| 东港市| 玉门市| 雷州市| 本溪市| 内黄县| 大同市| 陵川县| 柘荣县| 旺苍县| 保德县| 依安县| 庆安县| 偃师市| 阿图什市| 彭泽县| 云安县| 商南县| 昭通市| 志丹县| 吉林市| 衡山县| 视频| 连云港市| 德惠市| 石楼县| 平遥县| 成武县| 富裕县| 汉沽区|