- Python電商數(shù)據(jù)分析實戰(zhàn)(微課版)
- 陳海城編著
- 4039字
- 2024-03-14 11:20:50
1.4 數(shù)據(jù)分析的核心理論基礎——統(tǒng)計學
統(tǒng)計學是數(shù)據(jù)分析領域十分重要的理論基礎,數(shù)據(jù)分析的主要思想和方法論便來源于統(tǒng)計學。
統(tǒng)計學是關于認識客觀現(xiàn)象總體數(shù)量特征和數(shù)量關系的科學,是通過搜集、整理、分析、統(tǒng)計資料,認識客觀現(xiàn)象數(shù)量規(guī)律性的方法論科學。由于統(tǒng)計學的定量研究具有客觀、準確和可檢驗的特點,因此統(tǒng)計方法就成為實證研究的最重要的方法,廣泛適用于自然、社會、經(jīng)濟、科學技術等領域的分析研究。
1.4.1 統(tǒng)計學的來源及特點
統(tǒng)計學是一門很古老的科學,起源于對社會經(jīng)濟問題的研究。一般認為其學理研究始于古希臘的亞里士多德時代,迄今已有兩千三百多年的歷史。
統(tǒng)計學(Statistics)最早是由德國國勢學派的阿亨瓦爾(Gottfried Achenwall)于1749年使用的,代表對國家的資料進行分析的學問,也就是“研究國家的科學”。19世紀,人們在廣泛的數(shù)據(jù)及資料中探究統(tǒng)計學的意義,由美國人辛克萊爾(John Sinclair)將“統(tǒng)計學”引進英語世界。
統(tǒng)計的研究對象是客觀現(xiàn)象的總體數(shù)量特征和數(shù)量關系。統(tǒng)計研究不同于其他學科的研究,是因為它有以下獨特的研究特點。
(1)統(tǒng)計離不開數(shù)據(jù),一切用數(shù)據(jù)說話。
(2)統(tǒng)計的最終目的是研究總體,而不是研究個體,通過尋找事物的共性,掌握事物的規(guī)律。
(3)統(tǒng)計以顯示客觀事物獨立存在的實際情況為目的,數(shù)據(jù)反映的是事物的真相,統(tǒng)計學則是揭開真相的工具。
1.4.2 統(tǒng)計的基本概念
1.統(tǒng)計總體與總體單位
(1)統(tǒng)計總體。統(tǒng)計總體就是根據(jù)一定的目的和要求所確定的研究事物的全體,它是由客觀存在的、具有某種共同性質(zhì)的許多個別事物構成的整體。
(2)總體單位。總體單位,是指構成統(tǒng)計總體的各個個體單位。但總體單位必須是現(xiàn)實生活中存在的個體,不能是虛構的或抽象的事物。
(3)總體的特征。統(tǒng)計總體必須同時具有同質(zhì)性、大量性和變異性三大特征。
① 同質(zhì)性。同質(zhì)性,是指構成總體的每一個個體單位雖然在許多方面存在差異,但至少在一個方面必須保持相同的性質(zhì)。同質(zhì)性是統(tǒng)計總體形成的基礎,構成總體的各個個體單位在某一性質(zhì)上必須是相同的。
② 大量性。大量性,是指總體由足夠多的單位構成,只有個別或少數(shù)的事物不足以構成總體,這是由統(tǒng)計的研究對象決定的。統(tǒng)計的研究對象是客觀現(xiàn)象的數(shù)量特征和數(shù)量關系,少量事物所表現(xiàn)出來的特征往往帶有偶然性,客觀現(xiàn)象數(shù)量方面的規(guī)律性只有在大量事物個別特征的匯總中才能顯示出來,表現(xiàn)出共同的傾向,方便人們從中認識到事物的必然性。
③ 變異性。變異性,是指同一總體的各個個體單位除了具有某種或某些共同的性質(zhì)外,在很多方面是存在差異的,這種差異稱為變異。如果總體中的每個個體在各方面都一樣,就沒有了統(tǒng)計的必要,正是因為變異的普遍存在,才有必要進行統(tǒng)計調(diào)查和分析,以尋求總體的一般規(guī)律性。
(4)總體的分類。按照總體單位是否可數(shù),總體分為有限總體和無限總體。有限總體規(guī)模和范圍相對較小,是由有限的個別事物構成的總體。無限總體包括的個別事物很多,以致無法計量。
(5)總體與總體單位的關系。總體和總體單位不是固定不變的,它們會隨著統(tǒng)計研究的目的不同而變化。一個事物在一種情況下是總體,但在另一種情況下有可能就變成了總體單位。
2.標志和標志表現(xiàn)
(1)標志。標志是說明總體單位的特征或?qū)傩缘拿Q。每個總體單位從不同方面考察,都有許多屬性和特征。
標志與總體單位的關系是十分明確的,如果沒有標志就無法表現(xiàn)總體單位的特征,如果沒有總體單位,標志也就失去了意義。
(2)標志表現(xiàn)。標志表現(xiàn),是指標志特征在各單位的具體表現(xiàn)。統(tǒng)計標志是統(tǒng)計所要調(diào)查的項目,標志表現(xiàn)是調(diào)查的結果,是標志的實際體現(xiàn)。
3.指標
(1)概念。指標,是指同類社會經(jīng)濟現(xiàn)象總體在一定的時間、地點條件下的綜合數(shù)量表現(xiàn)。
例如:2021年某網(wǎng)站“雙十一”,截止到2021年11月11日23:59:59,活動總銷售額為5403億元。
(2)構成要素。由對上例的分析,引出指標的指標名稱、指標數(shù)值、時間范圍、空間范圍、計算方法和計量單位6個構成要素。
(3)性質(zhì)。
① 具體性。總體在具體時間、地點、條件下的數(shù)量特征,即統(tǒng)計指標——質(zhì)的規(guī)定性(事物本身就必須具有的應有之義)。
② 綜合性。對總體數(shù)量特征的綜合說明是由個體數(shù)量綜合而來的,如平均價格=∑每個商品的價格÷全部商品數(shù)。
③ 數(shù)量性。統(tǒng)計指標是數(shù)量范疇,沒有無數(shù)量的指標。
(4)分類。指標按性質(zhì)可分為以下兩種。
① 數(shù)量指標。反映社會經(jīng)濟現(xiàn)象的總規(guī)模和總水平的指標,表現(xiàn)形式為絕對數(shù),如商品銷售額、店鋪轉(zhuǎn)化率、消費者好評率等。
② 質(zhì)量指標。說明社會經(jīng)濟現(xiàn)象的相對水平或平均水平的指標,表現(xiàn)形式為相對數(shù)或平均數(shù)。通常是由兩個總量指標對比派生出來的,反映現(xiàn)象之間的內(nèi)在聯(lián)系和對比關系,如行業(yè)平均轉(zhuǎn)化率、流量價值等。
指標按數(shù)值表現(xiàn)形式可分為以下3種。
a.總量指標。反映總體規(guī)模,通常以絕對數(shù)的形式表現(xiàn),如人口總數(shù)、國內(nèi)生產(chǎn)總值等。
b.相對指標。兩個絕對數(shù)之比,也稱為相對數(shù),如計劃完成程度、男女生的比例等。
c.平均指標。反映總體在某一時間或空間上的平均數(shù)量狀況,如人均消費水平、某店鋪一周的平均客單價、平均轉(zhuǎn)化率等。
(5)指標和標志的關系。
① 區(qū)別。指標是說明總體數(shù)量特征的概念,而標志是說明總體特征的概念;指標都是用數(shù)值表示的,而標志有的是用數(shù)值表示的,有的是用文字表示的。
② 聯(lián)系。
a.許多統(tǒng)計指標是由各單位的數(shù)量標志值匯總而來的,如一個縣的糧食總產(chǎn)量是該縣各鄉(xiāng)鎮(zhèn)糧食產(chǎn)量的合計數(shù)。
b.指標和標志之間存在轉(zhuǎn)化關系,在一定的條件下(研究目的的調(diào)整),指標和標志之間可以相互轉(zhuǎn)化,當研究目的發(fā)生轉(zhuǎn)化后,原來的總體轉(zhuǎn)化為總體單位,統(tǒng)計指標也就變?yōu)閿?shù)量標志了,反之亦然。
1.4.3 統(tǒng)計的工作過程
1.統(tǒng)計的工作過程
(1)統(tǒng)計設計。開展統(tǒng)計工作的初期需要根據(jù)統(tǒng)計研究對象的性質(zhì)及統(tǒng)計的任務、目的,對統(tǒng)計工作的各方面和各環(huán)節(jié)進行通盤考慮和全面安排,通過制訂切實可行的方案來指導實際工作。換句話說,就是要先把問題想清楚,圍繞著如何解決問題來設計統(tǒng)計工作。在這個過程中可以把所需的數(shù)據(jù)種類及要求梳理清楚。
(2)統(tǒng)計調(diào)查。根據(jù)設計方案的要求,有計劃、有組織地搜索客觀現(xiàn)象的第一手資料。
(3)統(tǒng)計整理。統(tǒng)計整理是統(tǒng)計調(diào)查的繼續(xù),它是運用科學的方法對調(diào)查資料進行匯總、整理,使之條理化、系統(tǒng)化的工作過程。
(4)統(tǒng)計分析。統(tǒng)計分析在統(tǒng)計工作中必不可少,它是在統(tǒng)計整理的基礎上,借助統(tǒng)計分析工具對統(tǒng)計資料進行綜合分析,通過統(tǒng)計分析可以揭示所研究的客觀現(xiàn)象的數(shù)量特征、內(nèi)在聯(lián)系和客觀現(xiàn)象發(fā)展變化的本質(zhì)規(guī)律,必要時還可以對客觀現(xiàn)象進行預測。
2.實務中的工作過程
在現(xiàn)實工作中需要頻繁使用到統(tǒng)計的工作流程,例如:通過商品搜索結果分析市場份額,過程如下。
(1)統(tǒng)計設計。由于電商平臺中的商品數(shù)遠大于展現(xiàn)在頁面中的商品數(shù),如連衣裙商品有一千多萬的商品數(shù),但展現(xiàn)在消費者面前的搜索結果最多只有4400個商品。因此只能通過抽樣的方法來估算市場,按銷量由多到少排序,抽取銷量排名前4400名的商品作為研究樣本。
(2)統(tǒng)計調(diào)查。使用工具或者自行編寫爬蟲獲取搜索結果中銷量排名前4400名的商品信息。
(3)統(tǒng)計整理。對采集的數(shù)據(jù)進行整理、過濾異常值、處理缺失值等操作,并將數(shù)據(jù)整理成可供分析的結構。
(4)統(tǒng)計分析。根據(jù)分析的維度分類匯總數(shù)據(jù),基于分類結果獲取統(tǒng)計意義。
1.4.4 統(tǒng)計的研究方法
1.大量觀察法
大量觀察法是統(tǒng)計研究的特有方法,只有在大量觀察的基礎上,才能消除偶然的數(shù)值差異所產(chǎn)生的影響。也只有在大量觀察的基礎上形成的總體平均數(shù),才能顯示總體的一般水平和發(fā)展變化規(guī)律。僅憑少數(shù)資料或短時間的數(shù)值變化,難以得到正確的分析結論。一般情況下,數(shù)據(jù)量越大,統(tǒng)計分析的結果就越接近事物的真實規(guī)律。
2.統(tǒng)計分組法
統(tǒng)計分組法在統(tǒng)計研究中占有重要地位,也是分析電商數(shù)據(jù)時常用的統(tǒng)計方法,它不僅是統(tǒng)計整理資料的重要組成部分,而且在整個統(tǒng)計工作階段都能發(fā)揮特有的作用。
從統(tǒng)計設計階段開始,要根據(jù)研究對象的特點,制訂分類標準,確定反映總體不同性質(zhì)特征的分類指標體系。
在統(tǒng)計調(diào)查階段,要根據(jù)具體的分組規(guī)定和分組方法,分門別類地搜集有關數(shù)據(jù)。
在統(tǒng)計整理階段,需對搜集來的原始資料,按統(tǒng)計分析的要求進行分析或再分組。
到統(tǒng)計分析階段,則可以用類型分組、結構分組、水平分組、依存關系分組、時間階段分組等各種分組方法進行統(tǒng)計分析,以反映總體內(nèi)部不同分組條件下的事物的相互聯(lián)系。
分組方法是進行分析時用到的核心方法,了解并掌握分組方法可以提高數(shù)據(jù)分析能力。常見的分組方法有以下5種。
(1)類型分組。類型分組是按不同類型進行分組,如按店鋪類型分為天貓店和集市店,分組后可觀察各店鋪銷售數(shù)量或銷售額的差異。
(2)結構分組。結構分組是根據(jù)研究對象的內(nèi)部結構進行分組,如研究淘寶類目,可以根據(jù)淘寶的類目樹來分組,一級類目分為服飾、數(shù)碼等,服飾又可以分為服裝、飾品,服裝又可進一步分為T恤、襯衫等。
(3)水平分組。水平分組是基于研究對象的不同水平進行分組,如分為不同的價格區(qū)間、銷量區(qū)間進行研究。
(4)依存關系分組。依存關系分組是把性質(zhì)上有關的不同社會經(jīng)濟現(xiàn)象聯(lián)系起來進行分組。通過依存關系分組,可以觀察不同社會經(jīng)濟現(xiàn)象總體在數(shù)量上的依存關系,認識不同現(xiàn)象在數(shù)量上影響的作用、程度和規(guī)律。例如:研究商品定價和銷量之間的關系,可以把商品分別按照銷售額和價格進行分組,然后觀察各組的銷售額和商品銷量分布,將兩者聯(lián)系起來進行分析。
(5)時間階段分組。時間階段分組是根據(jù)時間粒度進行分組,如年、季度、月、周、天、小時、分、秒。在分析店鋪銷售額時可以把銷售額按照不同的時間階段進行分組分析,根據(jù)天及以上的粒度分組是研究銷售額的趨勢,根據(jù)小時的粒度分組是研究消費者的行為特征的(消費者集中在哪些時間段進行網(wǎng)購消費)趨勢。
3.綜合指標法
綜合指標法就是利用多項綜合指標,對相互關聯(lián)的客觀現(xiàn)象進行綜合概括的方法。
4.歸納推斷法
歸納推斷法是從個別到一般的推理方法,是統(tǒng)計研究中常用的方法。歸納推斷法主要應用于所研究的總體單位數(shù)很多,甚至是總體無限的情況,通過觀察部分單位并進行計算和分析,推斷總體的數(shù)量特征。