- Python電商數(shù)據(jù)分析實(shí)戰(zhàn)(微課版)
- 陳海城編著
- 3485字
- 2024-03-14 11:20:49
1.2 電商數(shù)據(jù)分析的必備知識(shí)和工具
電商數(shù)據(jù)分析師和業(yè)務(wù)數(shù)據(jù)分析師的定位相似,需要多種技能的支撐才可以完成數(shù)據(jù)分析任務(wù),由此可知,數(shù)據(jù)分析并不是一個(gè)獨(dú)立的學(xué)科,它跟多個(gè)學(xué)科的知識(shí)有著緊密的聯(lián)系。電商數(shù)據(jù)人才除了要能從數(shù)字中獲取有價(jià)值的信息之外,還需要具備以下幾方面熟練的數(shù)據(jù)處理能力。
(1)數(shù)學(xué)和統(tǒng)計(jì)學(xué)。數(shù)學(xué)和統(tǒng)計(jì)學(xué)是數(shù)據(jù)分析中兩門(mén)最基本的理論知識(shí)學(xué)科,數(shù)據(jù)分析就是這兩門(mén)學(xué)科的應(yīng)用。
(2)運(yùn)籌學(xué)。運(yùn)籌學(xué)是現(xiàn)代管理學(xué)中一門(mén)重要的專(zhuān)業(yè)基礎(chǔ)課,主要研究求最優(yōu)解,可解決運(yùn)營(yíng)過(guò)程中的最佳決策問(wèn)題。
(3)數(shù)據(jù)分析方法論。數(shù)據(jù)分析方法論是前人分析的經(jīng)驗(yàn)歸納,套用方法論可以快速入門(mén)數(shù)據(jù)分析。
(4)數(shù)據(jù)分析工具?!肮び破涫拢叵壤淦鳌?,數(shù)據(jù)分析單靠筆尖或者計(jì)算器速度太慢,面對(duì)大量資料的整理是需要具備專(zhuān)業(yè)技能的,因此熟練掌握至少一個(gè)數(shù)據(jù)分析工具的應(yīng)用將會(huì)大幅度提高數(shù)據(jù)分析的效率和精度。
(5)電商業(yè)務(wù)能力。對(duì)于一名從事數(shù)據(jù)分析的工作者來(lái)說(shuō),對(duì)業(yè)務(wù)場(chǎng)景的敏銳度十分重要,只有懂業(yè)務(wù)的數(shù)據(jù)分析師才能將數(shù)據(jù)轉(zhuǎn)變成生產(chǎn)力。
(6)電商數(shù)據(jù)指標(biāo)體系。了解并掌握電商的數(shù)據(jù)指標(biāo)體系可以幫助數(shù)據(jù)分析工作者更快、更準(zhǔn)確地開(kāi)展數(shù)據(jù)分析工作。
1.2.1 數(shù)學(xué)和統(tǒng)計(jì)學(xué)
數(shù)據(jù)分析是從統(tǒng)計(jì)學(xué)發(fā)展而來(lái)的,而統(tǒng)計(jì)學(xué)是從數(shù)學(xué)發(fā)展而來(lái)的。數(shù)學(xué)知識(shí)是數(shù)據(jù)分析的理論基礎(chǔ),只會(huì)軟件操作并不能滿足數(shù)據(jù)分析的要求,普通的商業(yè)分析要求分析人員的數(shù)學(xué)水平在高中及以上,能看懂?dāng)?shù)學(xué)符號(hào)和數(shù)學(xué)公式。如果涉及數(shù)學(xué)建模,則要求數(shù)學(xué)水平在大學(xué)本科及以上,如圖1-8所示。具體的數(shù)學(xué)要求如下。

圖1-8 數(shù)學(xué)要求
(1)初中數(shù)學(xué)基礎(chǔ)。數(shù)學(xué)運(yùn)算(基本運(yùn)算、因式分解),方程與方程組,不等式與不等式組(簡(jiǎn)單的線性規(guī)劃),初步統(tǒng)計(jì)(平均數(shù)、眾數(shù)、中位數(shù)、極差、方差、標(biāo)準(zhǔn)差、頻數(shù)、頻率、頻率分布直方圖),初步概率(概率計(jì)算)等。
(2)高中數(shù)學(xué)基礎(chǔ)。集合(交、并、補(bǔ)),基本初等函數(shù)(指數(shù)函數(shù)、對(duì)數(shù)函數(shù)、冪函數(shù)),函數(shù)的應(yīng)用(求極值、最值及變化趨勢(shì)),算法(結(jié)構(gòu)與語(yǔ)句),數(shù)列(遞推邏輯、歸納演繹),簡(jiǎn)易邏輯(真假命題、假設(shè)邏輯),合情推理(歸納、類(lèi)比),演繹推理(三段論)等。
(3)統(tǒng)計(jì)學(xué)基礎(chǔ)。抽樣調(diào)查與推斷,概率論,描述統(tǒng)計(jì)學(xué),推斷統(tǒng)計(jì)學(xué)等。
(4)高等數(shù)學(xué)(更深層次的學(xué)習(xí)與研究)基礎(chǔ)。線性代數(shù)、微積分、復(fù)變函數(shù)等。
1.2.2 運(yùn)籌學(xué)
運(yùn)籌學(xué)是現(xiàn)代管理學(xué)的一門(mén)重要的專(zhuān)業(yè)基礎(chǔ)課,也是數(shù)據(jù)分析的理論基礎(chǔ)。它是20世紀(jì)30年代初發(fā)展起來(lái)的一門(mén)新興學(xué)科,其主要作用是在決策時(shí)為管理人員提供科學(xué)依據(jù),是實(shí)現(xiàn)有效管理、正確決策和現(xiàn)代化管理的重要方法。該學(xué)科是應(yīng)用數(shù)學(xué)和形式科學(xué)的跨領(lǐng)域研究,利用統(tǒng)計(jì)學(xué)、數(shù)學(xué)模型和算法等,尋找復(fù)雜問(wèn)題中的最佳或近似最佳的解答。
在電商業(yè)務(wù)背景下,運(yùn)籌學(xué)具有非常廣泛的應(yīng)用場(chǎng)景,如確定最佳的推廣方案,確定最短的運(yùn)營(yíng)路徑,確定最佳的產(chǎn)品組合,確定最佳的人工排班方案等。
1.2.3 數(shù)據(jù)分析方法論
許多電商從業(yè)者在分析數(shù)據(jù)的時(shí)候會(huì)遇到許多問(wèn)題,如不知從哪方面切入并開(kāi)展分析,不知數(shù)據(jù)分析的內(nèi)容和指標(biāo)是否合理、完整。出現(xiàn)這些問(wèn)題都是因?yàn)閿?shù)據(jù)分析人員沒(méi)有掌握數(shù)據(jù)分析方法論。
數(shù)據(jù)分析方法論可以幫助分析人員依據(jù)某些軌跡順利地開(kāi)展分析活動(dòng)。常見(jiàn)的數(shù)據(jù)分析方法有以下9種。
(1)對(duì)比法。通過(guò)參照物的對(duì)比了解現(xiàn)狀和發(fā)現(xiàn)問(wèn)題,通過(guò)橫向和縱向的對(duì)比找到自己所處的位置。
(2)拆分法。將大問(wèn)題和相關(guān)的指標(biāo)拆解成多個(gè)小問(wèn)題和多個(gè)相關(guān)指標(biāo),通過(guò)拆解問(wèn)題和指標(biāo)可以快速找到問(wèn)題產(chǎn)生的原因。
(3)分組法。將數(shù)據(jù)依據(jù)某些維度進(jìn)行分組統(tǒng)計(jì),觀察分組后的結(jié)果以洞察事物的特征。
(4)排序法?;谀硞€(gè)度量值進(jìn)行遞增或遞減的排列,排序后的結(jié)果可以清晰地反映所有觀測(cè)值的情況。
(5)交叉法。將兩個(gè)及以上的維度進(jìn)行交叉分析,如通過(guò)對(duì)產(chǎn)品特征和價(jià)格區(qū)間兩個(gè)維度的交叉分析,找到更符合企業(yè)定位的細(xì)分市場(chǎng)。
(6)降維法。分析問(wèn)題時(shí)若指標(biāo)的信息量過(guò)多,采用業(yè)務(wù)梳理的方式選擇核心指標(biāo)進(jìn)行分析,減少過(guò)多指標(biāo)的干擾。在統(tǒng)計(jì)學(xué)上也可以使用主成分分析或因子分析方法達(dá)到降維的目的。
(7)增維法。分析問(wèn)題時(shí)若指標(biāo)的信息量不足,通過(guò)計(jì)算派生出新的指標(biāo),以獲取更多的信息量,如搜索競(jìng)爭(zhēng)度=搜索人氣÷商品數(shù)。
(8)指標(biāo)法。在分析時(shí)采用指標(biāo)的方式分析結(jié)果,一般通過(guò)表格來(lái)查看分析結(jié)果。
(9)圖形法。在分析時(shí)采用圖形的方式更加直觀地分析結(jié)果。
除了以上常見(jiàn)的數(shù)據(jù)分析方法之外,還有一些在業(yè)務(wù)上常用的思維分析方法,如以下7種方法。
(1)SWOT分析法。S(Strength)是優(yōu)勢(shì)、W(Weakness)是劣勢(shì)、O(Opportunity)是機(jī)會(huì)、T(Threat)是威脅,即基于內(nèi)、外部競(jìng)爭(zhēng)環(huán)境和競(jìng)爭(zhēng)條件下的態(tài)勢(shì)分析,就是將與研究對(duì)象密切相關(guān)的各種主要內(nèi)部?jī)?yōu)勢(shì)、劣勢(shì)和外部的機(jī)會(huì)和威脅等,通過(guò)調(diào)查列舉出來(lái),并依照矩陣形式排列,然后用系統(tǒng)分析的思想,把各種因素相互匹配并加以分析,從中得出一系列相應(yīng)的結(jié)論,而該結(jié)論通常帶有一定的決策性。通過(guò)該方法,企業(yè)可以了解自己所處的環(huán)境,對(duì)內(nèi)、外部因素進(jìn)行分析并制訂應(yīng)對(duì)策略。
(2)描述性統(tǒng)計(jì)法。概括、表述事物整體狀況及事物間關(guān)聯(lián)、類(lèi)屬關(guān)系,基于統(tǒng)計(jì)值來(lái)表示數(shù)據(jù)集的集中和離散等情況。
(3)矩陣分析法。將主要因素放在矩陣的兩個(gè)維度軸進(jìn)行定量或者定性的分析,并通過(guò)某個(gè)點(diǎn)將數(shù)據(jù)分成4個(gè)象限。
(4)多維分析法。將3個(gè)及以上的維度在表格、多維平面圖或者三維圖中進(jìn)行觀測(cè)分析。
(5)數(shù)據(jù)歸一化。將數(shù)值映射在[0,1]的范圍中,消除因?yàn)橹涤虿煌a(chǎn)生的分析難點(diǎn),一般配合多維分析法使用或在數(shù)據(jù)建模時(shí)使用。
(6)時(shí)間序列分析法。針對(duì)連續(xù)的、變化的時(shí)間數(shù)據(jù)的分析方法,主要用于預(yù)測(cè)連續(xù)的未來(lái)數(shù)據(jù),如分析店鋪每天的銷(xiāo)售額。
(7)相關(guān)性分析法。研究指標(biāo)間的相關(guān)程度,常用于尋找關(guān)鍵影響因素。
1.2.4 數(shù)據(jù)分析工具
掌握兩個(gè)及以上的分析工具才能更好地進(jìn)行數(shù)據(jù)分析。分析工具種類(lèi)很多,具體可分成以下三類(lèi)。
(1)數(shù)據(jù)庫(kù)。按照數(shù)據(jù)結(jié)構(gòu)來(lái)組織、存儲(chǔ)和管理數(shù)據(jù)的倉(cāng)庫(kù)。常見(jiàn)的數(shù)據(jù)庫(kù)有Access、Microsoft SQL Server(簡(jiǎn)稱(chēng)MSSQL)、MySQL、Oracle、IBM DB2。
(2)數(shù)據(jù)分析與可視化。用于組織數(shù)據(jù)進(jìn)行分析和可視化呈現(xiàn)的工具,常見(jiàn)的工具有Excel、Power Business Intelligence(簡(jiǎn)稱(chēng)Power BI)、Tableau。
(3)統(tǒng)計(jì)與數(shù)據(jù)挖掘。用于統(tǒng)計(jì)分析和數(shù)據(jù)挖掘的工具,常見(jiàn)的工具有R語(yǔ)言、Python、統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案(Solutions Statistical Package Social Sciences,SPSS)、統(tǒng)計(jì)分析系統(tǒng)(Statistical Analysis System,SAS)。
根據(jù)企業(yè)不同的需求階段,需要掌握的工具也不同,具體如下。
(1)第一階段。這個(gè)階段的企業(yè)現(xiàn)狀是數(shù)據(jù)用Excel或WPS文件存儲(chǔ),數(shù)據(jù)文件多而雜亂,經(jīng)營(yíng)多年的電商企業(yè)甚至?xí)谐^(guò)10萬(wàn)張歷史數(shù)據(jù)表格,無(wú)法對(duì)繁雜的歷史數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)管理雜亂。這個(gè)階段企業(yè)需要解決數(shù)據(jù)的統(tǒng)一管理及分析問(wèn)題??蛇x用Excel和MySQL,Excel可解決分析層和應(yīng)用層的問(wèn)題,MySQL可解決大數(shù)據(jù)量的存儲(chǔ)和計(jì)算問(wèn)題,而且Excel和MySQL在國(guó)內(nèi)企業(yè)中的普及率相對(duì)較高。
(2)第二階段。這個(gè)階段的企業(yè)現(xiàn)狀是已經(jīng)實(shí)現(xiàn)了統(tǒng)一管理和數(shù)據(jù)分析,但隨著企業(yè)數(shù)據(jù)量和數(shù)據(jù)應(yīng)用能力的提升,原有的Excel已經(jīng)滿足不了大數(shù)據(jù)量下進(jìn)行多表建模聯(lián)合分析的需求,可能刷新一份分析模型文件所需的時(shí)間很長(zhǎng)。此時(shí)需要使用BI(Business Intelligence)產(chǎn)品來(lái)滿足復(fù)雜的業(yè)務(wù)建模需求,可選用微軟的 Power BI。部分企業(yè)在這個(gè)階段會(huì)有專(zhuān)業(yè)統(tǒng)計(jì)方法和數(shù)據(jù)挖掘的需求,可選擇SPSS,該工具的掌握難度不大。SPSS有兩個(gè)工具:一個(gè)是Statistics,用于統(tǒng)計(jì)分析;另一個(gè)是 Modeler,用于進(jìn)行商業(yè)數(shù)據(jù)的分析與挖掘。SPSS 在國(guó)內(nèi)企業(yè)中的普及率較低。
(3)第三階段。這個(gè)階段的企業(yè)已經(jīng)屬于數(shù)據(jù)驅(qū)動(dòng)型企業(yè),數(shù)據(jù)應(yīng)用需要在生產(chǎn)、流通、銷(xiāo)售和管理等各個(gè)環(huán)節(jié)滲透,隨著數(shù)據(jù)種類(lèi)的復(fù)雜化,原有的數(shù)據(jù)采集、清洗及算法應(yīng)用的效率已經(jīng)滿足不了需求,要運(yùn)用信息技術(shù)(Information Technology,IT)和算法解決商業(yè)問(wèn)題,真正將數(shù)據(jù)轉(zhuǎn)變成生產(chǎn)力??梢栽赗語(yǔ)言和Python語(yǔ)言之間選擇一種,這兩者都是應(yīng)用非常廣泛的編程語(yǔ)言。
(4)第四階段。這個(gè)階段的企業(yè)已經(jīng)是深度數(shù)據(jù)驅(qū)動(dòng)型企業(yè),進(jìn)入這個(gè)階段的只有少數(shù)的龍頭企業(yè),它們通過(guò)技術(shù)手段極大地提高工作效率和商業(yè)收益,轉(zhuǎn)型智慧商業(yè)領(lǐng)域,運(yùn)用大數(shù)據(jù)和人工智能升級(jí)改造所有環(huán)節(jié)。企業(yè)在這個(gè)階段需要應(yīng)用大數(shù)據(jù)框架(如Hadoop)來(lái)解決并發(fā)現(xiàn)問(wèn)題,以及人工智能框架(如TensorFlow)來(lái)解決應(yīng)用問(wèn)題。
1.2.5 電商數(shù)據(jù)指標(biāo)體系
電商數(shù)據(jù)指標(biāo)體系,是指由相互之間有邏輯聯(lián)系的指標(biāo)構(gòu)成的整體,是基于業(yè)務(wù)場(chǎng)景而構(gòu)建的一個(gè)完善的數(shù)據(jù)指標(biāo)體系,將給業(yè)務(wù)提供有力的支撐,而且可以防止因?yàn)槿藛T的流動(dòng)導(dǎo)致數(shù)據(jù)分析部門(mén)運(yùn)作癱瘓問(wèn)題的發(fā)生。
業(yè)務(wù)的差異性,導(dǎo)致不同電商平臺(tái)、不同商戶(hù)的電商數(shù)據(jù)指標(biāo)體系可能存在差異,但是大體上都基于以下公式展開(kāi):
銷(xiāo)售額=訪客數(shù)×轉(zhuǎn)化率×客單價(jià) (1-1)
式(1-1)是電商行業(yè)的重要公式,基于這個(gè)公式可延伸出電商數(shù)據(jù)指標(biāo)體系。
- 職業(yè)素養(yǎng)與能力:禮儀·溝通·寫(xiě)作(微課版)
- 危險(xiǎn)貨物運(yùn)輸汽車(chē)駕駛員培訓(xùn)教材(遼寧省道路運(yùn)輸駕駛員繼續(xù)教育培訓(xùn)教材)
- 海泡石工業(yè)應(yīng)用技術(shù)
- 團(tuán)體心理服務(wù)技能(本會(huì)團(tuán)體方向)培訓(xùn)教材·實(shí)務(wù)技能(上下冊(cè))
- 服裝結(jié)構(gòu)設(shè)計(jì)與應(yīng)用
- 銀行大堂服務(wù)(教育部中等職業(yè)教育專(zhuān)業(yè)技能課立項(xiàng)教材·金融事務(wù)專(zhuān)業(yè)適用)
- 西門(mén)子S7-1500 PLC 從入門(mén)到精通
- 如何做一名金牌婚禮司儀
- 新時(shí)期專(zhuān)業(yè)技術(shù)人員道德建設(shè)
- 班主任與班級(jí)管理
- ADOBE ACROBAT XI標(biāo)準(zhǔn)培訓(xùn)教材
- 蜜蜂健康高效養(yǎng)殖技術(shù)
- 傳感器技術(shù)及應(yīng)用
- 跨境電商基礎(chǔ)與實(shí)務(wù)(微課版)
- 學(xué)習(xí)領(lǐng)域 10:汽車(chē)輔助系統(tǒng)的加裝及汽車(chē)檢測(cè)線