- 數(shù)據(jù)分析從入門(mén)到進(jìn)階
- 陳紅波 劉順祥等
- 1361字
- 2019-11-12 14:04:04
2.3.3 相關(guān)系數(shù)與協(xié)方差
1.協(xié)方差
協(xié)方差(Covariance)在概率論和統(tǒng)計(jì)學(xué)中用于衡量?jī)蓚€(gè)變量的總體誤差。方差是協(xié)方差的一種特殊情況,當(dāng)兩個(gè)變量相同時(shí)則為方差。
協(xié)方差表示的是兩個(gè)變量的總體的誤差,這與只表示一個(gè)變量誤差的方差不同。如果兩個(gè)變量的變化趨勢(shì)一致,也就是說(shuō)如果其中一個(gè)大于自身的期望值,另外一個(gè)也大于自身的期望值,那么兩個(gè)變量之間的協(xié)方差就是正值。如果兩個(gè)變量的變化趨勢(shì)相反,即其中一個(gè)大于自身的期望值,另外一個(gè)卻小于自身的期望值,那么兩個(gè)變量之間的協(xié)方差就是負(fù)值。公式為:
Cov(X,Y)=E[(X-E[X])Y-E[Y]]
其中:E(X)為變量X的期望,E(Y)為變量Y的期望。
協(xié)方差Cov(X,Y)是描述隨機(jī)變量相互關(guān)聯(lián)程度的一個(gè)特征數(shù)。協(xié)方差具有以下特性:
● Cov(X,Y)>0時(shí),稱(chēng)X與Y正相關(guān);
● Cov(X,Y)<0時(shí),稱(chēng)X與Y負(fù)相關(guān);
● Cov(X,Y)=0時(shí),稱(chēng)X與Y不相關(guān)。
(1)案例分析
以一組學(xué)生玩游戲時(shí)間與成績(jī)的數(shù)據(jù)為例,計(jì)算兩個(gè)不同變量之間的協(xié)方差,數(shù)據(jù)如表2-23所示。
表2-23 學(xué)生玩游戲時(shí)間與成績(jī)表

(2)操作步驟
1)單擊“數(shù)據(jù)|分析|數(shù)據(jù)分析”命令,在“數(shù)據(jù)分析”對(duì)話(huà)框中選擇“協(xié)方差”選項(xiàng),然后單擊“確定”按鈕。
2)在“協(xié)方差”對(duì)話(huà)框進(jìn)行參數(shù)設(shè)置,“輸入?yún)^(qū)域”選擇$A$1:$B$11(包含標(biāo)題),“分組方式”默認(rèn)“逐列”選項(xiàng),勾選“標(biāo)志位于第一行”選項(xiàng),“輸出區(qū)域”選擇單元格$D$2,然后單擊“確定”按鈕,如圖2-143所示。

圖2-143 “協(xié)方差”對(duì)話(huà)框
3)學(xué)生玩游戲時(shí)間與成績(jī)的協(xié)方差統(tǒng)計(jì)結(jié)果如圖2-144所示。兩者之間的協(xié)方差結(jié)果為-385.5。由此可見(jiàn),學(xué)生玩游戲時(shí)間與成績(jī)是呈現(xiàn)負(fù)相關(guān)的,玩游戲時(shí)間較長(zhǎng),學(xué)生成績(jī)相對(duì)較差。

圖2-144 協(xié)方差計(jì)算結(jié)果
但協(xié)方差僅能進(jìn)行定性的分析,并不能進(jìn)行定量的分析。例如,學(xué)生玩游戲時(shí)間和成績(jī)的協(xié)方差為-385.5,但兩者之間的相關(guān)性的強(qiáng)度是多少,協(xié)方差并沒(méi)有給出定量的判斷標(biāo)準(zhǔn),因此需要計(jì)算兩者之間的相關(guān)系數(shù)來(lái)判斷。
2.相關(guān)系數(shù)
相關(guān)系數(shù)又稱(chēng)線(xiàn)性相關(guān)系數(shù)、皮氏積矩相關(guān)系數(shù)等,是衡量?jī)蓚€(gè)隨機(jī)變量之間線(xiàn)性相關(guān)程度的指標(biāo)。相關(guān)系數(shù)最早是由統(tǒng)計(jì)學(xué)家卡爾·皮爾遜設(shè)計(jì)的統(tǒng)計(jì)指標(biāo),是研究變量之間線(xiàn)性相關(guān)程度的量,一般用字母r表示。根據(jù)研究對(duì)象的不同,相關(guān)系數(shù)有多種定義方式,較為常用的是皮爾遜相關(guān)系數(shù)。反映兩變量間線(xiàn)性相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)稱(chēng)為相關(guān)系數(shù)(相關(guān)系數(shù)的平方稱(chēng)為判定系數(shù));反映兩變量間曲線(xiàn)相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)稱(chēng)為非線(xiàn)性相關(guān)系數(shù)、非線(xiàn)性判定系數(shù);反映多元線(xiàn)性相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)稱(chēng)為復(fù)相關(guān)系數(shù)、復(fù)判定系數(shù)等。需要說(shuō)明的是,皮爾遜相關(guān)系數(shù)并不是唯一的相關(guān)系數(shù),但它是最常見(jiàn)的相關(guān)系數(shù),下面主要探討簡(jiǎn)單相關(guān)系數(shù)。
皮爾遜相關(guān)系數(shù)的公式為:

其中,Cov(X,Y)為X與Y的協(xié)方差,Var(X)為X的方差,Var(Y)為Y的方差。
(1)案例分析
以一組學(xué)生玩游戲時(shí)間與成績(jī)的數(shù)據(jù)為例,數(shù)據(jù)如表2-23所示,計(jì)算兩個(gè)不同變量之間的相關(guān)系數(shù)。
(2)操作步驟
1)單擊“數(shù)據(jù)|分析|數(shù)據(jù)分析”命令,在“數(shù)據(jù)分析”對(duì)話(huà)框中選擇“相關(guān)系數(shù)”選項(xiàng),然后單擊“確定”按鈕。
2)在“相關(guān)系數(shù)”對(duì)話(huà)框進(jìn)行參數(shù)設(shè)置,“輸入?yún)^(qū)域”選擇$A$1:$B$11(包含標(biāo)題),“分組方式”默認(rèn)為“逐列”選項(xiàng),勾選“標(biāo)志位于第一行”選項(xiàng),“輸出區(qū)域”選擇單元格$D$2,然后單擊“確定”按鈕,如圖2-145所示。

圖2-145 “相關(guān)系數(shù)”對(duì)話(huà)框
3)學(xué)生玩游戲時(shí)間與成績(jī)的相關(guān)系數(shù)統(tǒng)計(jì)結(jié)果如圖2-146所示。兩者之間的相關(guān)系數(shù)為-0.89。由此可見(jiàn),學(xué)生玩游戲時(shí)間與成績(jī)是呈現(xiàn)負(fù)相關(guān)的,且兩者線(xiàn)性相關(guān)性較強(qiáng)。

圖2-146 相關(guān)系數(shù)計(jì)算結(jié)果
- Learning LibGDX Game Development(Second Edition)
- Testing with JUnit
- Monkey Game Development:Beginner's Guide
- Mastering Kotlin
- 編寫(xiě)高質(zhì)量代碼:改善Python程序的91個(gè)建議
- Koa開(kāi)發(fā):入門(mén)、進(jìn)階與實(shí)戰(zhàn)
- Jupyter數(shù)據(jù)科學(xué)實(shí)戰(zhàn)
- Python忍者秘籍
- Quantum Computing and Blockchain in Business
- Visual Studio 2015高級(jí)編程(第6版)
- Couchbase Essentials
- Beginning C++ Game Programming
- Laravel Design Patterns and Best Practices
- Data Manipulation with R(Second Edition)
- Learning ECMAScript 6