- 心理與教育研究中的多元統(tǒng)計(jì)方法
- 曹亦薇 張一平
- 1582字
- 2019-11-29 16:46:27
1.4 多元數(shù)據(jù)的矩陣表示及變換
1.4.1 觀測數(shù)據(jù)
多元數(shù)據(jù)的結(jié)構(gòu)一般如表1.2所示,Xij表示第i個(gè)個(gè)體的關(guān)于第j個(gè)變量的觀測數(shù)據(jù)或觀察值,觀測數(shù)據(jù)既可以是連續(xù)型數(shù)據(jù),也可以是離散型數(shù)據(jù)。
表1.2 多變量數(shù)據(jù)的一般形式

統(tǒng)計(jì)學(xué)中將這種數(shù)據(jù)結(jié)構(gòu)用矩陣表示為:

在數(shù)據(jù)矩陣中通常不同的行對應(yīng)不同的個(gè)體(獲取數(shù)據(jù)的觀測對象),不同的列對應(yīng)不同的變量(對個(gè)體進(jìn)行觀測的指標(biāo))。矩陣(1.1)就是一張n行p列的數(shù)表,記為X或。
行數(shù)n=1時(shí),X便退化為一個(gè)行向量(1×p的矩陣)。行向量一般記為

式中i表示第i個(gè)記錄,等號右邊括號內(nèi)就是第i個(gè)個(gè)體關(guān)于p個(gè)變量的p個(gè)觀測數(shù)據(jù)。
X的列數(shù)p=1時(shí),X便退化為一個(gè)列向量(n×1的矩陣)。列向量一般記為

式中Xj表示第j個(gè)變量的全體n個(gè)觀測數(shù)據(jù)。有時(shí)等號右邊的分量下標(biāo)j可以省略。
為了簡化書寫,亦可用加上轉(zhuǎn)置符號“T”,以行向量表示列向量,記為

向量Xj的長度,就是它的內(nèi)積(各分量平方和)的正平方根,或稱為向量Xj的模,記作|Xj|,即
這里表示變量Xj的一組觀測數(shù)據(jù)的總和,n為樣本量。
1.4.2 數(shù)據(jù)的中心化
某一變量的各個(gè)觀測值減去該變量全體觀測值的平均值,所得到的差稱為各個(gè)觀測值的離均值,即
離均值=觀測值-平均值,
觀測值的離均值矩陣Xc為

式中

是變量Xj的平均值,j=1,2,……,p。
例如,多元數(shù)據(jù)表1.1(a)中被試1的語文離均值是其語文分?jǐn)?shù)與語文分平均值之差,即
72-83.3=-11.3,
用同樣的方法,我們可以得到該表中每個(gè)被試的各科成績的離均值(參見表1.3)。
表1.3 多元變量數(shù)據(jù)的離均值

多元數(shù)據(jù)無論包含多少個(gè)變量,樣本量有多大,各變量離均值的平均值均為0。這種將原始數(shù)據(jù)變成離均值的變換稱為數(shù)據(jù)的中心化,其特點(diǎn)是讓0成為新觀測值(離均值)的中心。圖1.3(a)為表1.1(a)中語文與數(shù)學(xué)成績觀測值的散點(diǎn)圖,圖1.3(b)為語文與數(shù)學(xué)成績離均值的散點(diǎn)圖。圖中每個(gè)點(diǎn)代表一個(gè)被試,點(diǎn)的位置由各個(gè)被試的語文和數(shù)學(xué)成績(或離均值)決定。從圖中可知,數(shù)據(jù)的中心化只是使數(shù)軸產(chǎn)生了平移,并不改變數(shù)據(jù)的散布狀態(tài),即不改變數(shù)據(jù)之間的相對位置。

1.4.3 數(shù)據(jù)的標(biāo)準(zhǔn)化
圖1.3 語文與數(shù)學(xué)成績的散點(diǎn)圖
變量的全體觀測值分別減去該變量的平均值后再除以其標(biāo)準(zhǔn)差,所得的數(shù)值稱為該變量的標(biāo)準(zhǔn)分,即
標(biāo)準(zhǔn)分=(觀測值-平均值)/標(biāo)準(zhǔn)差,
這種數(shù)據(jù)變換稱為數(shù)據(jù)的標(biāo)準(zhǔn)化。
標(biāo)準(zhǔn)分矩陣Z可表示為

式中Sj為第j個(gè)變量的標(biāo)準(zhǔn)差

在實(shí)際應(yīng)用中,常常用無偏標(biāo)準(zhǔn)差

來計(jì)算標(biāo)準(zhǔn)分,無偏標(biāo)準(zhǔn)差的平方為無偏方差。例如,表1.1(a)中語文的無偏方差為58.68,被試1的語文成績的無偏標(biāo)準(zhǔn)分為

用同樣方法,我們可以得到表1.1(a)中每個(gè)被試的各科成績的標(biāo)準(zhǔn)分(參見表1.4)。用無偏標(biāo)準(zhǔn)差對變量進(jìn)行標(biāo)準(zhǔn)化后,標(biāo)準(zhǔn)分矩陣中的新變量平均值為0,且無偏方差為1(方差略小于1)。
表1.4 多元變量數(shù)據(jù)的標(biāo)準(zhǔn)分

由上可知,數(shù)據(jù)標(biāo)準(zhǔn)化的特點(diǎn)是讓不同平均值、不同方差的原始變量都變換成平均值為0、方差相等(或都為1)的新變量。當(dāng)標(biāo)準(zhǔn)分為正值時(shí),說明該個(gè)體的觀測值大于平均值;當(dāng)標(biāo)準(zhǔn)分為負(fù)值時(shí),該個(gè)體的觀測值小于平均值。標(biāo)準(zhǔn)分的絕對值越大,則說明原始數(shù)據(jù)偏離平均值的距離越遠(yuǎn)。數(shù)據(jù)標(biāo)準(zhǔn)化以后統(tǒng)一了各原始變量的方差,例如散點(diǎn)圖1.4(a)是表1.1(a)語文、英語兩科原始分?jǐn)?shù)的散點(diǎn)圖,顯然數(shù)據(jù)在橫軸上的散布度比縱軸的大得多(語文的標(biāo)準(zhǔn)差是英語的1.6倍),但是在圖1.4(b)的兩科標(biāo)準(zhǔn)分散點(diǎn)圖中,縱、橫兩軸上的散布程度就一致了。

圖1.4 語文與英語的散點(diǎn)圖
對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,有助于變量內(nèi)部的比較與解釋。以表1.4為例,在語文標(biāo)準(zhǔn)分中水平最高的是6號被試,他的成績高于平均值約有1.5個(gè)標(biāo)準(zhǔn)差,與1號被試相比較,兩人的差距達(dá)3個(gè)標(biāo)準(zhǔn)差。如果知道三科分?jǐn)?shù)的統(tǒng)計(jì)分布的話,不但可以了解某學(xué)生的各科成績在總體中的位置,還可以進(jìn)行更為精細(xì)的橫向比較。但是必須注意到標(biāo)準(zhǔn)分雖然統(tǒng)一了各變量的平均值與方差,但失去了原始數(shù)據(jù)的平均值與方差等信息。如果手頭僅有各變量的標(biāo)準(zhǔn)分,是無法變回到原始分?jǐn)?shù)的。
- 復(fù)原力
- 情緒管理六部曲(套裝共6冊)
- 超越原生家庭(原書第4版)
- 正念減壓課程從業(yè)者工作心得
- 從捆綁到自主:復(fù)元為本的認(rèn)知行為介入法
- 星際漫游:當(dāng)代精神分析指南
- 每天玩一個(gè)心理學(xué)游戲
- 標(biāo)準(zhǔn)EMDR療法流程應(yīng)用指南:供治療師、督導(dǎo)師和咨詢顧問使用
- 彌散的心智
- 積極情緒的力量
- 殘疾人心理調(diào)適和精神康復(fù)指南
- 醫(yī)學(xué)心理學(xué)
- 高校21世紀(jì)師范類規(guī)劃教材心理學(xué)
- 社區(qū)常見心理衛(wèi)生問題
- 安心行動(dòng):心理教練對話戰(zhàn)“疫”