澳门永利最老登录入口

書名：心理與教育研究中的多元統(tǒng)計(jì)方法
作者名：曹亦薇張一平
本章字?jǐn)?shù)： 1582字
更新時(shí)間： 2019-11-29 16:46:27

1.4　多元數(shù)據(jù)的矩陣表示及變換

1.4.1　觀測數(shù)據(jù)

多元數(shù)據(jù)的結(jié)構(gòu)一般如表1.2所示，Xij表示第i個(gè)個(gè)體的關(guān)于第j個(gè)變量的觀測數(shù)據(jù)或觀察值，觀測數(shù)據(jù)既可以是連續(xù)型數(shù)據(jù)，也可以是離散型數(shù)據(jù)。

表1.2　多變量數(shù)據(jù)的一般形式

統(tǒng)計(jì)學(xué)中將這種數(shù)據(jù)結(jié)構(gòu)用矩陣表示為：

在數(shù)據(jù)矩陣中通常不同的行對應(yīng)不同的個(gè)體（獲取數(shù)據(jù)的觀測對象），不同的列對應(yīng)不同的變量（對個(gè)體進(jìn)行觀測的指標(biāo)）。矩陣（1.1）就是一張n行p列的數(shù)表，記為X或。

行數(shù)n=1時(shí)，X便退化為一個(gè)行向量（1×p的矩陣）。行向量一般記為

式中i表示第i個(gè)記錄，等號右邊括號內(nèi)就是第i個(gè)個(gè)體關(guān)于p個(gè)變量的p個(gè)觀測數(shù)據(jù)。

X的列數(shù)p=1時(shí)，X便退化為一個(gè)列向量（n×1的矩陣）。列向量一般記為

式中Xj表示第j個(gè)變量的全體n個(gè)觀測數(shù)據(jù)。有時(shí)等號右邊的分量下標(biāo)j可以省略。

為了簡化書寫，亦可用加上轉(zhuǎn)置符號“T”，以行向量表示列向量，記為

向量Xj的長度，就是它的內(nèi)積（各分量平方和）的正平方根，或稱為向量Xj的模，記作｜Xj｜，即

這里表示變量Xj的一組觀測數(shù)據(jù)的總和，n為樣本量。

1.4.2　數(shù)據(jù)的中心化

某一變量的各個(gè)觀測值減去該變量全體觀測值的平均值，所得到的差稱為各個(gè)觀測值的離均值，即

離均值=觀測值-平均值，

觀測值的離均值矩陣Xc為

式中

是變量Xj的平均值，j=1，2，……，p。

例如，多元數(shù)據(jù)表1.1（a）中被試1的語文離均值是其語文分?jǐn)?shù)與語文分平均值之差，即

72-83.3=-11.3，

用同樣的方法，我們可以得到該表中每個(gè)被試的各科成績的離均值（參見表1.3）。

表1.3　多元變量數(shù)據(jù)的離均值

多元數(shù)據(jù)無論包含多少個(gè)變量，樣本量有多大，各變量離均值的平均值均為0。這種將原始數(shù)據(jù)變成離均值的變換稱為數(shù)據(jù)的中心化，其特點(diǎn)是讓0成為新觀測值（離均值）的中心。圖1.3（a）為表1.1（a）中語文與數(shù)學(xué)成績觀測值的散點(diǎn)圖，圖1.3（b）為語文與數(shù)學(xué)成績離均值的散點(diǎn)圖。圖中每個(gè)點(diǎn)代表一個(gè)被試，點(diǎn)的位置由各個(gè)被試的語文和數(shù)學(xué)成績（或離均值）決定。從圖中可知，數(shù)據(jù)的中心化只是使數(shù)軸產(chǎn)生了平移，并不改變數(shù)據(jù)的散布狀態(tài)，即不改變數(shù)據(jù)之間的相對位置。

1.4.3　數(shù)據(jù)的標(biāo)準(zhǔn)化

圖1.3　語文與數(shù)學(xué)成績的散點(diǎn)圖

變量的全體觀測值分別減去該變量的平均值后再除以其標(biāo)準(zhǔn)差，所得的數(shù)值稱為該變量的標(biāo)準(zhǔn)分，即

標(biāo)準(zhǔn)分=（觀測值-平均值）/標(biāo)準(zhǔn)差，

這種數(shù)據(jù)變換稱為數(shù)據(jù)的標(biāo)準(zhǔn)化。

標(biāo)準(zhǔn)分矩陣Z可表示為

式中Sj為第j個(gè)變量的標(biāo)準(zhǔn)差

在實(shí)際應(yīng)用中，常常用無偏標(biāo)準(zhǔn)差

來計(jì)算標(biāo)準(zhǔn)分，無偏標(biāo)準(zhǔn)差的平方為無偏方差。例如，表1.1（a）中語文的無偏方差為58.68，被試1的語文成績的無偏標(biāo)準(zhǔn)分為

用同樣方法，我們可以得到表1.1（a）中每個(gè)被試的各科成績的標(biāo)準(zhǔn)分（參見表1.4）。用無偏標(biāo)準(zhǔn)差對變量進(jìn)行標(biāo)準(zhǔn)化后，標(biāo)準(zhǔn)分矩陣中的新變量平均值為0，且無偏方差為1（方差略小于1）。

表1.4　多元變量數(shù)據(jù)的標(biāo)準(zhǔn)分

由上可知，數(shù)據(jù)標(biāo)準(zhǔn)化的特點(diǎn)是讓不同平均值、不同方差的原始變量都變換成平均值為0、方差相等（或都為1）的新變量。當(dāng)標(biāo)準(zhǔn)分為正值時(shí)，說明該個(gè)體的觀測值大于平均值；當(dāng)標(biāo)準(zhǔn)分為負(fù)值時(shí)，該個(gè)體的觀測值小于平均值。標(biāo)準(zhǔn)分的絕對值越大，則說明原始數(shù)據(jù)偏離平均值的距離越遠(yuǎn)。數(shù)據(jù)標(biāo)準(zhǔn)化以后統(tǒng)一了各原始變量的方差，例如散點(diǎn)圖1.4（a）是表1.1（a）語文、英語兩科原始分?jǐn)?shù)的散點(diǎn)圖，顯然數(shù)據(jù)在橫軸上的散布度比縱軸的大得多（語文的標(biāo)準(zhǔn)差是英語的1.6倍），但是在圖1.4（b）的兩科標(biāo)準(zhǔn)分散點(diǎn)圖中，縱、橫兩軸上的散布程度就一致了。

圖1.4　語文與英語的散點(diǎn)圖

對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，有助于變量內(nèi)部的比較與解釋。以表1.4為例，在語文標(biāo)準(zhǔn)分中水平最高的是6號被試，他的成績高于平均值約有1.5個(gè)標(biāo)準(zhǔn)差，與1號被試相比較，兩人的差距達(dá)3個(gè)標(biāo)準(zhǔn)差。如果知道三科分?jǐn)?shù)的統(tǒng)計(jì)分布的話，不但可以了解某學(xué)生的各科成績在總體中的位置，還可以進(jìn)行更為精細(xì)的橫向比較。但是必須注意到標(biāo)準(zhǔn)分雖然統(tǒng)一了各變量的平均值與方差，但失去了原始數(shù)據(jù)的平均值與方差等信息。如果手頭僅有各變量的標(biāo)準(zhǔn)分，是無法變回到原始分?jǐn)?shù)的。

官术网_书友最值得收藏!

心理與教育研究中的多元統(tǒng)計(jì)方法

1.4 多元數(shù)據(jù)的矩陣表示及變換

1.4　多元數(shù)據(jù)的矩陣表示及變換