官术网_书友最值得收藏!

1.4 多元數(shù)據(jù)的矩陣表示及變換

1.4.1 觀測數(shù)據(jù)

多元數(shù)據(jù)的結(jié)構(gòu)一般如表1.2所示,Xij表示第i個(gè)個(gè)體的關(guān)于第j個(gè)變量的觀測數(shù)據(jù)或觀察值,觀測數(shù)據(jù)既可以是連續(xù)型數(shù)據(jù),也可以是離散型數(shù)據(jù)。

表1.2 多變量數(shù)據(jù)的一般形式

統(tǒng)計(jì)學(xué)中將這種數(shù)據(jù)結(jié)構(gòu)用矩陣表示為:

在數(shù)據(jù)矩陣中通常不同的行對應(yīng)不同的個(gè)體(獲取數(shù)據(jù)的觀測對象),不同的列對應(yīng)不同的變量(對個(gè)體進(jìn)行觀測的指標(biāo))。矩陣(1.1)就是一張n行p列的數(shù)表,記為X或

行數(shù)n=1時(shí),X便退化為一個(gè)行向量(1×p的矩陣)。行向量一般記為

式中i表示第i個(gè)記錄,等號右邊括號內(nèi)就是第i個(gè)個(gè)體關(guān)于p個(gè)變量的p個(gè)觀測數(shù)據(jù)。

X的列數(shù)p=1時(shí),X便退化為一個(gè)列向量(n×1的矩陣)。列向量一般記為

式中Xj表示第j個(gè)變量的全體n個(gè)觀測數(shù)據(jù)。有時(shí)等號右邊的分量下標(biāo)j可以省略。

為了簡化書寫,亦可用加上轉(zhuǎn)置符號“T”,以行向量表示列向量,記為

向量Xj的長度,就是它的內(nèi)積(各分量平方和)的正平方根,或稱為向量Xj的模,記作|Xj|,即

這里表示變量Xj的一組觀測數(shù)據(jù)的總和,n為樣本量。

1.4.2 數(shù)據(jù)的中心化

某一變量的各個(gè)觀測值減去該變量全體觀測值的平均值,所得到的差稱為各個(gè)觀測值的離均值,即

離均值=觀測值-平均值,

觀測值的離均值矩陣Xc

式中

是變量Xj的平均值,j=1,2,……,p。

例如,多元數(shù)據(jù)表1.1(a)中被試1的語文離均值是其語文分?jǐn)?shù)與語文分平均值之差,即

72-83.3=-11.3,

用同樣的方法,我們可以得到該表中每個(gè)被試的各科成績的離均值(參見表1.3)。

表1.3 多元變量數(shù)據(jù)的離均值

多元數(shù)據(jù)無論包含多少個(gè)變量,樣本量有多大,各變量離均值的平均值均為0。這種將原始數(shù)據(jù)變成離均值的變換稱為數(shù)據(jù)的中心化,其特點(diǎn)是讓0成為新觀測值(離均值)的中心。圖1.3(a)為表1.1(a)中語文與數(shù)學(xué)成績觀測值的散點(diǎn)圖,圖1.3(b)為語文與數(shù)學(xué)成績離均值的散點(diǎn)圖。圖中每個(gè)點(diǎn)代表一個(gè)被試,點(diǎn)的位置由各個(gè)被試的語文和數(shù)學(xué)成績(或離均值)決定。從圖中可知,數(shù)據(jù)的中心化只是使數(shù)軸產(chǎn)生了平移,并不改變數(shù)據(jù)的散布狀態(tài),即不改變數(shù)據(jù)之間的相對位置。

1.4.3 數(shù)據(jù)的標(biāo)準(zhǔn)化

圖1.3 語文與數(shù)學(xué)成績的散點(diǎn)圖

變量的全體觀測值分別減去該變量的平均值后再除以其標(biāo)準(zhǔn)差,所得的數(shù)值稱為該變量的標(biāo)準(zhǔn)分,即

標(biāo)準(zhǔn)分=(觀測值-平均值)/標(biāo)準(zhǔn)差,

這種數(shù)據(jù)變換稱為數(shù)據(jù)的標(biāo)準(zhǔn)化。

標(biāo)準(zhǔn)分矩陣Z可表示為

式中Sj為第j個(gè)變量的標(biāo)準(zhǔn)差

在實(shí)際應(yīng)用中,常常用無偏標(biāo)準(zhǔn)差

來計(jì)算標(biāo)準(zhǔn)分,無偏標(biāo)準(zhǔn)差的平方為無偏方差。例如,表1.1(a)中語文的無偏方差為58.68,被試1的語文成績的無偏標(biāo)準(zhǔn)分為

用同樣方法,我們可以得到表1.1(a)中每個(gè)被試的各科成績的標(biāo)準(zhǔn)分(參見表1.4)。用無偏標(biāo)準(zhǔn)差對變量進(jìn)行標(biāo)準(zhǔn)化后,標(biāo)準(zhǔn)分矩陣中的新變量平均值為0,且無偏方差為1(方差略小于1)。

表1.4 多元變量數(shù)據(jù)的標(biāo)準(zhǔn)分

由上可知,數(shù)據(jù)標(biāo)準(zhǔn)化的特點(diǎn)是讓不同平均值、不同方差的原始變量都變換成平均值為0、方差相等(或都為1)的新變量。當(dāng)標(biāo)準(zhǔn)分為正值時(shí),說明該個(gè)體的觀測值大于平均值;當(dāng)標(biāo)準(zhǔn)分為負(fù)值時(shí),該個(gè)體的觀測值小于平均值。標(biāo)準(zhǔn)分的絕對值越大,則說明原始數(shù)據(jù)偏離平均值的距離越遠(yuǎn)。數(shù)據(jù)標(biāo)準(zhǔn)化以后統(tǒng)一了各原始變量的方差,例如散點(diǎn)圖1.4(a)是表1.1(a)語文、英語兩科原始分?jǐn)?shù)的散點(diǎn)圖,顯然數(shù)據(jù)在橫軸上的散布度比縱軸的大得多(語文的標(biāo)準(zhǔn)差是英語的1.6倍),但是在圖1.4(b)的兩科標(biāo)準(zhǔn)分散點(diǎn)圖中,縱、橫兩軸上的散布程度就一致了。

圖1.4 語文與英語的散點(diǎn)圖

對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,有助于變量內(nèi)部的比較與解釋。以表1.4為例,在語文標(biāo)準(zhǔn)分中水平最高的是6號被試,他的成績高于平均值約有1.5個(gè)標(biāo)準(zhǔn)差,與1號被試相比較,兩人的差距達(dá)3個(gè)標(biāo)準(zhǔn)差。如果知道三科分?jǐn)?shù)的統(tǒng)計(jì)分布的話,不但可以了解某學(xué)生的各科成績在總體中的位置,還可以進(jìn)行更為精細(xì)的橫向比較。但是必須注意到標(biāo)準(zhǔn)分雖然統(tǒng)一了各變量的平均值與方差,但失去了原始數(shù)據(jù)的平均值與方差等信息。如果手頭僅有各變量的標(biāo)準(zhǔn)分,是無法變回到原始分?jǐn)?shù)的。

主站蜘蛛池模板: 余庆县| 南乐县| 双柏县| 铁岭市| 淄博市| 南陵县| 托里县| 阳西县| 南丰县| 孝义市| 子长县| 长葛市| 乌苏市| 资阳市| 赣州市| 三原县| 祁门县| 杭锦旗| 股票| 渝中区| 阳山县| 太湖县| 乐安县| 辉县市| 平远县| 拉萨市| 北京市| 永顺县| 屏南县| 浮梁县| 娄底市| 曲水县| 壤塘县| 吐鲁番市| 忻州市| 荥阳市| 平山县| 密云县| 汤原县| 景泰县| 卓资县|