- 心理與教育研究中的多元統計方法
- 曹亦薇 張一平
- 9字
- 2019-11-29 16:46:26
第1章 多元變量數據
1.1 什么是多元變量數據
在統計學中,變量(variable)是指具有相同屬性的觀測對象(個體)的數據集合。例如,人的身高變量,這個數據集合中所有數據必須取自人體身高的測量結果:160 cm,178 cm,154 cm……有時變量的取值不一定是數值,例如汽車顏色是描述汽車屬性的一個變量,可以是白、紅、黑、黃等不同顏色。但是在統計處理時,我們也可以將車色變量變換為一個數據的集合,例如,“1”表示白色,“2”表示紅色,等等,只不過這些數據只是表示顏色的類別而已。一旦確定了變量的某個值,這個值就稱為變量的一個觀測值(observation),即一個具體的數據(datum)。
多元變量數據是包含兩個以上變量的觀測數據的統稱,是對一組觀測對象關于兩個以上變量進行聯合觀測所取得的數據集合(Anderson,2003)。例如,表1.1(a)中的各個被試對應著各自的性別及學科成績變量,表1.1(b)中的各地區對應著學校數、在校學生數、專任教師數等不同的變量。表中的每行數據稱為某觀察對象的記錄,例如(0,72,68,82)是對1號同學的觀察記錄。
表1.1(a)多元變量數據

表1.1(b)多元變量數據(2012年部分地區普通高中基本情況)

多元變量數據有一個重要的特征,即變量間含有相互關系的信息。我們對多元變量數據進行統計分析,不僅要探討各變量內在的變化規律,還要在此基礎上把握全體數據的結構、分布規律,進而對研究對象、變量進行分類和簡化。這些分析都離不開變量間的相關性的信息。由多元變量數據拆分成單變量數據很簡單。例如,從表1.1(a)中只取出語文成績的數據就是一個單變量的數據。但是,對于多元變量數據,如果只用單變量的統計方法分析的話,就會丟失變量間相互關系的重要信息,導致結論出現偏差。
另外,不管有多少個單變量的數據,如果各變量的觀測值之間不能保證一一對應的關系(例如表1.1(a)中同一行的數據來自同一名被試),是不能合并為多元變量數據的。
為了讓初學者能夠正確分析和應用多元變量數據,我們將在本章中介紹這類數據的基本知識。方便起見,以后文中提及多元變量數據將簡稱為多元數據。