- 心理與教育研究中的多元統計方法
- 曹亦薇 張一平
- 1413字
- 2019-11-29 16:46:27
1.2 多元數據的尺度水平
作為變量值的數據,根據它描述變量屬性的精細程度可以從低到高分為四類:名義數據(nominal data)、順序數據(ordinal data)、等距數據(interval data)、比例數據(ratio data),有時直接稱這四類數據為四個尺度水平(scale level)。
(1)名義數據也稱為分類/命名數據,是指用相同的數值來表示同類事物、不同的數值表示不同類別事物。例如,表1.1(a)中的性別變量,“0”表示男生,“1”表示女生。又如,對汽車顏色的變量,“1”表示白色,“2”表示紅色,“3”表示黃色,“4”表示黑色。這些數據沒有大小、優劣之分,只能區分性別、顏色等類別。類似這樣的變量在社會調查中頗為常見。由于名義數據只是按照觀察對象的某種屬性進行分類或分組,它不能比較大小,也不參與四則運算,統計分析中常用于各類別的次數計算。
(2)順序數據也稱為定序數據,是按觀察對象某種屬性的強弱或多少將各個對象排序后獲得的數據。例如,產品質量的等級分數、用數字表示消費者對某種食品的喜好程度、比賽成績的名次等都屬于順序數據。順序數據也可以分類,但最主要的功能是確定這些屬性類別的強弱程度或數量多少。顯然順序數據要比名義數據精確,但它無法確定類別之間差異的大小。例如,在一次數學考試中第一名是張同學,第二名是李同學,第三名是王同學。盡管三名學生的名次只差一位,但我們無法確定張、李兩同學的得分之差和李、王同學的得分差距是否相同,它們可能相等,也可能差異很大,故順序數據不能進行加減乘除的運算。
(3)等距數據又稱為區間數據,是表示觀察對象屬性的數量特征,是對屬性類別或次序之間差距的測量。例如,某地室外氣溫觀察:早上6時的氣溫為25℃,中午12時的氣溫為32℃,下午18時的氣溫為28℃,午夜24時的氣溫為21℃。那么該地區6時到12時與18時到24時的溫差均為7℃,說明這兩個時段的溫度變化是相等的。需要注意的是,若氣溫為0℃,不是沒有溫度,而是表示氣溫到達冰點。因此,沒有絕對零點是等距數據的特征之一。像這類溫度變量的數據就是等距數據,它能夠分類、排序,而且還可以準確地表示類別間差距的大小。這類數據的單位相等,可進行加減運算,但由于無絕對零點,故不能進行乘除運算。心理學中的智商、能力分數等變量屬于此類數據。
(4)比例數據又稱為等比數據,也是反映觀察對象屬性的數量特征的一類數據。它與等距數據的差別在于有絕對固定的零點,簡單地說,比例數據中的“0”表示“沒有”。身高、體重、反應時間等變量都屬于比例數據。這類數據除了具備前三種數據的全部特征外,還可以計算兩個數據之間的比值。例如,父親、兒子的體重分別是60.3kg,20.1kg,我們可以說父親的體重是兒子的3倍。由于比例數據的單位相等,有絕對零點,因此可以進行加減乘除的四則運算。
上述四種數據對事物的測量水平是由低到高逐步遞進的,高水平的數據包含了低水平數據的全部特性。高水平的數據轉化為低水平的數據是比較容易的,而將低水平的數據轉化為高水平的數據則很難。因此,在數據采集時應針對變量的特點設定相應的尺度水平,避免人為降低測量精度。
上述四種數據還可劃分為計數數據和計量數據兩大類。名義數據屬于計數數據,等距數據和比例數據屬于計量數據。順序數據依據分析目的,有時為計數數據,多數情況屬于計量數據。計數數據大都屬于離散型數據,而計量數據大都借助某種測量工具獲得,一般屬于連續型數據。其連續性程度取決于測量技術所允許的精度。離散型數據與連續型數據的分布規律不同,因而適用的統計分析方法也有區別。