書名: 認知診斷評價理論基礎作者名: 羅照盛本章字數: 2558字更新時間: 2019-12-06 20:01:38
第二節 從經典測量理論到項目反應理論
一、經典測量理論的優勢和不足
經典測量理論(classical test theory,CTT)圍繞著真分數(true score)的概念建立了第一代心理測量學理論架構,認為測量所得觀察分數等于真分數加上誤差分數,真分數包括目標真分數和非目標真分數(系統誤差分數),誤差分數是隨機誤差影響的結果。目標真分數是研究者希望測量到的心理特質的實際水平值,記為V;隨機誤差分數是在測量過程中由于各種隨機誤差因素影響而產生的分數,記為E;非目標真分數是由于系統性誤差的影響產生的分數,記為I。隨機誤差分數和非目標真分數都是誤差分數,是測量者要嚴加控制乃至希望消除的測量值。測量學還將目標真分數與非目標真分數合在一起稱為真分數,記為T。真分數是使用測量工具實際觀察到的穩定的測量值,真分數中不含隨機誤差分數,但它含有我們主觀上不想測量但實際上卻測量到了的非目標真分數。經典測量理論進一步假設:真分數T是目標真分數V與非目標真分數I的線性組合,觀察分數X是真分數T和隨機誤差分數E的線性組合,即
經典測量理論還假設目標真分數、非目標真分數與隨機誤差分數都是相互獨立的。由此推得以下兩個公式:
上面公式中的符號分別代表各種相應分數的方差。方差代表的是分數離散程度的大小,同時也說明了相應因素(心理特質、隨機誤差、系統誤差)對分數取值影響的大小。方差越大表示該因素對被試的評價結果所起的作用越大。將目標真分數方差、非目標真分數方差與隨機誤差分數方差三者相比,我們顯然希望目標真分數方差越大越好,而非目標真分數方差與隨機誤差分數方差都越小越好。根據以上公式可知,三者大小取決于各自在觀察分數方差中所占的比例。
經典測量理論的核心概念包括真分數、信度和效度。這些概念的操作性定義主要是基于相關分析技術的。比如,真分數就是使用同一方法對被試同一心理特質進行多次重復測量后獲得的一致分數,該一致性程度通過信度系數來表示,而信度系數就是多次測量結果之間的相關性程度。經典測量理論從建立起到現在一直是指導各類測量活動或研究的重要理論,該理論的主要優勢是基于經驗的分析方法和簡單易懂的分析技術。
經典測量理論由于簡單易懂和效果良好而成為應用最為廣泛的一種心理與教育測量學理論。然而,在測量學研究走向精細化時,經典測量理論一些不足的方面就表現出來了:首先,被試水平是通過觀察分數總分來評價的,這個分數只能表示被試在本次測試中的相對地位(通過導出分數)和對內容掌握的程度,無法進行更精細的定位和描述;其次,數據分析結果依賴于樣本,也就是說,被試水平描述和項目參數特性會隨著測試樣本的變化而變化,獲取的參數無法遷移應用到其他測試情境中;再次,被試參數和項目參數不在同一度量單位系統,被試水平和項目作答結果之間沒有內在的關聯通道;最后,測量標準誤被定義在測驗整體質量的評價上,無法評價單個項目對單個被試的測量質量。
二、項目反應理論的優勢和不足
影響被試在項目上的作答結果的主要因素有兩個:一是被試自身的能力水平;二是項目的計量學屬性,如項目難度、區分度、猜測性等。按照一般經驗來說,在同一個項目上,能力水平越高的被試,答對這個項目的可能性就越大;而對于同一個被試來說,越容易的項目就越可能被答對。
作為現代測量理論代表之一的項目反應理論(item response theory,IRT),它的特點是以概率函數的形式來描述項目作答反應結果是如何受到被試能力水平和項目特性聯合作用的影響的。具體來說,就是依據被試在各個項目上的實際作答反應結果,經數學模型的運算,統一估計出被試的能力(abilities)水平或潛在心理特質(latent traits)水平,以及項目的計量學參數。描述被試能力水平、項目參數與項目作答結果之間關系的數學模型稱為項目特征函數(item characteristic function,ICF),以圖形表示則稱為項目特征曲線(item characteristic curve,ICC)。圖1-1為典型的項目特征曲線:橫軸表示被試的能力水平,縱軸表示概率。例如,曲線上有A、B、C、D、E 5個點,它們分別代表了5位不同能力水平的被試在該項目上的答對概率。由圖可知,在一定范圍內,能力值(θ)越大,答對該項目的概率(p)就越大。
圖1-1 典型的項目特征曲線圖
項目反應理論將項目視為測量被試能力水平的基本單位,項目的屬性通過項目參數來描述。項目一般包含以下3個典型的計量學參數:①a參數,即區分度參數,它的值越大表示項目對不同被試能力水平的鑒別力越強;反之,則鑒別力越弱。在項目特征曲線圖中,a參數反映了項目特征曲線的斜率,其理論值介于-∞和+∞之間,但在實際應用中的取值一般介于0和3之間。②b參數,即難度參數,它的值越大表示項目越難,在項目特征曲線圖中,它反映了項目特征曲線位于能力量尺上的位置,因假定被試的能力值介于-∞和+∞之間,所以b參數的理論值范圍亦然。不過,在實際應用中,被試能力值取值一般介于-3和+3之間。③c參數,就是猜測參數,代表了被試僅憑猜測答對項目的可能性,它的值越大表示不論被試能力水平高低,均更容易答對這個項目;值越小,則表示光憑猜測不易答對這個項目。c參數反映項目特征曲線的左下漸近線(lower asymptote)的高度,其理論值介于0與1之間。但是,在實際應用中,c參數過高的項目經常不被接受。
項目反應理論以項目特征函數來描述項目作答反應結果與被試能力水平及項目參數之間的關系,因所包含的參數個數不同,函數可被區分為不同的模型。常用的數學模型有單參數模型、雙參數模型及三參數模型3種。各模型的項目特征函數如式(1-6)至式(1-8)所示。
單參數模型:
雙參數模型:
三參數模型:
式子中:D為常數1.7;e為自然對數的底;j為被試編號;θj為第j位被試的能力值;i為項目編號;ai,bi,ci分別表示第i題的區分度參數、難度參數、猜測參數;Pij(θj)表示能力值為θj的被試答對第i題的概率。當然,也可以將函數式用圖形表示,稱為項目特征曲線。
項目反應理論彌補了經典測量理論主要的不足,在指導測量實踐方面體現了更大的優勢,同時也一直是測量學領域研究的主要方向之一。項目反應理論在對被試群體進行總結性評價(summative assessment)時具有明顯的優勢,在各類競爭性選拔測試中如入學、入職、晉升、榮譽授予等方面得到廣泛應用。然而,項目反應理論研究者一直沒有足夠重視對被試潛在特質的精細化分析。雖然多維項目反應理論將測試的潛在特質引向了精細化的方向,但研究者一直沒有充分地關注對測試的特質內容本身的意義的分析。