官术网_书友最值得收藏!

第一節(jié) 信度

一、信度的定義

測量的信度指的是測量結(jié)果的穩(wěn)定性程度,是對測量一致性程度的估計(jì)。若能用同一測量工具反復(fù)測量某個(gè)人的同一心理特質(zhì),其多次測量結(jié)果之間的一致性程度就叫信度,也稱測量的可靠性。

事實(shí)上,心理測量遠(yuǎn)比物理測量復(fù)雜得多,我們不大可能用同一測驗(yàn)工具去反復(fù)測驗(yàn)同一個(gè)人的同一心理特質(zhì)。例如,將同一份智力測驗(yàn)短時(shí)間內(nèi)反復(fù)試用在同一批人身上,其測驗(yàn)結(jié)果很可能會(huì)因練習(xí)或反復(fù)經(jīng)驗(yàn)而使得成績越來越好。因此,我們有必要尋求更為實(shí)際的可操作的辦法。

信度是測量過程中所存在的隨機(jī)誤差大小的反映。信度只受隨機(jī)誤差的影響,不受系統(tǒng)誤差的影響。系統(tǒng)誤差雖然改變了結(jié)果的真實(shí)性,但每次都對測驗(yàn)結(jié)果產(chǎn)生恒定效應(yīng),沒有改變結(jié)果的一致性與穩(wěn)定性,因而,不影響信度。

下面介紹信度的3種彼此等價(jià)的統(tǒng)計(jì)定義。

定義1:信度是一個(gè)被試團(tuán)體的真分?jǐn)?shù)的變異與實(shí)得分?jǐn)?shù)的變異數(shù)之比。即

公式2-1中rxx代表測量的信度,S2T代表真分?jǐn)?shù)變異,S2X代表總變異數(shù),即實(shí)得分?jǐn)?shù)的變異。

定義2:信度是一個(gè)被試團(tuán)體的真分?jǐn)?shù)與實(shí)得分?jǐn)?shù)的相關(guān)系數(shù)的平方。即

定義3:信度乃是一個(gè)測驗(yàn)X(A卷)與它的任意一個(gè)平行測驗(yàn)X'(B卷)的相關(guān)系數(shù)。即

其中,定義1和定義2只有理論意義,只有定義3才具有實(shí)際意義。

二、信度的指標(biāo)

(一)信度系數(shù)和信度指數(shù)

信度系數(shù)是一種相關(guān)系數(shù),是指同一受測者樣本所得的兩組資料的相關(guān)。是表示測量信度高低的指標(biāo),其閾值為(0,1),由于隨機(jī)誤差的存在,沒有百分之一百準(zhǔn)確可靠的測量,故r=1是理論上的值。信度系數(shù)有多種,一個(gè)測驗(yàn)可以有多個(gè)信度估計(jì)值,同一種信度系數(shù)也會(huì)因樣本、測查時(shí)間不同而有多個(gè)。

此外,描述測量一致性程度的指標(biāo)還可以用信度指數(shù),它實(shí)際上是信度系數(shù)的平方根。

(二)測量的標(biāo)準(zhǔn)誤

是一次測量中誤差大小的客觀指標(biāo),是指實(shí)得分?jǐn)?shù)中有多少比例是由誤差導(dǎo)致的。標(biāo)準(zhǔn)誤的公式為

由公式2-4可以看出,標(biāo)準(zhǔn)誤與信度系數(shù)呈負(fù)相關(guān),信度越高,標(biāo)準(zhǔn)誤越小,信度越低,標(biāo)準(zhǔn)誤越大。

信度可以幫助進(jìn)行不同測驗(yàn)分?jǐn)?shù)的比較。具體辦法是采用差異的標(biāo)準(zhǔn)誤來進(jìn)行差異的顯著性檢驗(yàn),其公式為

公式2-5中,S為相同信度的標(biāo)準(zhǔn)分?jǐn)?shù)的標(biāo)準(zhǔn)差,rxx和rxy分別是兩個(gè)測驗(yàn)的信度系數(shù)。

值得注意的是,信度系數(shù)只是對測量分?jǐn)?shù)一致性的估計(jì),但并沒有指出不一致的原因,同時(shí),獲得較高的信度只是測驗(yàn)有效的必要條件而非充分條件。

三、信度的評(píng)估方法

(一)重測信度

用同一個(gè)測驗(yàn),對同一組被試前后兩次施測,兩次測驗(yàn)分?jǐn)?shù)所得的相關(guān)系數(shù)為重測信度。其大小等于同一組被試在兩次測驗(yàn)上所得分?jǐn)?shù)的皮爾遜積差相關(guān)系數(shù)。

重測信度值越大,說明前后兩次測驗(yàn)結(jié)果越一致,被試的心理特質(zhì)受被試狀態(tài)和環(huán)境變化的影響越小,該測驗(yàn)跨時(shí)間的穩(wěn)定性越好。由于重測信度具有跨時(shí)間上的穩(wěn)定性,重測信度較高的測驗(yàn)被用于預(yù)測人在短期內(nèi)的情況是比較好的。重測信度的誤差來源有:測驗(yàn)所測的特性本身就不穩(wěn)定;成熟、知識(shí)的積累、聯(lián)系和記憶效果這些變量都具有個(gè)體差異;此外,還有偶發(fā)因素帶來的誤差等。

重測信度的使用具有一定的前提條件:第一,所測量的心理特性必須是穩(wěn)定的;第二,遺忘和練習(xí)的效果基本上相互抵消;第三,在兩次施測間隔期內(nèi),被試沒有獲得更多的學(xué)習(xí)和訓(xùn)練。

(二)復(fù)本信度

根據(jù)一組被試在兩個(gè)平行(等值)測驗(yàn)上的得分計(jì)算的相關(guān)系數(shù)即為復(fù)本信度。其大小等于同一批被試在兩個(gè)復(fù)本測驗(yàn)上所得分?jǐn)?shù)的皮爾遜積差相關(guān)系數(shù)。如果兩個(gè)復(fù)本測驗(yàn)是同時(shí)連續(xù)施測的,稱為等值性系數(shù)。這個(gè)系數(shù)反映兩個(gè)復(fù)本測驗(yàn)的題目差別所帶來的變異情況。如果兩個(gè)復(fù)本測驗(yàn)是相距一段時(shí)間分兩次施測的,則稱為穩(wěn)定-等值性系數(shù)(重測復(fù)本信度)。題目差別、施測時(shí)的時(shí)間差別都會(huì)導(dǎo)致穩(wěn)定-等值性系數(shù)不同。它是對信度最嚴(yán)格的檢驗(yàn),其值最低。

復(fù)本信度的誤差來源有:非平行測驗(yàn)的兩個(gè)復(fù)本之間的差異;被試的情緒波動(dòng)、動(dòng)機(jī)變化等;測驗(yàn)情景的變化,偶發(fā)因素的干擾等。

復(fù)本信度使用的前提條件:第一,要構(gòu)造出兩份或兩份以上真正平行的測驗(yàn)(即A、B卷)。所謂真正平行,即復(fù)本測驗(yàn)之間必須在題目內(nèi)容、數(shù)量、形式、難度、區(qū)分度、指導(dǎo)語、時(shí)限以及所用的例題、公式和測驗(yàn)等其他方面都相同或相似。第二,被試要有條件接受兩個(gè)測驗(yàn)。

(三)分半信度

按正常的程序?qū)嵤y驗(yàn),然后將全部項(xiàng)目分為相等的兩半(一般使用奇偶分半法),根據(jù)個(gè)人在這兩半測驗(yàn)的分?jǐn)?shù)計(jì)算其相關(guān)系數(shù)。有時(shí)也被稱作內(nèi)部一致性系數(shù)。

分半信度的計(jì)算方法與復(fù)本信度類似,但需要注意的是,被試在兩個(gè)分半測驗(yàn)上分?jǐn)?shù)的相關(guān)只是半個(gè)測驗(yàn)的信度,必須使用公式加以校正。當(dāng)兩部分方差相等(方差齊性檢驗(yàn)呈齊性時(shí)),可以用斯皮爾曼-布朗公式加以校正

公式2-6中,rhh為兩半分?jǐn)?shù)間的相關(guān)系數(shù),rxx為整個(gè)測驗(yàn)的信度值。

分半信度通常是在只能施測一次或沒有復(fù)本的情況下使用。分半時(shí)操作方法有很多,如按題號(hào)的奇偶性分半、按題目的難度分半、按題目的內(nèi)容分半等。同一個(gè)測驗(yàn)通常會(huì)有多個(gè)分半信度值。

(四)同質(zhì)性信度

同質(zhì)性信度也稱內(nèi)部一致性系數(shù),指的是測驗(yàn)內(nèi)部所有題目間的一致性程度。一致性有兩個(gè)含義,即測驗(yàn)題目測的是同一種心理特質(zhì);所有題目得分之間都具有較高的正相關(guān)。

當(dāng)一個(gè)測驗(yàn)具有較高的同質(zhì)性信度時(shí),說明測驗(yàn)主要測的是某一單個(gè)心理特質(zhì),實(shí)測結(jié)果就是該特質(zhì)水平的反映;若同質(zhì)性信度不高,說明測驗(yàn)結(jié)果可能是幾種心理特質(zhì)的綜合反映。測量單一特性是同質(zhì)性高的必要而非充分條件,同質(zhì)性高是測得單一特質(zhì)的充分條件。同質(zhì)性的計(jì)算方法有四種。

1.庫德-理查遜信度系數(shù)20(KR20)

公式2-7中,K是題目數(shù),pi為第i題的通過率,qi為第i題的未通過率,S2x為整個(gè)測驗(yàn)的總分方差。庫德-理查遜公式20僅適用于(0,1)記分的測驗(yàn)。

2.庫德-理查遜信度系數(shù)21(KR21)

公式2-8中,各指標(biāo)與KR20相同,只適合分別表示題目的平均通過率和失敗率,只有當(dāng)所有題目的難度接近時(shí)才適用。

3.克龍巴赫系數(shù)

庫德-理查遜公式只適用于﹙0,1﹚記分的測驗(yàn),若測驗(yàn)采用的不是﹙0,1﹚記分,庫德-理查遜公式就不適用了,一般采用克龍巴赫系數(shù)。

公式2-9中,各指標(biāo)與KR20相同,S2i是所有被試在第i題上的分?jǐn)?shù)變異。庫德-理查遜公式其實(shí)是克龍巴赫系數(shù)在﹙0,1﹚記分時(shí)的特例。

(五)評(píng)分者信度

評(píng)分者信度是指多個(gè)評(píng)分者給同一批人的答卷進(jìn)行評(píng)分的一致性程度。隨機(jī)抽取部分試卷,由兩個(gè)或多個(gè)評(píng)分者獨(dú)立按評(píng)分標(biāo)準(zhǔn)打分,然后求評(píng)分之間的相關(guān)。當(dāng)評(píng)分者人數(shù)為兩人時(shí),可用積差相關(guān)和等級(jí)相關(guān);當(dāng)評(píng)分者人數(shù)多于兩人時(shí),評(píng)分者信度可用肯德爾和諧系數(shù)進(jìn)行估計(jì);當(dāng)評(píng)分者人數(shù)K=(3~20),被評(píng)者人數(shù)N=(3~7)時(shí),可直接查W表檢驗(yàn),當(dāng)實(shí)際計(jì)算的W值大于表中對應(yīng)值時(shí),說明評(píng)分者所得信度較高;若被評(píng)對象多于7個(gè),則可計(jì)算X2值,作X2檢驗(yàn)。計(jì)算方法為

一般要求在成對的受過訓(xùn)練的評(píng)分者之間平均一致性達(dá)0.90以上,才認(rèn)為評(píng)分是客觀的。

四、影響信度的因素

測驗(yàn)的信度與很多因素都有著密切的聯(lián)系,測驗(yàn)中的各種因素都有可能影響信度。主要的影響因素有:

(一)被試方面

就單個(gè)被試而言,被試的身心健康狀況、應(yīng)試動(dòng)機(jī)、注意力、耐心、求勝心、作答態(tài)度(猜測)等會(huì)影響測量誤差。就被試團(tuán)體而言,整個(gè)團(tuán)體內(nèi)部水平的離散程度以及團(tuán)體的平均水平都會(huì)影響測量信度。

(二)主試者方面

就施測者而言,若不按指導(dǎo)手冊中的規(guī)定施測,或故意制造緊張氣氛,或給以暗示、協(xié)助等,都會(huì)影響測量的信度,導(dǎo)致測量信度降低。

(三)評(píng)分者方面

就評(píng)分者而言,評(píng)分者對測量特質(zhì)的理解、對測量標(biāo)準(zhǔn)的把握、自身行為風(fēng)格的嚴(yán)謹(jǐn)程度等都會(huì)影響測驗(yàn)的信度。若評(píng)分標(biāo)準(zhǔn)掌握不一,或前緊后松,甚至隨心所欲,則也會(huì)降低測量信度。

(四)施測情境方面

凡是影響受測者的因素都可能影響信度。考場是否安靜、光線和通風(fēng)情況是否良好、所需設(shè)備是否齊全、桌面是否合乎要求、空間闊窄是否恰當(dāng)?shù)榷伎赡苡绊憸y量信度。

(五)測量工具方面

測量工具是否性能穩(wěn)定是測量工作成敗的關(guān)鍵因素之一。一般情況下,試題的取樣、試題之間的同質(zhì)性程度、試題的難度等都是影響測驗(yàn)穩(wěn)定性的主要因素。

(六)兩次施測的間隔時(shí)間

計(jì)算重測信度和穩(wěn)定性與等值性系數(shù)時(shí),兩次測驗(yàn)相隔時(shí)間越短,其信度值越大;間隔時(shí)間越長,各種影響測試結(jié)果的不確定因素就越多,誤差可能越大,信度值就可能越小。

針對以上這些影響測驗(yàn)信度的因素,常用于提高測量信度的方法有:

(一)適當(dāng)增加測驗(yàn)中與原題目具有良好同質(zhì)性的題目,增加測驗(yàn)的長度。要注意:第一,新增題目必須與試卷中原有項(xiàng)目同質(zhì);第二,新增項(xiàng)目的數(shù)量必須適度,注意邊際效應(yīng)。

(二)將測驗(yàn)中所有試題的難度控制在中等水平,整個(gè)題量接近正態(tài)分布。也就是說,使測題的難度在0.5±0.2的范圍,且中間難度的題目數(shù)量多,兩端題目數(shù)量偏少。

(三)努力提高測驗(yàn)試題的區(qū)分度。測驗(yàn)項(xiàng)目能敏感地將不同水平的受測者鑒別出來,以確保整個(gè)測驗(yàn)的鑒別力。

(四)選取恰當(dāng)?shù)谋辉噲F(tuán)體,提高測驗(yàn)在各同質(zhì)性較強(qiáng)的亞團(tuán)體上的信度。一定要弄清楚常模團(tuán)體的年齡、性別、文化程度、職業(yè)、愛好等因素。只有各亞團(tuán)體信度值都合乎要求的測驗(yàn)才具有廣泛的應(yīng)用。

(五)主試者規(guī)范操作。嚴(yán)格執(zhí)行施測規(guī)程,評(píng)分者嚴(yán)格按照標(biāo)準(zhǔn)給分,施測場地按施測手冊的要求進(jìn)行布置,減少無關(guān)因素的干擾。

五、信度與測驗(yàn)結(jié)果的解讀

(一)解釋真實(shí)分?jǐn)?shù)與實(shí)得分?jǐn)?shù)的相關(guān)

信度系數(shù)可以解釋為總的方差中有多少比例是由真實(shí)分?jǐn)?shù)的方差決定的,也就是測驗(yàn)的總變異中真分?jǐn)?shù)造成的變異占百分之幾。

(二)確定信度可以接受的水平

不同的測驗(yàn)有不同的信度水平要求,一般原則是:當(dāng)rxx<0.70時(shí),測驗(yàn)不能用于對個(gè)人做出評(píng)價(jià)和預(yù)測,也不能作團(tuán)體比較;當(dāng)0.70≤rxx≤0.85時(shí),可用于團(tuán)體比較;當(dāng)rxx>0.85時(shí),才能用來鑒別或預(yù)測個(gè)人成績或作為。

(三)解釋個(gè)人分?jǐn)?shù)的意義

測量必然有隨機(jī)誤差,測量的標(biāo)準(zhǔn)誤是一次測量中誤差大小的客觀指標(biāo),從信度可以解釋個(gè)人分?jǐn)?shù)的意義,這是測量標(biāo)準(zhǔn)誤的應(yīng)用。信度可以估計(jì)真分?jǐn)?shù)的范圍,了解實(shí)得分?jǐn)?shù)再測時(shí)可能的變化情形。根據(jù)標(biāo)準(zhǔn)誤的公式可以看出,如果知道了信度系數(shù)和標(biāo)準(zhǔn)差就可以計(jì)算出標(biāo)準(zhǔn)誤,進(jìn)而估計(jì)出真分?jǐn)?shù)的可能范圍,對團(tuán)體中任何一個(gè)人的測驗(yàn)成績作恰當(dāng)?shù)慕忉尅2煌闹眯潘綄?yīng)不同的置信區(qū)間,取95%的置信水平,其置信區(qū)間為:

也就是說,真分?jǐn)?shù)大約有95%的可能性在實(shí)得分?jǐn)?shù)±1.96SE的范圍內(nèi)波動(dòng),高于上限和低于下限的可能性只有5%。例如,在一個(gè)智力測驗(yàn)中,某個(gè)被試的IQ為100,這是否反映了他的真實(shí)水平?如果再測一次,他的分?jǐn)?shù)將改變多少?已知該智力測驗(yàn)的標(biāo)準(zhǔn)差為15,信度系數(shù)為0.84,套用公式得SE=6,即IQ=100±1.96×6=100±11.76,我們可以說這個(gè)被試的真實(shí)IQ可能落在88與112之間,即若再測一次他的智商,低于88或高于112的可能性不超過5%。

(四)比較不同測驗(yàn)分?jǐn)?shù)的差異

信度可以幫助進(jìn)行不同測驗(yàn)分?jǐn)?shù)的比較。具體辦法是采用差異的標(biāo)準(zhǔn)誤來進(jìn)行差異的顯著性檢驗(yàn),參見公式2-5。

例如,某被試在韋氏成人智力測驗(yàn)中言語智商為102,操作智商為110。已知兩個(gè)分?jǐn)?shù)都是以100為平均數(shù)、15為標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)分?jǐn)?shù)。假設(shè)言語測驗(yàn)和操作測驗(yàn)的分半信度分別為0.87和0.88。其操作智商是否顯著高于言語智商呢?

先計(jì)算出差異分?jǐn)?shù)的標(biāo)準(zhǔn)誤:SED=7.5。

在統(tǒng)計(jì)上,經(jīng)常要求兩個(gè)分?jǐn)?shù)的差異程度達(dá)到0.05的顯著水平,才能承認(rèn)不是誤差的影響。因此,將差異標(biāo)準(zhǔn)誤(7.5)乘以1.96,結(jié)果為14.7,這表明個(gè)體在韋氏測驗(yàn)兩半得分的差異高于大約15分才能達(dá)到0.05的顯著水平,被試的差異分?jǐn)?shù)110-102=8是不顯著的。

主站蜘蛛池模板: 民丰县| 宁明县| 来安县| 阿荣旗| 大邑县| 邯郸县| 安阳县| 壤塘县| 永济市| 增城市| 古浪县| 长海县| 蓬莱市| 保山市| 铜陵市| 营山县| 柯坪县| 留坝县| 武威市| 灵台县| 区。| 永春县| 澜沧| 桃园县| 威宁| 岚皋县| 麻城市| 孙吴县| 邯郸县| 德阳市| 班戈县| 许昌县| 波密县| 佛山市| 晋州市| 汾西县| 杭锦后旗| 孙吴县| 潮州市| 石家庄市| 涡阳县|