4.2 題目的設計和測量的編制
測量工具編制過程中最重要也是最困難的步驟,就是題目的編寫和收集。題目的編寫要經歷從編寫、集編,到預試、修改,然后再試測、再修改,這樣一個不斷重復的過程,直到得到一套令人滿意的、符合一定測量學指標的測試題。
至于編寫多少數量的題目合適,根據經驗,一般在客觀題的測驗中,為了可供篩選,編寫出的題目應比實際需要多20%以上,如果考慮到以后還要不斷篩選和修改,初次編寫的題目量可以比實際需要的多出一倍到幾倍。
測驗題目的來源
在測量的內容及形式設計完成之后,就可以根據所設計的內容和形式要求來收集和編寫題目。收集題目的方法有很多,包括從現成的測驗中選取、按照現有理論設計、請專家設計等。
最簡單、最直接的方法是,從已經出版的各種標準的測量工具中選擇合適的題目。例如,編制能力測驗就可以從已出版的包含所要測量能力的測驗中選取題目。當然,這樣做必須注意尊重原作者的知識產權。
現成的理論從來都是設計測驗題目的絕好參考。例如編制態度測量量表,則有關態度的類型、定義等理論都有參考和指導作用。又如,設計職業興趣測驗,可以按照斯特朗或霍蘭德等人的著名理論構架,即把職業興趣分為六大類型,來編制相應的題目。
專家無疑是設計測驗的重要資源。在實際操作上,既可以直接邀請專家設計題目,也可以參考專家的有關經驗、建議或以往的工作。以人格測驗為例,描述人格的術語可作為題目的來源。阿爾波特(G.Allport)等人曾總結出17953個描述人的特點的形容詞,將這些詞進行歸納后,就可作為編制題目的參考。
在收集題目時應注意幾個問題:
●題目的來源要盡可能豐富,這樣測量內容不至于偏頗,并能提高行為樣本的代表性;
●題目要有普遍性,尤其是成就測驗,要保證所有受測者都學過該測驗中題目所包含的內容;
●在編制智力或能力等本身不應體現文化影響的內容的測量題目時,要盡量避免文化背景差異的影響。也就是說,像能力測驗這樣的測量,應當對不同性別、種族、膚色、各種亞文化的群體具有公平性。
題目編寫的原則
對測量工具題目進行編寫要遵從某些一般原則,這些原則可以歸納為內容、語言、表達與理解四個方面。
1.針對題目內容的原則
●要求題目的內容符合測量工具的目的,避免貪多而亂出題目;
●內容取樣要有代表性,符合測量工具計劃的內容;
●各個試題必須彼此獨立,不可互相重復或牽連,切忌一個題目的答案影響對另一個題目的回答。
2.針對題目語言的原則
●使用準確的通用語言,不要使用生僻晦澀的詞句;
●文句須簡明扼要,既排除與解題無關的陳述,又不要遺漏解題的必要陳述;
●最好一句話說明一個概念,不要使用兩個或兩個以上的概念;
●語意必須明確,不得歧義或含糊,盡量少使用雙重否定句。
3.針對題目表達的原則
●盡量避免主觀性和情緒化的字句;
●不要傷害受測者感情,避免涉及社會禁忌或個人隱私;
●避免誘導和暗示答案;
●避免令受測者為難的問題(受測者沒有明確結論或羞于啟齒的問題)。
4.針對題目理解的原則
●題目應有確切答案,不應具有引起爭議的可能(創造力、人格類測驗例外);
●題目內容不要超出受測者的知識和能力范圍;
●題目的格式不要引起誤解。
題目的分類
題目的種類很多,根據受測者所做出的反應(回答)方式進行分類,可以分為提供型和選擇型題目。
●提供型題目(self-produced answer question)要求受測者提供答案,如問答題、填充題。另外,各種操作性題目,如畫圖、表演、完成某項任務、回答問題等,都可以算作提供型題目。
●選擇型題目(selective question)則要求受測者在提供的備選答案中選擇正確答案,如是非題、匹配題、選擇題。
由于操作性題目往往沒有什么固定模式,所以本節主要介紹紙筆類測驗的題目類型。
常用題目類型與編制要領
1.問答題
問答題的主要優點在于它能夠測量受測者組織材料的能力、綜合能力和文字表達能力,這些能力是其他客觀題難以測量的。相對來說,問答題有下列優勢:較好編制,題目無需太多;不需準備備選答案,答案是由受測者自己完成的;可以避免受測者猜測答案。
但是,問答題的缺點也很明顯:
首先,問答題一般回答時間長,占分數多,因此題量不宜太大,所以能測量到的內容也有限,對行為的取樣受到局限。由于取樣代表性差,則可能使某些受測者對某個論題碰巧很熟,得到“虛假的高分”,其結果的信度自然就會受到影響。
其次,問答題的評分標準不容易標準化。相對來說,評分者在掌握評分方法時可能有相當的主觀性,而且不同評分者的評分結果很難保持高度的一致。已有許多研究發現,不同評分者對同一答案的評分一致性相關系數僅在0.62~0.72之間。同一評分者對兩份等值的答案的評分信度更低,僅在0.42~0.43之間。即使同一評分者在隔一段時間后再評價同樣的測驗,也會出現前后評分的不一致。
再次,問答題的評分容易受書寫的整潔程度和個人成見等無關因素的影響。這可能是評分者非客觀性的主要來源之一。一方面,卷面形象可能使評分者形成印象分,影響最終評價;另一方面,問答題的閱卷比較費時,對評分者的耐心和仔細程度是一個挑戰。
一般來說,在可以用客觀題施測的情況下,盡量不要采用問答題形式。如果需要采用問答題施測,題目編寫者應該使問題及評分標準盡可能客觀,在編制時應注意以下幾點:
●問題應清楚而且明確,使受測者了解答題要求;
●題目的數量不要太多,以免變成速度測驗;
●在編制題目時應該有一個理想答案或一系列答題標準,同時對另外一些可接受的答案應有所規定和說明。
2.選擇題
選擇題通常包括兩個部分:一是題干,即呈現一個問題的情境,由直接問句或不完全的陳述句構成;另一是選項,即對問題的幾種可能的回答,包括正確答案及若干(一般1~5個)錯誤答案,這些錯誤答案叫做誘答,其主要作用在于迷惑那些無法確定答案的受測者。
選擇題適用于文字、數字和圖形等不同性質的材料,可以考察記憶分析、鑒別推理、理解和應用知識的能力,也可以考察對某一事物的看法和觀點。選擇題的主要優點包括:
●適用范圍廣,從一般知識到復雜能力的測量均可使用;
●題意明確,受測者的反應簡單,容易計分;
●與其他形式的客觀題相比,更少受猜測和反應定勢的影響,評分客觀;
●選擇題的題量可以較大,考察的范圍更廣,取樣代表性較高。
選擇題的不足之處在于誘答難以編制,誘答的數量要求多,而且還要似是而非,讓那些不知道正確答案的受測者感到無從選擇,這相對來說較為困難。另外,通過選擇題較難測出個體組織能力、表達能力和創造性等特點。
下面是編制選擇題的一般原則:
●題干所提出的問題必須明確,使用簡單和清晰的用詞,做到即使受測者不看選項的情況下,題干本身的意義也是完整的;
●不要將選項夾在題干中間,或者在題干前出現與問題無關的材料;
●選項要簡練,盡量將選項中共同的詞句(如限定語、條件)移至題干中,這樣不僅可以使題意清楚,而且可以減少受測者的閱讀時間;
●除特殊情況外,所有選項的長度應該大致相等,而且與題干的聯系要緊密,否則,本來正確的答案可能會因為邏輯上或語法上與題干不一致而被錯誤地排除;
●避免在題目中出現幫助受測者猜測正確答案的線索,例如,不應將正確選項描述得比誘答詳細得多,應避免出現兩個意義相同的誘答等;
●對于人格和態度的測量工具,題干的陳述應該不帶任何傾向性;
●如果選項是數字、日期、年齡等有邏輯順序的材料,則最好仍按順序排列,否則應隨機排列;
●答案在選項中的位置應當隨機出現,沒有任何規律,避免受測者猜測。
3.是非題
是非題的共同特征是只有兩種可能的反應,其中一種是肯定的(同意、正確、是),另一種是否定的(不同意、錯誤、否)。因此是非題可以當作是只有兩個選項的選擇題。
是非題容易受受測者反應定勢和猜測的影響,測驗分數的可靠性不如選擇題。所謂反應定勢(reaction set)就是指部分受測者在回答問題時,其答案的選擇建立在題目的形式或位置上(如偏向正面回答或否定回答),而不是建立在題目內容的基礎之上。另外,是非題僅有兩種答案,即使猜測,也有50%答對的可能性。如果還有其他額外的線索,猜對的可能性還會更高。彌補這一缺陷的方法之一是,加大題目數,使每一題目分數的偶然性對總分的影響相對減小。
當然,是非題也有其長處。它能很快閱讀與作答,因此題量可以較大,便于廣泛取樣;計分也比較客觀。在能力測驗中,是非題多用于只需快速粗略判斷受測者能力的情況。
編寫是非題時要注意以下幾點:
●測查的內容應以有意義的事實、概念或原理為主,不要考察受測者對無關緊要的問題或細節的辨別能力;
●每道題只能包括一個重要的概念,避免兩個以上的概念出現在同一題目中,造成“半對半錯”或“似是而非”的情況。而且還要把各個概念放在題干的重要位置上;
●除特殊情況,盡量避免否定的敘述,尤其是要避免雙重否定的敘述。因為采用否定的敘述容易使人困惑,否定詞也容易被一些粗心的受測者所忽略;
●對于測驗中正確的題目與錯誤的題目,它們的長度和復雜性應盡量一致;
●正確的題目數與錯誤的題目數應該基本相等,兩種題目應按隨機方式排列。
4.匹配題
匹配題可以說是選擇題的一種變式。匹配題一般包括多個反應項(匹配項)和多個刺激項(被匹配項),用反應項來匹配刺激項。匹配題有完全匹配(刺激項與反應項的數量相等)和不完全匹配(反應項目多于刺激項目)兩種形式。通常,刺激項目和反應項目分別排成兩列。
匹配題容易編制,而且可以在短時間內測量大量相關聯的材料,覆蓋面較廣。但它一般只能測量簡單記憶的事實材料或概念關系,并且要求編制的選項必須是同質的。
下面是對編制匹配題的一些建議:
●刺激項目和反應項目應該分成兩列,通常反應項安排在右邊;
●配對數目不可過多或過少,最好使用不完全匹配,使反應項數目多于刺激項數目,并且最好不限制每個反應項被選擇的次數,這樣可以降低猜測的概率。一般可以列舉6~15個項目,其中反應項應比刺激項多2~3項;
●匹配題的反應項與刺激項的性質必須相近,選項如存在邏輯順序,應按順序排列;
●應對匹配方法、匹配的依據加以明確的規定和說明,同時說明反應項可以被選擇的次數;
●同一組的反應項與刺激項最好印在同一頁紙上,以免造成答題時間的浪費;
●反應項與刺激項應以不同形式的序號加以標識,例如在反應項前冠以數字,刺激項前則冠以英文字母或甲、乙、丙、丁,以免混淆。
5.填充題
填充題是提供型的題目,它要求受測者用一個正確的詞或句子來完成或填充一個未完成句子的空白處,或者是提供一個正確的答案。填充題比較容易編制,不受猜測的影響,在評估專業知識方面特別適合。另外,在前面介紹的投射測驗——“語句完成測驗”中也用到填充題。當然,填充題也有其局限性,它不能測量更為復雜的知識和能力;題目有時也會有多個答案,計分不能完全客觀。下面是編制填充題時應注意的幾個方面:
●最好采用問句形式。如果需要使用未完成句子,則填充處應盡量放在句子末尾;
●使用直接問句的形式,可避免產生對題意的誤解;
●如果是填空形式,填充處不可太多。過多空白會使題意不明確;
●每題最好只有一個答案,答案最好簡短而具體,有利于評分。
6.操作性測量形式
在很多情況下,操作的方法和過程是重要的測量目標,而這是紙筆測驗無法測量的,這時可以采用操作性測量形式。操作測試題要求受測者對未來真實情境中的行為進行模擬,其真實性要高于紙筆測驗。
操作性測試題通常分為著重過程和著重結果兩種形式。考察儀器操作、演講、演奏樂器和其他各種技藝,就需要采用著重過程的形式,這些內容需要在工作過程中進行評鑒。而有些活動則要在活動結束后考察結果,例如文章、圖畫、設計圖紙或樣品等。當然,也有的需要同時考察過程和結果,如工作樣本測驗。
操作性測試有多種不同的分類方法,按測試情境的真實性程度可以分為:
●紙筆的操作性測試:雖用紙筆但偏重于模擬情境下知識的應用。如編制、編寫某項操作計劃、步驟、注意事項等,如公文筐測驗;
●模擬操作測試:強調正確的程序,受測者需要在模擬情境下完成與真實活動相同的動作,如飛行員在模擬駕駛艙中的考核;
●工作樣本操作測試:其真實性最高,包括了真實作業的全部要素,但是是在有控制的條件下去完成的。如司機在標準場地內的考核、師范學生的教學實習等。
設計操作性測試題的主要原則有:
●明確所要測量的目標,并將其操作化。即要進行工作分析,辨認出操作中最重要的因素,找出具有代表性的工作樣本;
●要建立作業標準,規定通過此項作業的最低標準。如操作的準確性(誤差多少)、速度(時限多少)、步驟的正確性或某些主觀品質(如熟練程度、優秀水平)等,都應該操作化;
●選擇合適的真實性程度。通常情況下,真實性程度越高,模擬的代價越大。應根據所考核目標的不同,選擇不同真實程度的測試方法,以便在最節約的前提下獲得最多的信息;
●指示語簡單明確,讓受測者知道要干什么和在什么條件下去做;
●有明確的計分方法。
操作項目的計分有不同形式,差別很大。有些項目根據完成題目的數量和錯誤次數客觀計分就可以了;有些項目的評分則較為困難,這種項目可以采用“作品量表”來計分。作品量表(standard sample scale)一般包括一系列按順序排列的不同作業程度、水平、質量的標準樣本,評分時參照這些標準樣本對受測者結果進行評分。如果被考核的操作活動可以分為多個方面或幾個步驟,則可以按每個方面或步驟完成的情況分別給分,最后統計總分。