- 跳出思維陷阱:麻省理工計算機博士的7堂思考課
- 劉炯朗
- 2669字
- 2020-07-09 19:04:45
智能的測量
怎樣才能測量一個人的智能呢?這將把我們帶入一個重要的心理學研究領域——測量心理學(Psychometrics,亦稱心理計量學或心理測量學)。在測量心理學里,心理學家依據理論和模型,設計并使用一定的操作程序,去評估一個人的能力、人格及心理健康度等。從某個角度而言,這和工程師測量一座摩天大廈的高度、天文學家測量太陽表面的溫度及醫生測量一個人的血壓相似。因為我們對人的心理行為還沒有一個共同接受的理論和模型,依據不同的理論和模型,使用不同的測量方法,就會得到不同的數據結果。這些數據必須經由數學的分析、實驗的驗證和彼此之間的比較,才能夠逐漸被大家廣泛接受和使用。
心理測量可分四個步驟:第一,選擇測量方式,包括觀察、面談、問卷、實驗等。(1)第二,設計測量的工具,獲得相關的資料。第三,分析這些資料,獲得量化的結論。第四,印證這些結論。
測量工具有兩個重要的評價指標,一個是效度,另一個是信度。效度是指測量工具能夠準確地測量被測量事物的程度,信度是指測量結果可靠、可信的程度。
測量工具的效度又分為以下幾點:
第一,內容的效度,即實際測量內容和預計測量內容的吻合度。
譬如,我們要測量一個學生對美國歷史認識和了解多少,測量的內容應該包括印第安人、英國殖民、獨立戰爭、第二次世界大戰后的崛起、民權運動、總統選舉的歷史等。如果測量的內容忽略了某些重要的事件,例如南北戰爭,或者過猶不及地加上美國地理、南美洲某些國家的歷史,都會影響到測試內容的效度。又譬如,一個測量憂郁程度的心理測驗,僅測驗情緒這一個面向,而忽略了行為這一個面向,也會造成內容效度不足。
第二,結構的效度,即測量得到的結構性結果與理論的結構性結果或者想知道的結構性結果之間的吻合度。
譬如,智能測驗的題目不能太容易,也不能太難,必須能夠符合不同的人的智能是有差異的理論,才能達到按照智能程度來分類的目的。
第三,實證的效度,即測驗結果和其他實證的吻合度。
譬如,學生在代數測驗中的成績,和他們在學校代數課的成績是否吻合(也叫作同時實證的效度)。又譬如,學生的高考分數,是否和進入大學之后的表現相吻合(也叫作未來實證的效度)。
測量工具的信度是指測驗的結果是不是可靠、可信,更詳細一點地說,可分為以下幾點:
第一,重復測驗的信度,指同一組受測者在不同的時間做同樣的測驗,測驗結果是否相近(當然,前提是測驗的特性是相當穩定的)。
譬如成人的人格特質測驗,或者高中生在短時間內連續參加兩次高考,其間他不會有更多練習和學習的機會,也不可能把知道的東西很快忘掉,因此重復測驗的信度應該是高的。
第二,復本測驗的信度,指使用兩個形式不同但實質相同的測驗,測驗結果是否相近。
設計兩個形式不同而實質相同的測驗并不容易,比較簡單的例子是改變算術題中的數字或在多項選擇題中改變選項的次序。
第三,分半測驗的信度,指把一個測驗分成對等的兩半,受測者在這兩半中測驗的結果一致性的程度。
分半的辦法也有很多,例如,在考試中把測試題目按照奇數與偶數分成兩半,或者按內容、難易度將題目分成兩半等。
第四,同構型的信度,指用一組題目來測驗一個觀念,這一組的題目之間的一致性。
第五,評估者的信度。因為有些測驗是由評估者主觀評估的,這里是指不同的評估者對同一批受測者的評估的一致性。
講了這么多,接下來我們再回到如何測量一個人的智能這個問題。從20世紀初期開始,許多心理學家和教育學家先后提出了不同的智能測驗方法,其中大家比較熟悉的是由法國教育家比內(Alfred Binet)首倡、由斯坦福大學心理學家特曼(Lewis M. Terman)修訂而形成的斯坦福—比內智力量表。(2)
另一個在近年來被廣泛使用的是心理學家韋克斯勒(David Wechsler)提出的智能測驗方法。不過,即使測驗方法和評分結果各不相同,不同的測驗方法也可以使用同一個評分框架。換句話說,智能測驗的題目由專家設計,并根據多年經驗不斷進行調整。把許多人的測驗結果整理出來,往往就會得到一條平均值是100的鐘形曲線(如圖1-1所示)。(3)

圖1-1 一個測驗結果分布鐘形曲線的示意圖
有了這個共同的框架,我們就可以把測驗的結果分成若干個區域:
當一個人說他的測驗分數是157,我們不必追問這是依據什么方法測驗出來的,只需要知道他大概是一個非常聰明的人。
智能測驗通常用一系列的問題來檢測一個人的理解和推理能力,從而得到一個量化的結果。測驗題目必須有深度和廣度,以達到鑒別的目的。就廣度而言,測驗通常分為語言和非語言兩部分:語言部分測驗了解和記憶的能力,非語言部分測驗思考、推理、聯想、創新的能力。就深度而言,測驗的題目不能太容易,否則測驗的結果就是“大家都是天才”;也不能太難,否則測驗的結果就是“大家都是笨蛋”。
智能測驗中常用的概念是“智力商數”(Intelligence Quotient),簡稱“智商”(IQ):一個人的智能可以用他的智力年齡(mental age)來度量。用一個人的智力年齡除以實際年齡,再乘以100,就可以得到一個人的IQ。例如,實際年齡是11歲的小孩,他的智力年齡被測定為13歲,那么這個小孩的IQ值就是118。當然,有人會問:“這些測驗真的能夠測出人的智力年齡嗎?”這個問題沒有準確的答案,不如跳過這個問題,就把“智能測驗”看作“智力年齡測驗”。而且,即使測量方法不同,在同一個評分框架之下,測驗結果可以顯示出在許多人中的某一個人的智力年齡。
(1) 其中被使用最多的是問卷,好處是測驗結果來自受測者本人,沒有第三方誘導和施壓,也不依靠第三方的觀察和評估,因而可以減小誤差。問卷往往以有量化答案的題目為主,因此容易對結果進行量化分析,在有大量受測者的場合使用也很方便。問卷的題目包括:是非式——你曾經害怕自己會發瘋嗎?回答“是”或“否”。折中是非式——你喜歡戶外活動嗎?回答“是”“否”或“不一定”。文字量表式——“我”喜歡的人大多是(A)拘謹沉默的,(B)善于交際的,(C)介于A和B之間的。數字量表式——“我”擔心考試失敗,數字5到1代表程度:5代表經常,4代表多次,3代表偶爾,2代表極少,1代表從來不。
(2) 舉1916年特曼的一個測驗里的兩個題目為例子。
第一個題目:你有一個裝3升水和一個裝5升水的水桶,怎樣用這兩個水桶量出4升的水?有兩個不同的方法,其一,3+1=4;其二,5-1=4。
第二個題目:有個鄉下人(差不多100年前的鄉下人)到城里去玩了一趟,回去后到處對別人說:“城里的人真懶惰,他們坐著走路?!闭垎栠@個鄉下人看見了什么?答案可能是:他看見一個人在騎馬、開車甚至被別人背著走。不過特曼認為,最恰當的答案是他看見一個人在騎腳踏車,因為那樣最符合“坐著走路”的形象。
(3) 確切來說,這種現象叫正態分布,也叫高斯分布,它的平均值是100,標準差是15。