- 心理統計學考點歸納及典型題(含歷年真題)詳解
- 圣才電子書
- 6888字
- 2021-04-15 12:54:42
第1章 描述統計
1.1 考點歸納
一、統計圖表
1.統計圖
(1)概念:統計圖是用圖形的形式呈現研究的數量化結果的一種形式。
(2)組成及特點如下:
①統計圖一般由圖題、變量說明、坐標軸及單位、圖形4個部分組成。常見的統計圖有線性圖、條形圖、圓形(扇形)圖和組織圖等。
②統計圖比統計表更直觀,更易于理解。但是,統計圖和統計表一樣,不能代替研究報告中的有關文字敘述,只能用來強調某些重要的數據關系。
③不同的統計圖表達的效果是有區別的,即使選用同一種統計圖,繪制方法的不同(如采用不同的軸單位尺度)也可能造成表達效果的差異。
2.統計表
(1)概念:統計表是用表格的形式呈現研究的數量化結果的方式之一。
(2)組成及特點如下:
①一個統計表通常包括表題、表體和表注三部分。表題是統計表的標題。表體是統計表的主體內容,包括研究的對象或特征,研究對象或特征的指標、類別、數據結果等內容。表注是對統計表中有關內容的說明,包括對表的來源、用途等作的注的說明。有時可以說明統計推論的結果和結論。
②研究的對象或特征名稱一般列在表的左邊一列;研究對象或特征的指標、類別名稱一般列在表的上邊一欄;同一縱列上的數據所保留的小數位要一致,位數要對齊。
③統計表的類型主要包括原始數據表、次數分布表和分析結果表等。
二、集中量數
1.算術平均數
(1)概念:算術平均數是所有觀察值的總和除以總頻數所得之商,簡稱為平均數或均數。它是一種集中量數,是某一特質“真值”的漸進、最佳的估計值。
表達公式:
式中N為數據個數,Xi為每一個數據,∑為相加求和。
(2)算術平均數的優點是:反應靈敏;計算方便;適合代數運算;受抽樣變動的影響較小。具體表現在以下幾個方面:
①當只知一組觀察值的總和及總頻數就可以求出算術平均數;
②用加權法可以求出幾個平均數的總平均數;
③用樣本數據推斷總體集中量時,算術平均數最接近于總體集中量的真值,它是總體平均數的最好估計值;
④在計算方差、標準差、相關系數以及進行統計推斷時,都要用到它。
(3)算術平均數的缺點:易受兩極端數值(極大或極小)的影響并且當一組數據中某個數值的大小不夠確切時就無法計算其算術平均數。
(4)算術平均數的條件要求如下:
①數據必須是同質的,即同一種測量工具所測量的某一特質;
②數據取值必須明確;
③數據離散不能太大。
(5)算術平均數的特點:
①在一組數據中每個變量與平均數之差(稱離均差)的總和等于零;
②在一組數據中,每個數都加上一常數C,所得的平均數為原來的平均數加常數C;
③在一組數據中,每個數據都乘以一個常數C,所得的平均數為原來的平均數乘以常數C。
(6)應用平均數的原則
①同質性原則,即使用同一種觀測手段,采用相同的觀測標準,能反映某一問題的同一方面特質的數據;
②平均數和個體數值相結合的原則;
③平均數與標準差、方差相結合原則。
2.中數(Median,符號為Md)
(1)概念:中數,又稱中位數,中點數,中值,是位于依一定順序排列的一組數據中央位置的數值,在這一數值上、下各有一半頻數分布著。即在這組數據中,有一半的數據比它大,有一半的數據比它小。這個數可能是數據中的某一個,也可能根本不是原有的數。
(2)中數的計算方法
①原始數值計算方法
將一組原始數據依大小順序排列后,若總頻數為奇數,就以位于中央的數據作為中位數;若總頻數為偶數,則以最中間的兩個數據的算術平均數作為中位數。
②頻數分布表計算法
若一組原始數據已經編成了頻數分布表,可用內插法,通過頻數分布表計算中位數。
(3)中位數雖然也具備一個良好的集中量所應具備的某些條件,例如比較嚴格確定,簡明易懂,計算簡便,受抽樣變動影響較小,但是它不適合進一步的代數運算。它適用于以下幾種情況:
①一組數據中有特大或特小兩極端數值時;
②一組數據中有個別數據不確切時;
③資料屬于等級性質時;
④當需要快速估計一組數據的代表值時。
3.眾數(Mode,簡稱Mo)
(1)概念:眾數又稱為范數,密集數,是指在次數分布中出現次數最多的那個數的數值。它也是一種集中量數,也可用來代表一組數據的集中趨勢。
(2)計算眾數的方法
①直接觀察求眾數。直接觀察求眾數的方法很簡單,就是只憑觀察找出出現次數最多的那個數據就是眾數。數據整理成次數分布表后,觀察次數最多的那個分組區間的組中值為眾數。依據次數分組表計算眾數受分組的影響。
②用公式計算的眾數稱為數理眾數。當次數分布曲線的形式已知時,可用積分的方法求眾數。這種方法較復雜,在心理與教育統計中很少應用,而應用較多的是皮爾遜經驗法和金氏插補法。
(3)眾數的意義與應用
眾數的概念簡單明了,容易理解,但它不穩定,受分組影響,亦受樣本變動影響。較少受極端數目的影響,反應不夠靈敏。眾數只是一個估計值。同時,眾數不能作進一步代數運算。所以眾數不是一個優良的集中量數,應用也不廣泛。
三、差異量數
1.離差與平均差
(1)離差表示每一個觀測值與平均數的距離大小,正負號說明了重量施于什么方向,離均差的總和為零,標志著完全平衡。有時又稱離均差或偏差。
(2)平均差是次數分布中所有原始數據與平均數絕對離差的平均值。一般用符號A.D.或M.D.來表示。如果使用原始數據求平均差,使用下面的公式:
平均差是根據分布中每一個觀測值計算求得的,它較好地代表了數據分布的離散程度。然而,由于它在計算中要對離均差取絕對值,不利于進一步做統計分析,應用受到了限制,屬于一種低效差異量數,在統計實踐中不太常用。
2.方差與標準差
方差和標準差是最常用的差異量數。度量數據變異性即離散趨勢的統計量稱差異量數。標準差是方差的算術平方根。
(1)概念:方差,又稱變異數、均方。常用符號為:S2、SD2(樣本統計量),σ2(總體參數)。它是每個數據與該組數據平均數之差乘方后的均值,即離均差平方后的平均數。
標準差即方差的平方根,常用符號為:SD、S(樣本統計量),(總體參數)
用下列公式表示:
①方差:
②標準差:
(2)意義:方差和標準差適合于代數運算方法,數值較穩定且反應靈敏,在計算中全部數據都參與運算,是數據離散程度的最好的指標。這也是標準差和方差優于其他差異量數的特點。
標準差表示數據的分散程度,標準差大表示分散,標準差小表示相對集中。
①若一個班的分數之標準差大,說明該班學習成績不齊,好的好,差的差。此時標準差小好,說明成績整齊。
②若一個老師所出的試卷,學生考完后標準大,說明這張試卷出得好,把不同學生的水平區分開了。此時標準差小不好。
③同一測量的標準差大,說明誤差較大。
(3)標準差的特點:
①每一個觀測值都加一個相同常數C之后,計算得到的標準差等于原標準差;
②每個觀測值都乘以一個相同的常數C,則所得的標準差等于原標準差乘以這個常數;
③以上兩點相結合,每一個觀測值都乘以同一個常數C(C0),再加一個常數d,所得的標準差等于原標準差乘以這個常數C。
3.變異系數
(1)概念:變異系數,又稱差異系數、相對標準差等,它是一種相對差異量,用CV來表示,為標準差對平均數的百分比。
(2)表達公式:
(3)應用
①同一團體不同測量間變異的比較,例如相同班級不同科目考試成績之變異比較。
②不同團體同一測量間變異的比較,例如不同年級同一種試卷成績變異大小的比較。
四、相對量數
1.百分位數
百分位數是相對于某一百分等級的分數點。它是指量尺上的一個點,在此點以下,包括數據分布中全部數據個數的一定百分比,第P百分位數就是指在其值為P的數據以下,包括分布中全部數據的百分之p,其符號是Pp,公式如下:
式中,Pp為所求的第P個百分位數;Lb為百分位數所在組的精確下限;f為百分位數所在組的次數;Fb為小于Lb的各組次數的和;N為總次數;i為組距。
2.百分等級
一個分數的百分等級可定義為在常模團體中低于該分數的人數的百分比。百分等級指示個體在常模團體中的相對位置,百分等級越低,個體所處的地位越低。百分等級是百分位數的逆運算,當已知原始分數,求某一分數在總體中所處的百分位置時,用百分等級,當已知百分等級時,可以求得處于某一百分等級的原始分數值。
百分等級的計算公式是:
式中,PR為百分等級;X為給定的原始分數;f為該分數所在組的頻數;Lb為該分數所在組的精確下限;Fb為小于Lb的各組次數的和;N為總次數;i為組距。
3.標準分數
(1)概念:標準分數又稱為基分數或Z分數,是以標準差為單位表示一個原始分數在團體中所處位置的相對位置量數。
(2)標準分數可以通過線性轉換或者通過非線性轉換得到,由此可將標準分數分為兩類:
①線性轉換的標準分數
根據標準分數的定義,可通過下式將原始分數直接轉換成標準分數:
a.總體
b.樣本
因為標準分數是從原始分數(X)中減去一個恒定值(平均數)再除以一個恒定值(標準差S)得到的,所以這是一種線性轉換。有時也把線性轉換的標準分數簡稱作標準分數或Z分數。
②常態化的標準分數
當原始分數不是常態時,可先把原始分數轉化為百分等級,然后從正態曲線面積表中便可得到對應的標準分數。由這種方式所得到的分數就叫常態化的標準分數。在將分數常態化時有一個前提:只有所測特質的分數實際上應該是常態分布,只是由于測驗本身的缺陷或取樣誤差而使分布稍有偏斜時,才能計算常態化標準分數。
(3)標準分數的性質
①Z分數無實際單位,是以平均數為參照點,以標準差為單位的一個相對量。
②一組原始分數轉換得到的Z分數可以是正值,也可以是負值。凡小于平均數的原始分數的Z值為負數,大于平均數的原始分數的Z值為正數,等于平均數的原始分數的Z值為零。所有原始分數的Z分數之和為零,Z分數的平均數也為零。即,
,根據求平均數及Z分數的公式可以證明。
③一組原始數據中,各個Z分數的標準差為1,即sZ=1。根據Z分數的第二條性質和標準差公式可以推證。
④若原始分數呈正態分布,則轉換得到的所有Z分數值的均值為0,標準差為1的標準正態分布。
(4)標準分數的優點
①可比性。標準分數以團體平均分作為比較的基準,以標準差為單位。因此不同性質的成績,一經轉換為標準分數(均值為零,標準差為1),相當于處在不同背景下的分數,放在同一背景下去考慮,具有可比性。
②可加性。標準分數是一個不受原始分數單位影響的抽象化數值,能使不同性質的原始分數具有相同的參照點,因而可以相加。
③明確性。知道了某一被試的標準分數,利用標準正態分布函數值表,可以知道該分數在全體分數中的位置,即百分等級,也就知道了該被試分數在全體被試分數中的地位。所以,標準分數較原始分數意義更為明確。
④穩定性。原始分數轉換為標準分數后,規定標準差為1,保證了不同性質的分數在總分數中的權重一樣。
(5)標準分數的應用
①用于比較幾個分屬性質不同的觀測值在各自數據分布中相對位置的高低;
②計算不同質的觀測值的總和或平均值,以表示在團體中的相對位置;
③表示標準測驗分數。
五、相關量數
相關量數用于描述雙變量數據相互之間的關系,這兩個變量之間的關系不同于因果關系和共變關系,在相關關系中,兩個變量之間不能確定因果,并且不同時受第三因素的影響。統計學中所講的相關是指具有相關關系的不同現象之間的關系程度,前提是事物之間的這種聯系又不能直接做出因果關系的解釋。有時,相關被解釋為兩種特征相伴隨的變化。相關有三種:正相關、負相關和零相關,其變化范圍在-1至+1之間。
1.積差相關
(1)概念:積差相關是英國統計學家皮爾遜于20世紀初提出的一種計算相關的方法,因而被稱為皮爾遜積差相關,適用于正態分布中的雙列變量,即用等距等比量表測得的數據。常用的是皮爾遜相關。
(2)計算公式如下:
①直接用原始數據計算的公式:
②運用標準差與離均差的計算公式:
其中,X、Y為兩個變量的離均差,,
;N為成對數據的數目;
為X變量的標準差;
為Y變量的標準差。
③應用標準分數計算積差相關系數的公式:
其中,ZX為X變量的標準分數;ZY為Y變量的標準分數。
(3)積差相關系數適合的情況:
①兩列數據都是測量的數據,而且兩列變量各自總體的分布是正態的,即正態雙變量。這里只要求保證雙變量總體為正態分布,而對要計算相關系數的兩樣本的觀測數據并不一定要求正態分布。
②兩列變量之間的關系應是直線性的。如果是非直線性的雙列變量,不能計算線性相關。判斷兩列變量之間的相關是否直線式,可以作相關散點圖進行線性分析。
③實際測驗中,計算信度涉及的積差相關時,分半的兩部分測驗須滿足在平均數、標準差、分布形態、測題間相關、內容、形式和題數都相似的假設條件。
(4)相關系數的合并
在心理與教育工作研究中,常遇到需將取自同一總體的幾個樣本的相關系數合成、求平均的相關系數這一問題,由于相關系數不是等距的尺度,因此,對其不能采用簡單合成的辦法,必須將其轉換成等距的尺度后再求平均,這樣方有意義。求平均的相關系數,一般采用Z-r轉換法。具體步驟如下:
①查費舍Z-r轉換表,先將各樣本的r轉換成費舍Z分數
②求每一樣本的Z分數之和
③求平均Z分數,即
其中,Zi由各樣本ri查Z-r轉換表得到;ni為各樣本的成對數目。
④再查費舍Z-r轉換表,將轉換成相應的r值,即平均的r。
2.等級相關
(1)等級相關方法
等級相關方法對變量的總體分布不作要求,故又稱這種相關法為非參數的相關方法。適用于等級變量和非正態分布的變量之間的相關分析。常用的等級相關是斯皮爾曼相關,也是線性相關。其公式為:
其中,N為等級個數,,指二列成對變量的等級差數。
(2)等級序數法
如果不用等級差數,可以直接用等級序數計算,可用下式:
其中,RX與RY為兩列變量各自排列的等級序數。
具體的計算步驟:①賦予等級:②計算兩個變量每對數據所賦予的等級數之差D,及差數的平方之和;③將有關數據代入等級相關的計算公式。
3.肯德爾等級相關
(1)肯德爾等級相關方法有很多種,有適合兩列等級變量資料的交錯系數和相容系數,它們的功用與斯皮爾曼等級相關相同。另外還有適合多列等級變量資料的方法,比如肯德爾和諧系數和肯德爾U分數。
(2)肯德爾W系數
①適用范圍:適用于多列等級變量的相關。
②計算公式如下:
其中,
式中,Ri代表評價對象獲得的K個等級之和,N代表被等級評定的對象的數目,K代表等級評定者的數目。
W值介于0與1之間,計算值都為正值,若表示相關方向,可從實際資料中進行分析。如果K個評價者意見完全一致,則W=1;若K個評價者的意見存在一定的關系,但又不完全一致,則0<W<1;如果K個評價者的意見完全不一致,則W=0。也就是說,如果各變量完全一致,那么各個評價者對每個被評價的事物(或人)評定的等級應該相同,其等級和的最大變異即最大可能的s應為。如果每個評價者給予的等級不同,則s變小,一致性程度降低,等級差異越大,一致性越低。如果完全沒有相關,則每個被評價事物實際獲得的等級之和應該相等,其最大可能的變異(s)應為0。這樣實際獲得的等級(原始數據資料)總和的變異與最大可能的等級總和的變異的比值,便是和諧系數,其值必然介于0到1之間。
(3)肯德爾U系數又稱一致性系數,適用于對K個評價者的一致性進行統計分析。它與肯德爾W系數所處理的問題相同,但更適合評價者采用對偶比較的方法所得數據,所處理的資料的獲得方法不同,計算的結果也不一樣。肯德爾U系數的計算公式如下:
其中,N為被評價事物的數目,即等級數,K為評價者的數目;∑rij為對偶比較記錄表中i>j(或i<j)格中的擇優分數。
計算步驟:將被評價的事物用符號代表,分別橫列與縱列,這樣可畫成N×N個格子。將每一對事物擇優比較的結果按優者記1,非優者記0,難以判定記0.5的方法記分,將分數填到相應的格子中,這便是。兩相同事物不用比較,因此在整個方格中,位于對角線位置的小格空著。在對角線以下每格的次數記為i>j,對角線以上的每格中的次數記為i<j。將整理后的資料,代入公式計算。
4.點二列相關與二列相關
(1)點二列相關適用于一列為等距正態變量的測量數據,另一列為二分名義變量的資料。常應用于試卷的信度分析。公式如下:
(2)二列相關適用于兩列變量都為正態等距變量,但其中一列變量被人為地分成兩類資料。公式如下:
(3)點二列相關和二列相關的選擇
二列相關不太常用,但有些數據只適用于這種方法。在測驗中,二列相關常用于對項目區分度指標的確定。二者之間的主要區別是二分變量是否為正態分布。總的原則是,如果不是十分明確,觀測數據的分布形態是否為正態分布,這時,不管觀測數據代表的是一個真正的二分變量,還是一個基于正態分布的人為二分變量,這時就用點二列相關。當確認數據分布形態為正態分布時,都應選用二列相關。只要有任何疑問,選用點二列相關總是較好的選擇。在實際的研究當中,二列相關很少使用。
5.Φ相關
(1)Φ相關是指當兩個分布都只有兩個點值或只是表示某些質的屬性,如工作狀態(有工作與無工作)、吸煙狀況(吸煙者與非吸煙者)等,可以運用列聯表計算,因此它又稱列聯系。適用資料是除四分相關(當兩個變量都是連續變量,且每個變量的變化都被人為地分為兩種類型時,采用四分相關)之外的四格表(計數)資料,是表示兩因素兩項分類資料相關程度最常用的一種相關系數。
(2)若直接用四格表內數據計算可用下式:
圖1-1變量四格表
Φ接近1為高相關,接近0為低相關。