官术网_书友最值得收藏!

3.3 應用SPSS實現多重回歸分析

3.3.1 參數估計

在實際應用中,可利用統計軟件獲得偏回歸系數估計值。下面我們以表3.1的數據為例使用SPSS來估計偏回歸系數。基本步驟是:首先打開“分析(A)”,選擇“回歸(R)—線性(L)”(參見圖3.2)。然后,選擇因變量與自變量(參見圖3.3)。再次點擊圖3.3所示窗口右端的“統計量(S)”,出現了圖3.4,再選擇所需統計量后點擊“繼續”返回圖3.3窗口,最后點擊“確定”即可。

圖3.2 選擇回歸分析示意圖

圖3.3 選擇因變量、自變量示意圖

圖3.4 選擇統計量的示意圖

表3.1數據的多重回歸分析結果如下。首先呈現三個變量的基本統計量,列于圖3.5。

圖3.5 新生愉悅感、學習適應及人際關系的基本統計量

關于新生愉悅感在學習適應和人際關系上的偏回歸系數的估計值列于圖3.6。

圖3.6 利用SPSS軟件求得的偏回歸系數

圖3.6中的第一列是回歸模型中的偏回歸系數名,“常量”是截距的估計值b0,學習、人際兩個自變量的偏回歸系數估計值b1,b2。第二列為非標準化的偏回歸系數估計:B與標準誤,即b0,b1,b2的估計值與標準誤。從圖中得知,b0=-1.236,b1=0.077,b2=0.056。這里需要強調的是當因變量與自變量的標準差相差很大時,它們的差異會發生左偏或右偏,因此不能簡單地按該列數值的大小來評價自變量對因變量的影響。若要比較回歸系數的大小,就要查看第三列的標準偏回歸系數。這時表示截距的b0經標準化后已變為0,另外兩個標準偏回歸系數分別記為beta1,beta2(即b1*,b2*),它們的數值正好等于偏回歸系數估計值b1,b2分別乘以自變量與因變量標準差之比,

beta1=0.077×(7.863÷1.155)=0.525,

beta2=0.056×(7.478÷1.155)=0.363。

由于標準偏回歸系數消除了因變量與自變量標準差的影響,這樣就可以直接比較它們的大小。

圖3.6的最后兩列是關于偏回歸系數是否為0假設檢驗的t值與p值。在0.05的顯著性水平下,兩個p值均小于0.05,可知這兩個自變量的偏回歸系數都拒絕為0的原假設。

得到了b0,b1,b2后,它們與自變量的線性組合就是因變量的預測式

由于預測由兩個自變量組成,的幾何表示是一個回歸平面(圖3.7的陰影平面)。在Y, X1,X2組成的三維空間里,b0是回歸平面在因變量軸上的截距(在圖3.7中,b0=0),b1表示固定自變量X2時,回歸平面在X1方向上的斜率;同理,b2為固定X1時回歸平面在X2

方向上的斜率。是Y與的夾角(弧度制)。若自變量有p(p≥3)個時,多重回歸預測式是p個自變量的線性組合,在p+1維空間里組成了回歸超平面,一般無法用視覺圖像表示。

此時Y與的差記為e,稱為殘差,它是公式(3.3)中誤差εi的估計式。表3.1的回歸

預測值與殘差結果列于表3.2(在圖3.4窗口中選擇“殘差”下面“個案診斷(C)”的“所有個案(A)”即可得到)。

圖3.7 二重回歸平面的示意圖

表3.2 愉悅感的觀察值、預測值及殘差

3.3.2 回歸模型的評價與診斷

假如我們根據手中數據求出了偏回歸系數、預測式后,但是在總體上這些系數為0,或者預測式不成立的話,那么就算多重回歸估計再精確,它在應用上是沒有實際意義的。因此多重回歸分析除了獲得參數估計之外,還有一個步驟必不可少:驗證、評價被分析數據與回歸模型的擬合程度。

這里,我們從五個方面進行評價:多重決定系數、方差分析、偏回歸系數檢驗、殘差分析、共線性分析。SPSS軟件具備上述分析功能(參見圖3.4)。

3.3.2.1 多重決定系數

在3.1小節中介紹了Y的預測式的四個性質。其中性質3為

如果等式的左右兩邊都除以Y的方差,則

其中,上式等號右邊的第一部分定義為多重決定系數(multiple determination coefficient),記為

或者

公式(3.10)定義的多重決定系數在多重回歸分析中是一個很重要的概念。為了進一步理解這個概念,可參考下面多重回歸模型中的方差示意圖(圖3.8)。

圖3.8 多重回歸模型中的方差示意圖

從圖3.8中可知:

(1)Y的方差=a+b+c+d;

(2)的方差=a+b+c;

(3)多重決定系數:

R2就是由自變量組成的回歸預測式的方差占因變量方差的比例。R2越大,說明這些自變量對因變量的貢獻就越大。從幾何學的角度,還可以證明R2的平方根是Y與的相關系數——復相關系數R,它正好是圖3.7中Y與夾角的余弦值。

但是多重決定系數往往還會受到自變量個數p、樣本量n的影響。如果不恰當地使用過多的自變量,或者缺少足夠數量的樣本量,會使多重決定系數虛高,影響結果的正確性。為了解決這個問題,可用下面公式對多重決定系數進行調整,記為:

其中,n為樣本量,p為自變量個數。從該式中可以看出如果自變量個數越多,調整決定系數會相應降低。如果自變量數量較多時,建議利用調整多重決定系數。

一般來說,如果利用回歸分析探索,R2最好不小于0.3;如果用于預測時,R2最好不小于0.6。

圖3.9 多重回歸模型的多重決定系數

圖3.9中的第二列是復相關系數,即因變量Y與預測值的相關系數R=0.708,第三列是復相關系數的平方,即多重決定系數,R2=0.501,說明由學習、人際兩個自變量組成的回歸預測式方差占自我愉悅感方差的50.1%,調整后的R2adj為0.464,最后一列是R的估計標準誤。

3.3.2.2 方差分析

多重回歸分析中的方差分析可從整體上評價回歸模型的有效性。在這里,原假設H0:β12=……=βp=0;備擇假設H1:β1,β2,……,βp中至少有一個不等于零。因此方差分析的結論關系到多重回歸模型能否成立。

圖3.10是利用表3.1數據得到的方差分析結果。表中的離差平方和是各變量方差的n倍。例如因變量的離差平方和

它可分解成回歸預測式的離差平方和SSR與殘差的離差平方和SSE

其中

SSR,SSE分別除以各自的自由度(這里SSR的自由度是自變量個數p=2,SSE的自由度為n-2-1)得到相應的均方MSR,MSE。根據多重回歸模型的正態性假設,MSR/MSE服從F分布,即可對方差分析的原假設進行檢驗了。圖中的F(2,27)=13.54,p=0.000,說明表3.1新生適應性數據的回歸模型是顯著的。

圖3.10 新生適應性數據回歸分析中的方差分析結果

3.3.2.3 偏回歸系數的檢驗

方差分析是從整體上來把握回歸模型是否成立,而偏回歸系數假設檢驗則是逐個地檢驗偏回歸系數估計值在總體上是否為零。若偏回歸系數在假設檢驗中判為不顯著的話,相應的自變量就無法參與回歸估計了。圖3.6中的最后兩列就是報告偏回歸系數的檢驗統計量t值及其p值。其中t檢驗統計量是由第一列中的b分別除以各自的標準誤得到的。觀察t值及其p值可知,除了b0外,b1,b2偏回歸系數均是顯著的。b0的標準回歸系數一定為零,由此得知b0在假設檢驗中不顯著,并不影響回歸模型的形式。

3.3.2.4 殘差分析

回歸分析中的殘差分析內容很豐富。主要有檢查誤差是否服從平均值為0,方差為一常數的正態分布?有無極端值?誤差間是否相互獨立?等等。

圖3.11是標準殘差與Y的預測值的散點圖,其中縱軸都是標準化殘差、橫軸是預測值。圖3.11(a)的散點圖呈等寬度的帶狀均勻地分布在殘差為0的直線的兩邊,說明該數據分析的誤差正態地分布在Y的每一個預測值周圍,平均值為0,方差為一常數;圖3.11(b)中的散布圖就沒有均勻地分布在殘差為0的直線兩邊,而呈曲線狀,這說明兩者之間存在某種曲線關系。再觀察圖3.11(c)與圖3.11(d)的散布圖,發現在Y預測值的分布區間內,殘差分布高度有大有小或者呈減少(增加)的趨勢,說明殘差方差不是一個常數。如果在圖3.11(a)中殘差的分布高度不超過±3的話,還可以判斷這批數據不存在極端值。

圖3.11 殘差與預測值散點圖

3.3.2.5 共線性

觀察前面的標準偏回歸系數估計式(3.5a)(3.5b),自變量間的相關系數是影響標準偏回歸系數大小或者正負的因素之一。在實際數據處理中,我們也會遇到一些無法解釋的情況。例如,在某高中生對班主任滿意度的調查問卷中有四個指標:品質素養、教學效果、溝通能力、人格魅力。我們讓這四個指標作為自變量、學生滿意度分數作為因變量做多重回歸分析(31位班主任的評價數據)。因變量及四個自變量間的相關系數列于表3.3,回歸參數預測結果列于表3.12。

表3.3 變量間的相關系數表

注:表中數據均在p=0.001水平下達到顯著。

觀察表3.3,圖3.12,首先發現不僅因變量與四個自變量的正相關值非常高,而且自變量間的正相關值也非常高。但是,溝通變量的偏回歸系數估計值與另外三個的估計值相差懸殊,而且還是負值,即某班主任的溝通能力越強,學生對他越不滿意,這從常理上難以解釋。這種現象在多重回歸分析中稱為共線性問題。一般來說,多重回歸分析存在共線性時,常會產生幾種現象:①偏相關系數明明是顯著的,但檢驗結果不顯著;②對于不同抽樣的偏回歸系數,估計值差異很大;③如果刪除其中一個與其他自變量相關很高的自變量時,結果差異很大。通常,自變量間的相關系數超過0.75時,就要警惕多重共線性的問題(當然自變量間高相關并不是共線性的必然結果)。原因解釋可以參考圖3.13。

圖3.12 班主任滿意度回歸參數預測結果

圖3.13 多重回歸模型中的方差示意圖

圖3.13(a)(及圖3.8)表示因變量、自變量在正常情況下的方差結構。從圖中可知自變量X1,X2半偏相關系數平方分別是

而自變量的偏回歸系數正好是半偏相關系數的函數,見公式(3.6a)(3.6b)。另外,圖中c+d的面積就是共線性的程度。在圖3.13(b)中X1,X2相關很高,它們的c+d面積擴張,嚴重擠壓了a, b的面積,從而減少了半偏相關系數,使得偏回歸系數變小。圖3.13(c)中盡管自變量與因變量相關不低,但是共線性嚴重,幾乎重疊的結果導致了自變量偏回歸系數檢驗不顯著。

如何判斷是否存在共線性問題,最簡單的方法是利用每個自變量的容許度(tolerance)指標:

其中,R2j是Xj作為因變量,用其余自變量進行多重回歸分析時的多重決定系數。R2j越大,說明其他自變量預測Xj的能力就越大,則Xj的容許度指標TOLj越小。如果TOLj<0.1時,視為第j個自變量Xj存在共線性現象。還有一個是方差膨脹因子VIF(variance inflation factor),定義為

VIFj正好是容許度的倒數。如果VIFj大于10時就可判定這個自變量是共線性的。但是也有學者認為VIFj大于5就要警惕共線性的問題。利用SPSS軟件進行多重回歸分析時“統計量(S)”內有“共線性診斷(L)”的選項,我們選擇后就可得到TOL與VIF的指標值。學生滿意度數據中四個自變量的共線性評價列于圖3.12的最后一列“共線性統計量”內。

從圖3.12得知,溝通變量的容許度為0.07,VIF=14.225;素養變量的容許度為0.089,VIF=11.216,存在共線性問題。

如何處理共線性問題,最簡單的方法是刪除存在共線性的變量——溝通變量,考慮到素養變量的t檢驗是顯著的,可暫時保留。圖3.14是剔除了溝通變量之后的參數估計結果。

圖3.14 剔除共線性變量后的參數預測值

從圖3.14可知,刪除了溝通變量后剩下的三個自變量的共線性程度都得到了緩解,基本符合多重回歸分析的要求。于是高中生對班主任滿意度的預測式為

從標準回歸系數列中可知,在高中生對班主任的評價中,教師的品質素養起了首要作用。

主站蜘蛛池模板: 吴桥县| 响水县| 富顺县| 怀来县| 浑源县| 佛坪县| 绥中县| 台北市| 大渡口区| 华亭县| 茂名市| 元江| 固阳县| 普兰县| 宁阳县| 鹿邑县| 阿拉善右旗| 嘉义市| 灵武市| 抚顺市| 洞口县| 广宁县| 兴义市| 中牟县| 碌曲县| 沽源县| 新绛县| 册亨县| 娱乐| 满城县| 綦江县| 南充市| 芦山县| 永修县| 茶陵县| 抚顺县| 岗巴县| 佛山市| 海丰县| 沭阳县| 平山县|