官术网_书友最值得收藏!

3.4 建立有效的多重回歸模型

所謂有效的回歸模型,是希望在這個(gè)回歸模型中能包含盡量多的信息和盡量少的自變量。為此必須注意以下三個(gè)問(wèn)題。

(1)選擇合適的自變量。

所謂合適,有三個(gè)層面的意思。首先要根據(jù)研究的理論基礎(chǔ)來(lái)選擇因變量與自變量,有了理論基礎(chǔ)則可以繼而考查這些自變量是否與因變量有線性相關(guān)。如自變量與因變量相關(guān)系數(shù)過(guò)低,用這個(gè)自變量來(lái)預(yù)測(cè)因變量的效果就會(huì)不理想。其次是自變量的數(shù)量要適當(dāng),自變量過(guò)多,部分自變量可能對(duì)因變量實(shí)際影響并不顯著,反而會(huì)因自由度的減少而增大了誤差。但是自變量數(shù)量太少,則會(huì)導(dǎo)致決定系數(shù)值過(guò)低,影響回歸分析效果。三是自變量間的相關(guān)不能過(guò)高,否則容易出現(xiàn)多重共線性等問(wèn)題。因此在回歸分析中提出最優(yōu)方程的要求,即要求進(jìn)入回歸方程的自變量都是顯著的,未進(jìn)入回歸方程的自變量都不顯著。為了獲得最優(yōu)方程,多重回歸分析提供了若干選擇自變量的方法,如強(qiáng)迫剔除法(remove)、前進(jìn)法(forward)、后退法(backward)、逐步回歸法(stepwise)等,其中應(yīng)用最多的是逐步回歸法。如果自變量超過(guò)5個(gè)(p≥5),也可考慮用逐步回歸法。它的具體做法是:先將所有自變量分別與因變量建立線性回歸方程,將偏回歸平方和最大的以及通過(guò)顯著性檢驗(yàn)的變量引入方程;然后再把剩余的自變量分別與因變量和已引入方程的自變量建立多重回歸方程,經(jīng)過(guò)檢驗(yàn)偏回歸系數(shù),剔除不顯著的自變量。逐步回歸法又稱(chēng)統(tǒng)計(jì)回歸分析,因?yàn)樵摲椒ㄊ菃渭兊乜唇y(tǒng)計(jì)指標(biāo)來(lái)選擇自變量,缺少理論基礎(chǔ)及邏輯性的考量。Harrell(2001)曾經(jīng)評(píng)論該方法不是一種好方法,也有人提議當(dāng)自變量超過(guò)5個(gè)時(shí),可選用它來(lái)進(jìn)行探索性研究。相對(duì)逐步回歸而言,前面介紹的全部自變量都參與參數(shù)估計(jì)的方法稱(chēng)為標(biāo)準(zhǔn)多重回歸(standard multiple regression)。

(2)抽樣數(shù)據(jù)的量與質(zhì)。

在本章的回歸分析中,對(duì)所有因變量與自變量的數(shù)據(jù)要求是連續(xù)變量或者等距尺度以上的數(shù)據(jù)(如果在一般線性模型中,自變量可以是二值變量——0或1)。但是不管哪類(lèi)回歸模型,因變量與自變量都必須是高質(zhì)量的:一是要保證有足夠的樣本量,二是要盡可能不存在極端值與缺失值,三是自變量的信度要盡可能高些。足夠的樣本量是獲得穩(wěn)定的偏回歸系數(shù)估計(jì)值的前提條件。但到底需要多少樣本量?和其他統(tǒng)計(jì)分析一樣,無(wú)法嚴(yán)格規(guī)定。歸納各類(lèi)教材中對(duì)樣本量的要求,可以分為三個(gè)檔次的標(biāo)準(zhǔn)。最低標(biāo)準(zhǔn)是樣本數(shù)量必須是自變量個(gè)數(shù)的5倍。例如要用3個(gè)自變量,至少需要有15個(gè)被試。中等標(biāo)準(zhǔn)是自變量10倍,較高標(biāo)準(zhǔn)是40倍,若使用逐步回歸法,該比例要求達(dá)50倍。極端值是指數(shù)值上較大地偏離了其他數(shù)據(jù)的觀察值,缺失值是指觀察值不完全。由于回歸模型是線性模型,與方差、相關(guān)系數(shù)類(lèi)似,估計(jì)結(jié)果非常容易受到極端值與缺失值的影響。極端值需要利用殘差分析方法來(lái)確定,而缺失值可以用平均值等方法進(jìn)行修補(bǔ)。分析前先對(duì)數(shù)據(jù)進(jìn)行篩選,剔除有缺陷的數(shù)據(jù),是對(duì)初學(xué)者來(lái)說(shuō)比較穩(wěn)妥的辦法。由于在回歸模型里,是不考慮自變量誤差的,為了使它們有效地發(fā)揮預(yù)測(cè)作用,其信度應(yīng)盡可能高些。

(3)回歸模型假設(shè)的檢查。

很多教材關(guān)于多重回歸模型假設(shè)的提法是有差異的。最常見(jiàn)的有四點(diǎn):正態(tài)性(normality)、線性(linearity)、方差齊性(homoscedasticity)與誤差的獨(dú)立性(independence)。嚴(yán)格來(lái)說(shuō),上述四條還能再歸納到兩條:①誤差ei(i=1,2,……,n)相互獨(dú)立且服從平均值為0,方差為σ2的正態(tài)分布;②存在預(yù)測(cè)式,它是至少由一個(gè)自變量組成的線性方程式。對(duì)于初學(xué)者來(lái)說(shuō),可用觀察殘差分布的信息來(lái)判斷這些假設(shè)是否滿足。這種方法雖然粗糙,但是基本有效,具體做法在前面的殘差分析中已經(jīng)提及。當(dāng)然還有其他方法如P-P圖、正態(tài)直方圖以及代數(shù)學(xué)中的證明等。

主站蜘蛛池模板: 武冈市| 绍兴县| 鹤山市| 鄢陵县| 隆尧县| 扎囊县| 长宁区| 彭泽县| 岳池县| 阿拉善左旗| 托里县| 南安市| 绥江县| 正宁县| 山阳县| 和林格尔县| 万盛区| 丹棱县| 鲜城| 教育| 察哈| 宁波市| 南康市| 香格里拉县| 南郑县| 芮城县| 富锦市| 威宁| 库尔勒市| 滨海县| 永吉县| 石河子市| 尼勒克县| 曲松县| 阳新县| 信宜市| 无锡市| 子长县| 洱源县| 合山市| 赤峰市|