官术网_书友最值得收藏!

第6章 多元回歸分析:深入專題

6.1 復習筆記

一、數據的測度單位對OLS統計量的影響

1.數據的測度單位對OLS統計量無實質性影響

當對變量重新測度時,系數、標準誤、置信區間、t統計量和F統計量改變的方式,都不影響所有被測度的影響和檢驗結果。怎樣度量數據通常只起到非實質性的作用,比如說,減少所估計系數中小數點后零的個數等。通過對度量單位明智的選擇,可以在不做任何本質改變的情況下,改進所估計方程的形象。

對任何一個xi,當它在回歸中以log(xi)出現時,改變其度量單位也只能影響到截距。這與對百分比變化和(特別是)彈性的了解相對應:它們不會隨著y或xi度量單位的變化而變化。

2.β系數

原始方程:

減去平均方程,就可以得到:

為因變量的樣本標準差,為x1的樣本標準差,為x2的樣本標準差,等等。然后經過簡單的運算就可以得到方程:

每個變量都用其z得分而被標準化,這就得到一些新的斜率參數。截距項則完全消失:

新的系數是:

傳統上稱這些為標準化系數或β系數。以標準差為單位,由于它使得回歸元的度量單位無關緊要,所以這個方程把所有解釋變量都放到相同的地位上。在一個標準的OLS方程中,不可能只看不同系數的大小,也不可能斷定具有最大系數的解釋變量就“最重要”。通過改變xi的度量單位,可以任意改變系數的大小。但當每個xi都被標準化之后,比較由此得到的β系數就更加有說服力。

二、對函數形式的進一步討論

1.對數式模型

(1)一般估計模型舉例及解釋

一般估計模型為:

說明: 1

固定xi,有說明: 2。使用指數函數和對數函數的簡單數學性質,可給出所預計的y的精確百分比變化為:

其中乘以100后,就將比例變化轉化成了百分數變化。

(2)使用自然對數的優勢

由于斜率系數不隨測度單位而變化,所以可以忽略以對數形式出現的變量的度量單位;

當y>0時,使用log(y)作為因變量的模型,通常比使用y的水平值作為因變量的模型更接近CLM假定;

嚴格為正的變量,其條件分布常常具有異方差性或偏態性,取對數后,即使不能消除這兩方面的問題,也可以使之有所緩和;

取對數通常會縮小變量的取值范圍,在某些情況下還相當可觀。這就使得估計值對因變量或自變量的異常(或極端)觀測不是那么敏感。

(3)使用對數的劣勢

使用對數所受到的一個限制是變量不能取零或負值;

使用對數形式的因變量有一個缺陷,即更難于預測原變量的值。

2.含二次式的模型

考慮最簡單的情形:

y=β0+β1x+β2x2+u

其中,β1并沒有度量y相對于x的變化,保持x2不變而改變x是毫無意義的。如果將估計方程寫成:

那么就有如下近似:

所以

這說明,x和y之間的斜率取決于x的值,所估計的斜率是

轉折點為x的系數和x2系數的兩倍之比:

3.含有交互作用項的模型

考慮包含兩個解釋變量和一個交互項的模型:y=β0+β1x1+β2x2+β3x1x2+u

將模型重新參數化為:y=α0+δ1x1+δ2x2+β3(x1-μ1)(x2-μ2)+u

其中,μ1和μ2分別為x1和x2的總體均值。很容易看出,現在x2的系數δ2,便是在x1的均值處x2對y的偏效應。

三、擬合優度和回歸元選擇的進一步探討

1.對R2的理解

經典線性模型假定中沒有要求R2必須大于某個特定值。R2無非就是Y的變異中有多少能用總體中的x1,x2,…,xk解釋。零條件均值假定MLR.4只是確定是否得到了自變量其他條件不變之影響的無偏估計量,而R2的大小與此則沒有直接關系。

一個較小的R2確實意味著,誤差方差相對y的方差太大了,這又意味著很難精確地估計βj。大樣本容量可能抵消較大的誤差方差:如果有足夠的數據,即便沒有控制許多無法觀測的因素,也可能精確地估計偏效應。

在方程中增加變量時,R2的相對變化則十分有用:檢驗聯合顯著性的F統計量,關鍵取決于無約束模型和約束模型的R2之差。

2.調整R2

R2=1-(SSR/n)/(SST/n)

其中,SSR是殘差平方和,而SST是總平方和。

為y的總體方差,為誤差項u的總體方差,則總體R2被定義為:

由于SST/(n-1)是的無偏估計量,所以可以用SST/(n-1)來代替SST/n。又因為

故可以得到調整R2

R2與調整R2(即)之間的關系表達式為:

3.利用調整R2在兩個非嵌套模型中進行選擇

在兩個非嵌套模型之間進行選擇時,利用有一個重要的局限性:不能用它在因變量的不同函數形式之間進行選擇。不論是R2還是,所度量的都是因變量總變異中能被解釋的比例。而y和log(y)的總變異是不同的,將因變量形式不同的回歸中所得到的調整R2進行比較,是不能在哪個模型擬合得更好這個問題上告訴任何信息的。它們擬合的是兩個完全不同的因變量。

4.回歸分析中控制了過多的因素

如果過分強調擬合優度,就會在回歸模型中無所顧忌地控制一些不應該控制的因素。在多元回歸中所謂控制因素過多,通常是擔心遺漏一個重要變量可能帶來潛在偏誤。但重要的是記得多元回歸的其他條件不變的性質。在有些情形中,某些因素應該隨著一個政策變量的改變而有所變化,保持這些因素不變就沒有意義。

5.增加回歸元以減少誤差方差

有些自變量盡管與因變量相關,但也不應該包括在回歸模型中。在回歸中增加一個新的自變量會加劇多重共線性的問題。另一方面,由于從誤差項中取出了一些因素作為解釋變量,所以總可以減少誤差方差。

對于那些既影響Y而又與所有所關心的自變量都無關的自變量,總是應該把它們包含進來。增加這樣一個變量,不會導致總體出現多重共線性,但卻可以減小誤差方差。在大樣本容量的情況下,所有OLS估計量的標準誤都將減小。

四、預測和殘差分析

1.預測的置信區間

假設有如下估計方程:

令c1,c2,…,ck分別表示k個自變量中每一個自變量的具體值,對參數

進行估計,可得其估計量為:

為新的自變量值,且u0為觀測不到的誤差。因此有:

從OLS回歸線估計y0的期望值:

預測誤差為:

由于是無偏的,所以

由于,u0不相關,則預測誤差的方差為:

的標準誤為:

其中服從一個自由度為n-(k+1)的t分布。于是:

其中,t0.025為tnk1分布中第97.5個百分位。對很大的n-k-1,記t0.025≈1.96。代入,經整理則給出y0的一個95%預測區間為:

2.殘差分析

檢查一下個體觀測值,分析因變量的實際值是高于還是低于預測值也很有幫助,也就是考察個別觀測的殘差。這個過程被稱為殘差分析。

3.當因變量為log(y)時對y的預測

logy=β0+β1x1+β2x2+…+βkxk+u

給定OLS估計量,得logy的預測值為:

說明: 3

預測y就是將log(y)的預測值轉換成指數函數值:

說明: 4

實際上,它將系統地低估y的預測值。因為如果模型服從CLM假定MLR.1MLR.6,那么就可以證明:

如果u~N(0,σ2),那么exp(u)的期望值就是exp(σ2/2)。為了預測y,需要進行一個簡單的調整:

說明: 5

其中,無非就是σ2的無偏估計量。因為,所以exp(σ2/2)>1。對很大的,這個調整因子可能會顯著地大于1。雖然預測不是無偏的,但它卻是一致的。如果只假定u獨立于解釋變量,那么就有

E(y|x)=α0exp(β0+β1x1+β2x2+…+βkxk

其中,α0為exp(u)的期望值,并肯定大于1。給定一個估計值,就能將y預測為:

說明: 6

其中,是α0的一個一致估計量,但它不是無偏的,因為在一個非線性的函數中用取代了ui

基于一個過原點的簡單回歸,可以得到α0的另一個不同的估計值。定義:mi=exp(β0+β1xi1+…+βkxik),

說明: 7

于是,就是將yi進行簡單回歸(不含截距)所得到的普通最小二乘斜率估計值:

稱為α0的回歸估計值。和一樣,是一致的,但不是無偏的。

4.當因變量為log(y)時對y的預測步驟

(1)從logy對x1,x2,…,xk的回歸中得到擬合值說明: 8和殘差

(2)利用方程求出或利用求出

(3)對于給定的x1,x2,…,xk,求出說明: 9

(4)利用說明: 10得到預測值(利用)。

主站蜘蛛池模板: 上思县| 长治市| 武安市| 舒城县| 水城县| 辛集市| 雷州市| 固安县| 扬州市| 织金县| 莫力| 宁晋县| 遂溪县| 阳西县| 钟山县| 怀柔区| 庐江县| 铜鼓县| 大安市| 郓城县| 监利县| 梓潼县| 巧家县| 株洲县| 东海县| 武义县| 綦江县| 宁阳县| 海盐县| 镶黄旗| 外汇| 壤塘县| 三亚市| 盐城市| 资源县| 溧阳市| 策勒县| 嘉兴市| 凤翔县| 潜山县| 灵川县|