- 伍德里奇《計量經濟學導論》(第4版)筆記和課后習題詳解
- 圣才電子書
- 14字
- 2021-05-21 22:21:41
第6章 多元回歸分析:深入專題
6.1 復習筆記
一、數據的測度單位對OLS統計量的影響
1.數據的測度單位對OLS統計量無實質性影響
當對變量重新測度時,系數、標準誤、置信區間、t統計量和F統計量改變的方式,都不影響所有被測度的影響和檢驗結果。怎樣度量數據通常只起到非實質性的作用,比如說,減少所估計系數中小數點后零的個數等。通過對度量單位明智的選擇,可以在不做任何本質改變的情況下,改進所估計方程的形象。
對任何一個xi,當它在回歸中以log(xi)出現時,改變其度量單位也只能影響到截距。這與對百分比變化和(特別是)彈性的了解相對應:它們不會隨著y或xi度量單位的變化而變化。
2.β系數
原始方程:
減去平均方程,就可以得到:
令為因變量的樣本標準差,
為x1的樣本標準差,
為x2的樣本標準差,等等。然后經過簡單的運算就可以得到方程:
每個變量都用其z得分而被標準化,這就得到一些新的斜率參數。截距項則完全消失:
新的系數是:
傳統上稱這些為標準化系數或β系數。以標準差為單位,由于它使得回歸元的度量單位無關緊要,所以這個方程把所有解釋變量都放到相同的地位上。在一個標準的OLS方程中,不可能只看不同系數的大小,也不可能斷定具有最大系數的解釋變量就“最重要”。通過改變xi的度量單位,可以任意改變系數的大小。但當每個xi都被標準化之后,比較由此得到的β系數就更加有說服力。
二、對函數形式的進一步討論
1.對數式模型
(1)一般估計模型舉例及解釋
一般估計模型為:
固定xi,有。使用指數函數和對數函數的簡單數學性質,可給出所預計的y的精確百分比變化為:
其中乘以100后,就將比例變化轉化成了百分數變化。
(2)使用自然對數的優勢
①由于斜率系數不隨測度單位而變化,所以可以忽略以對數形式出現的變量的度量單位;
②當y>0時,使用log(y)作為因變量的模型,通常比使用y的水平值作為因變量的模型更接近CLM假定;
③嚴格為正的變量,其條件分布常常具有異方差性或偏態性,取對數后,即使不能消除這兩方面的問題,也可以使之有所緩和;
④取對數通常會縮小變量的取值范圍,在某些情況下還相當可觀。這就使得估計值對因變量或自變量的異常(或極端)觀測不是那么敏感。
(3)使用對數的劣勢
①使用對數所受到的一個限制是變量不能取零或負值;
②使用對數形式的因變量有一個缺陷,即更難于預測原變量的值。
2.含二次式的模型
考慮最簡單的情形:
y=β0+β1x+β2x2+u
其中,β1并沒有度量y相對于x的變化,保持x2不變而改變x是毫無意義的。如果將估計方程寫成:
那么就有如下近似:
所以。
這說明,x和y之間的斜率取決于x的值,所估計的斜率是。
轉折點為x的系數和x2系數的兩倍之比:
3.含有交互作用項的模型
考慮包含兩個解釋變量和一個交互項的模型:y=β0+β1x1+β2x2+β3x1x2+u
將模型重新參數化為:y=α0+δ1x1+δ2x2+β3(x1-μ1)(x2-μ2)+u
其中,μ1和μ2分別為x1和x2的總體均值。很容易看出,現在x2的系數δ2,便是在x1的均值處x2對y的偏效應。
三、擬合優度和回歸元選擇的進一步探討
1.對R2的理解
經典線性模型假定中沒有要求R2必須大于某個特定值。R2無非就是Y的變異中有多少能用總體中的x1,x2,…,xk解釋。零條件均值假定MLR.4只是確定是否得到了自變量其他條件不變之影響的無偏估計量,而R2的大小與此則沒有直接關系。
一個較小的R2確實意味著,誤差方差相對y的方差太大了,這又意味著很難精確地估計βj。大樣本容量可能抵消較大的誤差方差:如果有足夠的數據,即便沒有控制許多無法觀測的因素,也可能精確地估計偏效應。
在方程中增加變量時,R2的相對變化則十分有用:檢驗聯合顯著性的F統計量,關鍵取決于無約束模型和約束模型的R2之差。
2.調整R2
R2=1-(SSR/n)/(SST/n)
其中,SSR是殘差平方和,而SST是總平方和。
令為y的總體方差,
為誤差項u的總體方差,則總體R2被定義為:
由于SST/(n-1)是的無偏估計量,所以可以用SST/(n-1)來代替SST/n。又因為
故可以得到調整R2:
R2與調整R2(即)之間的關系表達式為:
3.利用調整R2在兩個非嵌套模型中進行選擇
在兩個非嵌套模型之間進行選擇時,利用有一個重要的局限性:不能用它在因變量的不同函數形式之間進行選擇。不論是R2還是
,所度量的都是因變量總變異中能被解釋的比例。而y和log(y)的總變異是不同的,將因變量形式不同的回歸中所得到的調整R2進行比較,是不能在哪個模型擬合得更好這個問題上告訴任何信息的。它們擬合的是兩個完全不同的因變量。
4.回歸分析中控制了過多的因素
如果過分強調擬合優度,就會在回歸模型中無所顧忌地控制一些不應該控制的因素。在多元回歸中所謂控制因素過多,通常是擔心遺漏一個重要變量可能帶來潛在偏誤。但重要的是記得多元回歸的其他條件不變的性質。在有些情形中,某些因素應該隨著一個政策變量的改變而有所變化,保持這些因素不變就沒有意義。
5.增加回歸元以減少誤差方差
有些自變量盡管與因變量相關,但也不應該包括在回歸模型中。在回歸中增加一個新的自變量會加劇多重共線性的問題。另一方面,由于從誤差項中取出了一些因素作為解釋變量,所以總可以減少誤差方差。
對于那些既影響Y而又與所有所關心的自變量都無關的自變量,總是應該把它們包含進來。增加這樣一個變量,不會導致總體出現多重共線性,但卻可以減小誤差方差。在大樣本容量的情況下,所有OLS估計量的標準誤都將減小。
四、預測和殘差分析
1.預測的置信區間
假設有如下估計方程:
令c1,c2,…,ck分別表示k個自變量中每一個自變量的具體值,對參數
進行估計,可得其估計量為:
令為新的自變量值,且u0為觀測不到的誤差。因此有:
從OLS回歸線估計y0的期望值:
預測誤差為:
由于是無偏的,所以
由于,u0和
不相關,則預測誤差的方差為:
令的標準誤為:
其中服從一個自由度為n-(k+1)的t分布。于是:
其中,t0.025為tn-k-1分布中第97.5個百分位。對很大的n-k-1,記t0.025≈1.96。代入,經整理則給出y0的一個95%預測區間為:
2.殘差分析
檢查一下個體觀測值,分析因變量的實際值是高于還是低于預測值也很有幫助,也就是考察個別觀測的殘差。這個過程被稱為殘差分析。
3.當因變量為log(y)時對y的預測
logy=β0+β1x1+β2x2+…+βkxk+u
給定OLS估計量,得logy的預測值為:
預測y就是將log(y)的預測值轉換成指數函數值:
實際上,它將系統地低估y的預測值。因為如果模型服從CLM假定MLR.1MLR.6,那么就可以證明:
如果u~N(0,σ2),那么exp(u)的期望值就是exp(σ2/2)。為了預測y,需要進行一個簡單的調整:
其中,無非就是σ2的無偏估計量。因為
,所以exp(σ2/2)>1。對很大的
,這個調整因子可能會顯著地大于1。雖然預測不是無偏的,但它卻是一致的。如果只假定u獨立于解釋變量,那么就有
E(y|x)=α0exp(β0+β1x1+β2x2+…+βkxk)
其中,α0為exp(u)的期望值,并肯定大于1。給定一個估計值,就能將y預測為:
其中,。
是α0的一個一致估計量,但它不是無偏的,因為在一個非線性的函數中用
取代了ui。
基于一個過原點的簡單回歸,可以得到α0的另一個不同的估計值。定義:mi=exp(β0+β1xi1+…+βkxik),
于是,就是將yi對
進行簡單回歸(不含截距)所得到的普通最小二乘斜率估計值:
把稱為α0的回歸估計值。和
一樣,
是一致的,但不是無偏的。
4.當因變量為log(y)時對y的預測步驟
(1)從logy對x1,x2,…,xk的回歸中得到擬合值和殘差
;
(2)利用方程求出
或利用
求出
;
(3)對于給定的x1,x2,…,xk,求出;
(4)利用得到預測值
(利用
或
)。
- 南海潮音:一個學者官員的村居調研手記
- Scilab語言與控制系統的仿真分析
- 跨國公司經營與管理(第2版)
- 機械基礎
- 數據科學技術與應用
- 新型無鹵阻燃硬質聚氨酯泡沫材料
- Linux操作系統
- 2020年天津市公安招警考試《公安專業科目》題庫【真題精選+章節題庫+模擬試題】
- 《馬克思主義基本原理》學習輔導
- 常耀信《美國文學簡史》(第3版)筆記和考研真題詳解
- 王珊《數據庫系統概論》(第5版)章節專項練習及詳解
- 同濟大學數學系《高等數學》(第6版)(下冊)筆記和課后習題(含考研真題)詳解
- 定量分析化學實驗
- 陳琦、劉儒德《當代教育心理學》(第2版)筆記和課后習題(含考研真題)詳解
- 王傳麗《國際經濟法》(高等教育出版社第3版)筆記和課后習題詳解