官术网_书友最值得收藏!

第4章 多元回歸分析:推斷

4.1 復習筆記

一、OLS估計量的抽樣分布

1.假定MLR.6(正態性)

總體誤差u獨立于解釋變量x1,x2,…,xk,而且服從均值為零和方差為σ2的正態分布:u~Normal(0,σ2)。

2.經典線性模型

就橫截面回歸中的應用而言,從假定MLR.1~MLR.6這六個假定被稱為經典線性模型假定。將這六個假定下的模型稱為經典線性模型(CLM)。

在CLM假定下,OLS估計量比在高斯-馬爾可夫假定下具有更強的效率性質。可以證明,OLS估計量是最小方差無偏估計,即在所有的無偏估計中,OLS具有最小的方差。

總結CLM總體假定的一種簡潔方法是:

y|x~Normal(β0+β1x1+β2x2+…+βkxk,σ2

誤差項的正態性導致OLS估計量的正態抽樣分布:

3.中性極限定理的缺陷

(1)u中的眾多因素可能各有極為不同的總體分布,但中心極限定理(CLT)在這些情形下仍成立,這種正態近似可能不那么好。

(2)更嚴重的問題是,它假定所有不可觀測因素都以獨立而又可加的方式影響著Y。如果u是不可觀測因素的一個復雜函數,那么CLT論證并不真正適用。

4.誤差項的正態性導致OLS估計量的正態抽樣分布

定理4.1:正態抽樣分布

在CLM假定MLR.1~MLR.6下,以自變量的樣本值為條件,有:

因此,

二、檢驗對單個總體參數的假設:t檢驗

1.總體回歸函數

總體模型可寫作:

y=β0+β1x1+…+βkxk+u

假定它滿足CLM假定,OLS得到βj的無偏估計量。

2.定理4.2:標準化估計量的t分布

在CLM假定MLK.1~MLK.6下,

其中,k+1是總體模型y=β0+β1x1+…+βkxk+u中未知參數的個數(k個斜率參數和截距β0)。

式中的分布源于中的常數σ已經被隨機變量所取代,而且可得

3.檢驗虛擬假設

H0:βj=0

用來檢驗式的統計量被稱為的t統計量或t比率,并被定義為

(1)單側對立假設檢驗

單側對立假設:H1:βj>0。這種檢驗意味著排除了系數的總體值小于0的可能性。

拒絕法則

顯著性水平:即當H0實施上正確時拒絕它的概率。在α%的顯著性水平上“足夠大”的定義是,在含有n-k-1個自由度的t分布中,處在百分位中第100-α位的數值。

,H0在α%的顯著性水平上被拒絕并支持H1。該拒絕法則被稱為單側檢驗法。

臨界值

臨界值等于tα(df)。隨著顯著性水平下降,臨界值會提高,以致要拒絕H0就需要越來越大的

如果臨界值來自t分布的左側,則將拒絕法則看成:

其中,c是對立假設H1:βj>0的臨界值。

(2)雙側對立假設

虛擬假設與對立假設分別為:

H0:βj=0

H1:βj≠0

在這個對立假設下,xj對y具有未明確說明是正還是負的影響。

拒絕H0:βj=0的法則是,此時臨界值c為tα/2(df)。在沒有明確地表述對立假設時,通常都認為是雙側的。如果在5%的顯著性水平上拒絕H0,通常說“在顯著性水平為5%時統計上顯著異于零”。如果H0未被拒絕,就說“xj在顯著性水平為5%時是統計上不顯著的”。

(3)檢驗βj 的其他假設

若虛擬假設表述為H0:βj=αj。相應的t統計量為:

t統計量最好寫成:

若t>c,拒絕虛擬假設而支持對立假設,表示在適當的顯著性水平上,βj≠αj

(4)計算t檢驗的p值

p值就是用檢驗統計量的值作為檢驗臨界值時,檢驗的顯著性水平。p值是一個概率,總是介于0和1之間。

p值的解釋:在虛擬假設正確時,所觀察到的t統計量至少和所得到的t統計量一樣大的概率。這意味著,小p值是拒絕虛擬假設的證據,而大p值不能提供拒絕H0的證據。

一旦p值被計算出來,在任何理想的顯著性水平下都能進行經典檢驗。如果用α表示檢驗的顯著性水平(以小數形式表示),那么,若p<α,則拒絕虛擬假設;否則,在100α%的顯著性水平下,就不能拒絕H0

(5)對經典假設檢驗用語的提醒

當H0未被拒絕時,說明“在x%的水平上,不能拒絕H0”,而不能斷定“在x%的水平上接受了H0”。

(6)經濟或實際顯著性與統計顯著性

一個變量xj的統計顯著性完全由的大小決定,而一個變量的經濟顯著性或實際顯著性則與的大小(及符號)相關。

檢驗H0:βj=0時的t統計量被定義為估計值與其標準誤之比:。之所以能標志統計顯著性,要么是因為“很大”,要么是因為“很小”。在實踐中,區分導致t統計量統計顯著的原因很重要。過多地強調統計顯著性,即使一個變量的估計效應不太大,也認為它在解釋y時很“重要”,會導致錯誤的結論。

在處理大樣本時,除了看t統計量外,對系數的大小加以解釋也特別重要。對于大樣本容量,參數可以估計得相當準確:標準誤與系數估計值相比通常都相當小,從而常常導致統計顯著性。因此樣本容量越大時,應該使用越小的顯著性水平,以抵償標準誤越來越小所帶來的后果。

樣本容量較大時,很大的標準誤可能是多重共線性造成的結果。而在小樣本中,解釋變量高度相關時,很難精確估計其偏效應。

(7)檢驗變量在多元回歸模型中的經濟和統計顯著性的準則

檢查統計顯著性。如果該變量是統計顯著的,那就討論系數的大小,以對其實際或經濟上的重要性有所認識。

如果一個變量在通常的顯著性水平(10%、5%或1%)上不是統計顯著的,但如果這個變量對y具有很大的預期的影響,而這個影響在實踐中很大,那就應該對t統計量計算一個p值。對于小樣本容量,有時可以讓p值大到0.20。

t統計量很小的變量都具有“錯誤”的符號。

三、置信區間

在經典線性模型的假定之下,能很容易地為總體參數βj構造一個置信區間(CI)。因為置信區間為總體參數的可能取值提供了一個范圍,而不只是一個點估計值,所以又被稱為區間估計(值)。

置信區間的下界和上界分別是:

四、檢驗關于參數的一個線性組合假設

原虛擬假設與對立假設為:

H0:β1=β2;H1:β1<β2

將虛擬假設和對立假設分別重新寫成:

H0:β1-β2=0;H1:β1-β2<0

t統計量表示為:

接下來進行t檢驗步驟即可。

五、對多個線性約束的檢驗:F檢驗

1.對排除性約束的檢驗

檢驗一組自變量是否對因變量都沒有影響。更準確地說,虛擬假設是,在控制了一些變量之后,余下的那些變量對y沒有任何影響。對多重約束進行的檢驗被稱為多重假設檢驗或聯合假設檢驗。

一個特定的t統計量只能檢驗一個對其他參數沒有限制的假設,因此必須導出一個對多重約束的檢驗。

2.推導F檢驗統計量

將具有k個自變量的不受約束模型寫成:

y=β0+β1x1+…+βkxk+u

不受約束模型中的參數有k+1個。

假設有q個排除性約束要檢驗:即虛擬假設表示,有q個變量的系數為零。假定這q個變量是自變量中的最后q個:Xkq1,…,Xk

虛擬假設:H0:βkg1=0,…,βk=0,它對模型施加了q個排除性約束。

對立假設意味著列出的參數至少有一個異于零。

受約束模型為:

y=β0+β1X1+…+βkqXkq+u

當從不受約束模型變為受約束模型時,SSR的相對增加對檢驗假設而言應該是有意義的。定義F統計量為

其中,SSRr是受約束模型的殘差平方和,SSRur是不受約束模型的殘差平方和。因為SSRr不可能比SSRur小,所以F統計量總是非負的(而且幾乎總是嚴格為正)。

q=分子自由度=dfk-dfuk,表明q是受約束模型與不受約束模型的自由度之差。(df=觀測次數-被估計參數的個數。)由于受約束模型參數較少,而每個模型都使用同樣的n次觀測,所以dfk總是大于dfuk

n-k-1=分母自由度=dfuk,F的分母恰好就是不受約束模型中σ2=Var(u)的一個無偏估計量。

在H0下(并假設CLM假定成立),F統計量服從自由度為(q,n-k-1)的F隨機變量的分布,寫成F~Fqnk1。如果F>c,就在所選定的顯著性水平上拒絕H0而支持H1。如果拒絕H0,就說,xkq1,…,xk 在適當的顯著性水平上是聯合統計顯著的(或簡單地說是聯合顯著的)。

3.F統計量和t統計量之間的關系

(1)檢驗單個變量之排除性的F統計量,等于對應t統計量的平方。

(2)F統計量和t統計量適用與單側檢驗和雙側檢驗的情況

因為具有F1nk1分布,所以在雙側對立假設下,這兩種方法得到完全一樣的結果。

由于t統計量可用來檢驗單側對立假設,所以它對于檢驗單個參數假設就更靈活。還因為t統計量比F統計量更容易獲得,所以實在沒有理由使用F統計量對單個參數假設進行檢驗。

(3)F統計量和t統計量適用與單個檢驗和聯合檢驗的情況

兩(或多)個各自具有不顯著t統計量的變量,合起來可能十分顯著。還有一種可能,在一組解釋變量中,一個變量具有顯著的t統計量,但在常用的顯著性水平上,這組變量卻不是聯合顯著的。雖然規定F統計量用于偵查一組系數是否異于零,但它絕不是判斷單個系數是否異于零的最佳檢驗。t檢驗最適合檢驗單個假設。

當一個變量十分顯著時,將它與其他某組變量聯合檢驗,結果便是聯合顯著的。在這種情形中,同時拒絕這兩個虛擬假設并不存在邏輯上的不一致。

4.F統計量的R2

(1)使用受約束模型和不受約束模型的R2來計算F統計量更方便的原因

R2必定介于0和1之間,而SSR則在很大程度上依賴于度量單位,使得基于SSR的計算繁冗。

R2在幾乎所有的回歸中都會報告,而SSR則不然,使用R2來檢驗變量的排除就較容易。

(2)R2型F統計量

5.計算F檢驗的p值

p值對報告F檢驗的結果特別有用。由于F分布取決于分子和分母的自由度,所以只是看一下F統計量的值或一兩個臨界值,對拒絕虛擬假設之證據的強弱很難有直觀感覺。在F檢驗的背景下,p值被定義為:

p值=P(f>F)

p值的解釋:給定虛擬假設是正確的,觀察到的F值至少和所得到的F值一樣大的概率。

6.回歸整體顯著性的F統計量

在含有k個自變量的模型中,可以把虛擬假設寫成H0:x1,x2,…,xk都無助于解釋y。

用參數表示,這個虛擬假設就是所有的斜率參數都是零:H0:β1=β2=…=βk=0,在式中有k個約束,得到受約束模型y=β0+u,該估計式的R2為零。因為沒有解釋變量,所以y中的變異一點都沒有得到解釋。F統計量可寫成

其中,R2就是y對x1,x2,…,xk 回歸的通常R2

7.檢驗一般的線性約束

檢驗排除性約束仍是F統計量最重要的應用。但有時候,一種理念所蘊涵的約束,比僅僅排除某些自變量更為復雜,仍可以直接使用F統計量進行檢驗。

因變量不同的模型,不能使用F統計量的R2型。

六、報告回歸結果

1.所估計的OLS系數估計值總應該報告

對于分析中的關鍵變量,對所估計的系數做出解釋。

2.標準誤

標準誤總是應該與所估計的系數一起包括進來,原因在于:

(1)標準誤有助于判斷被檢驗的虛擬假設,虛擬假設并非總是總體參數為0;

(2)有助于計算置信區間。

3.回歸的R2也總應該包括進來

(1)R2提供擬合優度的一種度量;

(2)簡化排除性約束F統計量的計算。

4.觀測次數也應該出現在估計模型中

主站蜘蛛池模板: 宜阳县| 塔城市| 龙口市| 洛浦县| 霍城县| 湖州市| 西城区| 淳安县| 伊宁市| 连云港市| 西宁市| 封丘县| 水富县| 台安县| 万年县| 乐业县| 亚东县| 大厂| 抚顺县| 原平市| 横峰县| 宁海县| 沐川县| 互助| 东山县| 靖江市| 和龙市| 集贤县| 博湖县| 古浪县| 冷水江市| 溆浦县| 花莲市| 团风县| 永康市| 西青区| 华蓥市| 涿州市| 林口县| 扶风县| 双城市|