官术网_书友最值得收藏!

第1篇 橫截面數據的回歸分析

第2章 簡單回歸模型

2.1 復習筆記

一、簡單回歸模型的定義

1.雙變量線性回歸模型

一個簡單的方程是:y=β0+β1x+u。

假定方程在所關注的總體中成立,它便定義了一個簡單線性回歸模型。因為它把兩個變量x和y聯系起來,所以又把它稱為兩變量或者雙變量線性回歸模型。

2.回歸術語

表2-1  簡單回歸的術語

3.零條件均值假定

(1)零條件均值

u的平均值與x值無關。可以把它寫作:E(u|x)=E(u)。當方程成立時,就說u的均值獨立于x。

(2)零條件均值假定的意義

零條件均值假定給出β1的另一種非常有用的解釋。以x為條件取期望值,并利用E(u|x)=0,便得到:

E(y|x)=β0+β1x

方程表明,總體回歸函數(PRF)E(y|x)是x的一個線性函數,線性意味著x變化一個單位,將使y的期望值改變β1。對任何給定的x值,y的分布都以E(y|x)為中心。β1就是斜率參數。

給定零條件均值假定E(u|x)=0,把方程中的y看成兩個部分是比較有用的。一部分是表示E(y|x)的β0+β1x,被稱為y的系統部分,即由x解釋的那一部分,另一個部分是被稱為非系統部分的u,即不能由x解釋的那一部分。

二、普通最小二乘法的推導

1.最小二乘估計值

從總體中找一個樣本。令{(xi,yi):i=1,…,n}表示從總體中抽取的一個容量為n的隨機樣本。

yi=β0+β1xi+ui

在總體中,u與x不相關。因此E(u)=0和cov(x,u)=E(x,u)=0。

用可觀測變量x和y以及未知參數β0和β1表示為:

得到

這兩個方程可用來解出,則

一旦得到斜率估計值,則有

整理后便得到

根據求和運算的基本性質,有

因此,只要有

估計的斜率就為

所給出的估計值稱為β0和β1的普通最小二乘(OLS)估計值。

2.普通最小二乘估計的合理性

已知,第i次觀測的殘差是yi的實際值與其擬合值之差:

選擇β0和β1最小化殘差平方和:

“普通最小二乘法”之所以得名,就是因為這些估計值最小化了殘差平方和。

一旦確定了OLS截距和斜率估計值,就能夠建立OLS回歸線:

方程又被稱為樣本回歸函數(SRF),因為它是總體回歸函數的一個樣本估計。總體回歸函數是固定而又未知的。因為樣本回歸函數來自一組給定的數據樣本,所以一個新的樣本將使得方程中產生不同的斜率和截距。

三、OLS的操作技巧

1.擬合值和殘差

假定從給定數據樣本中得到截距和斜率的估計值。給定,能夠獲得每次觀測的擬合值。根據定義,的每個擬合值都在OLS回歸線上。

與第i次觀測相聯系的OLS殘差是yi與其擬合值之差。若為正,則回歸線低估了yi;若為負,則回歸線高估了yi。第i次觀測最理想的情況是,但在大部分情形中,并非每個殘差都等于零。換言之,實際上沒有一個數據點必須在OLS線上。

2.OLS統計量的代數性質

(1)OLS殘差和及其樣本均值都為零。數學表述為:

(2)回歸元和OLS殘差的樣本協方差為零。

(3)點總在OLS回歸線上。

3.定義總平方和(SST)、解釋平方和(SSE)和殘差平方和(SSR)

SST度量了yi中的總樣本變異;這就是說,它度量了yi在樣本中的分散程度。SSE度量了yi的樣本變異,SSR度量了ui的樣本變異。y的總變異總能表示成解釋了的變異和未解釋的變異之和。因此,SST=SSE+SSR。

不能把殘差平方稱為“誤差平方和”,因為誤差和殘差是不同的兩個量。

4.擬合優度

擬合優度R2,有時又稱為判定系數,被定義為R2=SSE/SST=1-SSR/SST。

R2是解釋變異與總變異之比,因此被解釋成y的樣本變異中被解釋的部分。因為SSE不可能大于SST,所以R2的值總介于0和1之間。

回歸方程中的R2過低是很正常的,對于橫截面分析來說,一個看似很低的R2值,并不意味著OLS回歸方程沒有用。

四、度量單位和函數形式

1.改變度量單位對OLS統計量的影響

(1)當因變量的度量單位改變時,很容易計算出截距和斜率估計值的變化。若因變量乘以一個常數c(意味著樣本中的每個數據都乘以c),則OLS截距和斜率的估計值都擴大為原來的c倍。

(2)若自變量被除以或乘以一個非零常數c,則OLS斜率系數也會分別被乘以或者除以c。

(3)僅改變自變量的度量單位,不會影響截距估計值。

(4)模型的擬合優度不依賴于變量的度量單位。利用R2的定義可知,R2事實上不因y或x的單位變化而改變。

2.在簡單回歸中加入非線性因素

一個給出百分比影響(近似)為常數的模型是:logx=β0+β1y+u。

特別地,若?u=0,則%?x≈(100﹒β1)?y。

自然對數的另一個應用,是得到一個常彈性模型:logx=β0+β1logy+u。

定義因變量為y=logy,自變量為x=logx,這個模型就變成了簡單回歸模型。

3.對數函數的幾種形式

表2-2  含對數的函數形式總覽

一般性模型同樣允許非線性關系的存在。關鍵是,方程中的參數β0和β1是線性的,至于被解釋變量和解釋變量有何聯系,并沒有限制。

五、OLS估計量的期望值和方差

1.OLS的無偏性

(1)相關假定

假定SLR.1(線性于參數)

在總體模型中,因變量y與自變量x和誤差(干擾)u的關系如下:

y=β0+β1x+u

其中,β0和β1分別表示總體的截距和斜率參數。

假定SLR.2(隨機抽樣)

具有一個服從總體模型方程的隨機樣本{(xi,yi):i=1,2,…,n},其樣本容量為n。

假定SLR.3(解釋變量的樣本有變異)

x的樣本結果即{xi,i=1,…,n}不是完全相同的數值。

假定SLR.4(零條件均值)

給定解釋變量的任何值,誤差的期望值都為零,E(u|x)=0。

(2)與β1的差異

斜率估計量為

可轉換為

其中,。可以看到,的估計量等于總體斜率β1加上誤差{u1,u2,…,un}的一個線性組合。以xi的值為條件,的隨機性完全來自于樣本中的誤差。這些誤差一般都不為零的事實,正是與β1有差異的原因。

(3)定理2.1:OLS的無偏性

利用假定SLR.1~SLR.4,對β0和β1的任何值,都有。換言之,對β0對β1而言是無偏的。

(4)證明OLS的無偏性

根據假定SLR.2和SLR.4有,于是以xi的值為條件,有

,這就意味著。因此,

2.OLS估計量的方差

(1)相關假定

假定SLR.5(同方差性)

給定解釋變量的任何值,誤差都具有相同的方差,

(2)定理2.2:OLS估計量的抽樣方差

在假定SLR.1~SLR.5下,以樣本值{x1,x2,…,xn}為條件,有

(3)證明

因為β1只是一個常數,而且以xi為條件,所以SSTx和di=xi-x也是非隨機的。而且,ui在i上(根據隨機抽樣)是獨立的隨機變量,故和的方差就是方差的和。所以:

3.誤差方差的估計

(1)誤差與殘差的區分

利用隨機樣本觀測把總體模型寫成yi=β0+β1xi+ui,其中ui是第i次觀測的誤差。還可以將yi用其擬合值和殘差表示出來:。比較這兩個方程,可以看出,誤差出現在包含總體參數β0和β1的方程中。另一方面,殘差則出現在使用的估計方程中。誤差是無法觀測的,但殘差卻可以從數據中計算出來。

把殘差寫成誤差的函數:

或者

盡管的期望值等于β0的期望值也等于β1,而卻不等于ui。但二者之差的期望值倒確實為零。

(2)σ2的無偏估計量

對自由度進行調整:

(3)定理2.3:σ2的無偏估計

在假定SLR.1~SLR.5下,有

證明:如果把方程對所有i進行平均,并利用OLS殘差均值為零的結論,便得到

從原方程中減去它,則得到:

對所有i求和,又得到:

等式右邊第一項的期望值是(n-1)σ2。第二項的期望值是σ2,第三項的期望是2σ2,則有:

因此E[SSR/(n-2)]=σ2。σ的自然估計量為:。并被稱為回歸標準誤差(SER)。盡管不是σ的無偏估計量,可能夠證明它是σ的一致估計量。

的標準誤為:

六、過原點回歸

規范地,選擇一個斜率估計量(稱之為)和如下形式的一條線

因為直線經過點x=0,,所以得到的方程又被稱為過原點回歸。使用普通最小二乘法,此時最小化的殘差平方和為

利用一元微積分可以證明,必須滿足一階條件

從而解出為:

當且僅當時,這兩個估計值才是相同的。

主站蜘蛛池模板: 瓮安县| 外汇| 天祝| 古浪县| 黄石市| 清流县| 乃东县| 达州市| 土默特左旗| 金昌市| 安溪县| 定陶县| 迭部县| 高平市| 逊克县| 睢宁县| 时尚| 邢台市| 通城县| 施秉县| 陆丰市| 方城县| 郎溪县| 虹口区| 西藏| 读书| 精河县| 城固县| 廉江市| 克山县| 健康| 高阳县| 施甸县| 兴国县| 安溪县| 同德县| 安徽省| 昌江| 三亚市| 栖霞市| 叶城县|