- 應(yīng)用計量經(jīng)濟學
- 曹穎軼 毛錦凰 李霞編著
- 18427字
- 2019-01-04 13:27:20
第二章 簡單線性回歸模型
簡單線性回歸模型就是一元線性回歸模型或者稱為雙變量線性模型。
例如,一個簡單的工資方程。經(jīng)濟學家試圖找到一個人的工資水平與他的教育水平及其他因素之間的關(guān)系,我們可以構(gòu)造如下的方程:

其中,wage表示每小時美元數(shù);educ是受教育年數(shù);β2 度量了在其他條件不變的情況下,每增加一年教育所獲得的小時工資增長量。μ是其他因素,包括勞動力的經(jīng)驗、天生的素質(zhì)、在現(xiàn)在雇主之下供職的時間、工作道德以及無數(shù)的其他因素。
第一節(jié) 回歸分析概述
回歸一詞最先由F.加爾頓(Francis Galton)引入。在一篇著名的論文中,加爾頓發(fā)現(xiàn),“雖然有一個趨勢,父母高,兒女也高;父母矮,兒女也矮,但給定父母的身高,兒女輩的平均身高卻趨向或者回歸到全體人口的平均身高”。加爾頓的回歸定律還被他的朋友K.皮爾遜(Kard Pearson)證實,皮爾遜曾收集過一些家庭群體的1000多名成員的身高記錄。他發(fā)現(xiàn),“對于一個高的群體,兒輩的平均身高低于他們父輩的身高,而對于一個父親矮的群體,兒輩的平均身高則高于其父輩的身高。這樣就把高的和矮的兒輩一同 ‘回歸’到所有男子的平均身高”。
一 “回歸”一詞的含義
回歸,是指研究一個隨機變量Y對另一個(X)或一組(X1, X2, …,Xk)變量的相依關(guān)系的統(tǒng)計分析方法。研究一個或多個隨機變量 Y1,Y2, …, Yi與另一些變量X1, X2, …, Xk之間的關(guān)系的統(tǒng)計方法。又稱多重回歸分析。通常稱Y1, Y2, …, Yi為因變量,X1、X2, …, Xk為自變量。回歸分析是一類數(shù)學模型,特別當因變量和自變量為線性關(guān)系時,它是一種特殊的線性模型。最簡單的情形是一個自變量和一個因變量,且它們大體上有線性關(guān)系,這叫作一元線性回歸,即模型為Y=a+bX+ε,這里X是自變量,Y是因變量,ε是隨機誤差,通常假定隨機誤差的均值為0,方差為σ2(σ2 >0), σ2 與X的值無關(guān)。若進一步假定隨機誤差遵從正態(tài)分布,就叫作正態(tài)線性模型。一般的情形,若有k個自變量和一個因變量,因變量的值可以分解為兩部分:一部分是由自變量的影響,即表示為自變量的函數(shù),其中函數(shù)形式已知,但含一些未知參數(shù);另一部分是由于其他未被考慮的因素和隨機性的影響,即隨機誤差。當函數(shù)形式為未知參數(shù)的線性函數(shù)時,稱線性回歸分析模型;當函數(shù)形式為未知參數(shù)的非線性函數(shù)時,稱為非線性回歸分析模型。當自變量的個數(shù)大于1時稱為多元回歸,當因變量個數(shù)大于1時稱為多重回歸。
二 回歸分析的主要內(nèi)容
(1)從一組數(shù)據(jù)出發(fā)確定某些變量之間的定量關(guān)系式,即建立數(shù)學模型并估計其中的未知參數(shù)。估計參數(shù)的常用方法是最小二乘法。
(2)對這些關(guān)系式的可信程度進行檢驗。
(3)在許多自變量共同影響著一個因變量的關(guān)系中,判斷哪個(或哪些)自變量的影響是顯著的,哪些自變量的影響是不顯著的,將影響顯著的自變量選入模型中,而剔除影響不顯著的變量,通常用逐步回歸、向前回歸和向后回歸等方法。
(4)利用所求的關(guān)系式對某一生產(chǎn)過程進行預(yù)測或控制。回歸分析的應(yīng)用是非常廣泛的,統(tǒng)計軟件包使各種回歸方法計算十分方便。
回歸主要的種類有:線性回歸,曲線回歸,二元logistic回歸,多元logistic回歸。
三 經(jīng)濟學中的例子
(1)經(jīng)濟學家想研究個人消費支出對稅后或可支配實際收入的依賴關(guān)系。這種分析有助于估計邊際消費傾向(MPC),就是實際收入變化引起消費支出的平均變化。
(2)壟斷廠商想知道產(chǎn)品需求對價格變化的實際反應(yīng)。通過定價模型,能估計出產(chǎn)品需求的價格彈性,從而確定實現(xiàn)利潤最大化的價格。
(3)勞動經(jīng)濟學家想研究貨幣工資變化率對失業(yè)率的關(guān)系。借助把貨幣工資變化同失業(yè)率聯(lián)系起來的菲利普斯曲線,根據(jù)菲利普斯模型能預(yù)測給定某個失業(yè)率,貨幣工資的平均變化。
(4)貨幣經(jīng)濟學家得知,其他條件不變,通脹率越高,人們越愿意保存貨幣。對這兩個量回歸,給定各種通脹率可以預(yù)測人們保存貨幣的比率。
(5)公司的銷售部想知道消費者對產(chǎn)品需求與廣告支出的關(guān)系。回歸分析有助于算出廣告支出的需求彈性,即廣告費每變化百分之一,需求的變化率,這將會對公司制定廣告費預(yù)算提供有意義的參考。
(6)農(nóng)業(yè)經(jīng)濟學家想研究農(nóng)作物收成對氣溫、降雨量、陽光量和施肥量的依賴關(guān)系。回歸分析能根據(jù)給定的解釋變量的值預(yù)測農(nóng)作物的平均收成。
回歸分析就是研究變量之間的依賴關(guān)系。
四 回歸與依賴關(guān)系
在現(xiàn)實世界中,我們常與各種變量打交道,在解決實際問題過程中,我們常常會遇到多個變量同處于一個過程之中,它們之間互相聯(lián)系、互相制約。常見的關(guān)系有兩種:一種為“確定的關(guān)系”即變量間有確定性關(guān)系,其關(guān)系可用函數(shù)表達式表示。例如:對路程S、時間t與速度v之間有關(guān)系式:S=vt;圓的面積S與半徑r之間有關(guān)系式S=πr2。
另外還有一種一些變量之間也有一定的關(guān)系,然而這種關(guān)系并不完全確定,不能用函數(shù)的形式來表達,這種關(guān)系往往表現(xiàn)為統(tǒng)計依賴關(guān)系。例如:人的身高與體重有一定的關(guān)系,一般來講身高高的人體重相對大一些,但是它們之間不能用一個確定的函數(shù)關(guān)系表示出來。又如農(nóng)作物產(chǎn)量Y與施肥量X之間的關(guān)系。一般來說,農(nóng)作物的產(chǎn)量Y隨著施肥量X的變化而變化。隨著 X 的增加,Y也增加。但給定一個X的值,與之相關(guān)的Y的值不確定。因為,除了施肥量,還有其他因素如陽光、氣溫、降雨等都在影響農(nóng)作物的產(chǎn)量。這時,我們無法建立農(nóng)作物產(chǎn)量Y與施肥量X之間確定的函數(shù)關(guān)系。這個性質(zhì)的意義在于:這些解釋變量固然都重要,但不能使農(nóng)業(yè)經(jīng)濟學家準確地預(yù)測農(nóng)作物的收成。一是測量誤差的存在,二是還有一些影響收成的因素,我們很難一一找出。因此,無論我們考慮了多少變量,卻無法完全解釋農(nóng)作物收成這個應(yīng)變量,它的值不是確定性的而具有隨機性。這樣,農(nóng)作物的產(chǎn)量Y與施肥量 X 之間的關(guān)系就只有統(tǒng)計依賴關(guān)系,變量Y是一個隨機變量。
在本書中,我們不去研究確定性現(xiàn)象。在回歸分析中,我們主要處理的是隨機變量,也就是有著概率分布的變量。
五 回歸與因果關(guān)系
雖然回歸分析是研究一個變量對另一個(些)變量的依賴關(guān)系,但回歸分析后顯示具有依賴關(guān)系并不意味著具有因果關(guān)系。例如,根據(jù)經(jīng)濟理論,收入與消費之間存在一定的因果關(guān)系,對它們進一步作回歸分析,說明收入差異對消費的影響究竟是多大,通過回歸分析研究收入對消費的依賴程度。如果兩個變量沒有因果關(guān)系,例如,上海的消費與天津的疾病率,實際上并無直接聯(lián)系,如果我們用兩個變量的數(shù)據(jù),使用回歸分析后結(jié)果顯示有線性關(guān)系,統(tǒng)計上顯示具有依賴關(guān)系,并不能說明它們具有因果關(guān)系。
一個統(tǒng)計關(guān)系式,不管多強也不管多么有啟發(fā)性,卻永遠不能確立因果方面的聯(lián)系:對因果關(guān)系的理念,必須來自統(tǒng)計學以外,最終來自這種或那種理論。
在我們引用的農(nóng)作物收成與降雨量的例子中,我們把農(nóng)作物收成看作依賴于降雨量等的應(yīng)變量,是普通常識提示了我們?nèi)绾未_定它們之間的關(guān)系。因為經(jīng)驗和常識告訴我們,降雨量的多少影響農(nóng)作物的收成,而不是農(nóng)作物的收成改變降雨量的多少。
要點:從邏輯上說,顯示具有統(tǒng)計依賴關(guān)系的變量不意味著它們具有任何因果關(guān)系。要確定變量之間的因果關(guān)系,必須要有先驗的或理論上的支持。計量經(jīng)濟學利用回歸分析研究具有因果關(guān)系的變量之間的依賴程度。
六 回歸與相關(guān)關(guān)系
與回歸分析密切相關(guān)而在概念上不同的,是相關(guān)分析。回歸分析——并不主要對這種度量感興趣,是試圖根據(jù)其他變量的設(shè)定值來估計或預(yù)測某一變量的平均值。相關(guān)分析——以測度兩個變量之間的線性關(guān)聯(lián)力度為其主要目的。相關(guān)系數(shù)就是用來測度這種(線性)關(guān)聯(lián)強度的。相關(guān)分析研究諸如吸煙與肺癌、統(tǒng)計學考分與數(shù)學考分、中學成績與大學成績之間的相關(guān)(系數(shù));數(shù)學考分與統(tǒng)計學考分的相關(guān)系數(shù)就說明兩門課考分之間的相關(guān)性、關(guān)聯(lián)度,對稱地對待兩個變量,不區(qū)分應(yīng)變量與解釋變量。與之不同的回歸分析,是我們想知道能否從一個學生的數(shù)學考分,去預(yù)測他的統(tǒng)計學的平均考分;我們給定一個年齡變量的值,能否預(yù)測平均身高。
基本分歧:回歸分析——對應(yīng)變量和解釋變量的處理方法存在著不對稱性。應(yīng)變量被當作統(tǒng)計的,隨機的;解釋變量則被看作取固定值。相關(guān)分析——對稱地對待任何(兩個)變量,應(yīng)變量與解釋變量之間不加區(qū)別。
要點:回歸分析是研究具有因果關(guān)系的變量之間的依賴關(guān)系,即一個隨機應(yīng)變量對另一個(些)解釋變量的依賴關(guān)系。其目的在于通過解釋變量的已知或給定值,估計或預(yù)測應(yīng)變量的平均值。回歸分析的內(nèi)容包括:(1)根據(jù)樣本數(shù)據(jù)估計計量經(jīng)濟學模型參數(shù),得到回歸方程;(2)對回歸方程、參數(shù)估計值進行假設(shè)檢驗;(3)利用回歸方程分析變量之間的關(guān)系、評價政策的效果及預(yù)測應(yīng)變量的變化。
第二節(jié) 簡單線性回歸模型
上一節(jié),我們概括地討論了回歸分析的概念,這節(jié)我們將比較正式地探討這個問題。
一 一個例子
購買住房可能是一個人一生中最重要的決策,而影響決策最重要的因素之一是房地產(chǎn)的價格。如果高估了房價,那么可能會帶來很大的損失;如果低估了價格,那么住房很有可能被出價更高的人買走。接下來我們看一個房地產(chǎn)定價模型,房地產(chǎn)的估價就成為是否買房的重要因素,許多房地產(chǎn)估價師運用回歸分析來開展工作。
假如你打算在北京買一套住房,但你覺得房主要價太高,房主認為230萬元的要價是合理的,因為大約一年前隔壁一套稍大點的住房就賣了這個價格。你不能確定兩套住房的面積,并進行比較;而且這是上年的價格,你如何才能決定是否支付230萬元呢?
你決定搜集過去幾周在當?shù)爻鍪鬯凶》康臄?shù)據(jù),并建立一個以房價為被解釋變量、住房面積為解釋變量的回歸模型。這個數(shù)據(jù)是截面數(shù)據(jù),因為所有的觀測值都來自一個時間點。理論模型為:

式中,price代表住房的價格;size代表住房的面積;μ代表影響價格的其他因素。你搜集了最近幾周的房地產(chǎn)交易后,共有43套住房售出,于是,你采用43個樣本的觀測值估計出了回歸方程(模型中參數(shù)的值是如何估計出來的、利用43個樣本的觀測值所得的參數(shù)值是否可靠等問題,在后面的內(nèi)容中將詳細說明):

你怎么運用估計出來的回歸方程幫助你預(yù)測160平方米的房子價格,然后比較預(yù)測值與要價230萬元呢?當我們把160代入方程(2-3)中,得到

對比房主的要價,這套房子的價格還比較合理,你開始認為房價過高,是個總體的想法,對這一套房子來說,價格并不高。
其實,影響房價的因素不僅是面積,還有其他因素,這些就是多變量(元)模型探討的問題,將會在后面的章節(jié)中詳細討論。
二 簡單線性回歸模型

式中,Yi和Xi表示因變量(被解釋變量)和自變量(解釋變量)的第i個觀測值(i=1, …, n);和β0、β1 為待估參數(shù)(回歸系數(shù)); μi為隨機誤差項,是隨機變量,隨機誤差項的相關(guān)性質(zhì)后面的章節(jié)中將詳細討論。
簡單線性回歸模型是指只有一個解釋變量X的模型。在下一章我們將涉及多個解釋變量的問題,即多元線性回歸模型。
誤差項(隨機干擾項)μi產(chǎn)生的原因如下:
(一)省略的其他解釋變量
理論的含糊性,即使研究Y的行為有理論可依,但常常是不完全的;我們知道收入X影響消費支出Y,但還有什么其他因素影響Y的變化就不能確定了。例如,我們在討論房地產(chǎn)定價問題時,只使用了居住面積作為解釋變量,省略了其他諸如臥室和浴室、交通等影響。因為我們主要想研究住房面積對房價的影響,雖然我們認識到還有其他變量的影響,而且其數(shù)據(jù)也是可以搜集到的,但忽略其他變量對房價的影響,考慮到模型的簡潔性,建模時省略這些變量,隨機誤差項中包括了這些潛在變量對房價的影響。
(二)模型形式設(shè)定的偏誤
由于經(jīng)濟現(xiàn)象的復雜性,即使我們有了解釋一種經(jīng)濟現(xiàn)象的理論,并且獲得了數(shù)據(jù),我們卻常常不知道回歸關(guān)系式是什么形式。變量之間的真實關(guān)系往往是未知的,因此,模型的設(shè)定可能和真實情況有偏誤。例如,如果真實模型是Yi=β0 +β1 Xi+β2 X2i+vi,而我們設(shè)定的模型是Yi=β0 +β1 Xi+μi,則X2i的影響將包括在隨機誤差項中。在簡單(一元)線性回歸模型中,人們往往能從散點圖來判斷函數(shù)關(guān)系式,而在多元線性回歸模型中,無法從圖形中建立多維散點圖,要確定正確的模型形式就不是那么容易的。
(三)度量的誤差
X和Y的度量誤差也往往歸入隨機誤差項。例如,假設(shè)Yi為新建筑的價值,我們使用估計函數(shù)Yi=α+βri+vi,式中ri為建筑貸款的利率;但在實際估計中則使用模型Yi=α+βXi+μi,式中Xi為銀行最低貸款利率。用銀行最低貸款利率Xi替代建筑貸款的利率ri的誤差包括在隨機誤差項中。
(四)不可預(yù)測的影響因素
不管計量經(jīng)濟學模型的設(shè)計有多么具體,總會存在一些無法預(yù)測的隨機影響因素。由于人類行為的隨機性,即使我們成功地把有關(guān)的變量都引入模型中,個別Y的變化仍不免有一些隨機性影響它的值,且無法解釋,這些影響被包括在隨機誤差項中。
三 總體回歸模型
上面的介紹中指出,回歸分析是要根據(jù)解釋變量的已知或給定的值,去估計和(或)預(yù)測應(yīng)變量的(總體)均值。
下面看一個例子說明總體回歸模型的含義。
假如一個班級總共60人,我們要研究每月每人消費支出Y與每月可支配收入X的關(guān)系。說得更具體些,知道了某個人的每月收入,要預(yù)測出在這個收入水平的每月消費支出的(總體)平均水平(因為個體的消費水平除了受收入的影響之外還受其他因素如偏好等因素的影響,我們無法預(yù)測出個人的實際消費水平,只能試圖預(yù)測平均消費水平)。為達到這個目的,將60名學生劃分為組內(nèi)收入差不多的10組,分析每一收入組的消費支出情況。表2-1給出了一個假想的數(shù)據(jù)。
表2-1 假想總體中每一個收入水平X對應(yīng)消費Y的條件分布

表2-1的解釋為,對于每月收入800元的5名同學的每月消費支出為550-750元不等。當X=2400元,6名學生的每月消費支出為1370-1890元。換句話說,表2-1中每列給出的是對應(yīng)于一定收入水平X的消費支出Y的分布;也就是說,它給出了以X為確定值為條件的Y的條件分布。
注意,表2-1的數(shù)據(jù)是假想的一個總體,我們獲得了這個總體的信息,容易算出每一個給定X的Y的概率分布 p(Y|X),即Y的條件概率。
當X=800元時,有5名學生,他們的消費支出Y的值分別是:550元、600元、650元、700元和750元。因此,給定X=800,得到這組的每個學生消費支出的概率是1/5,可以記為:P(Y=550 | X=800)=15。同理,P(Y=650|X=1000)= 16,等等。表2-2給出各個收入水平下消費支出的條件概率。
表2-2 假想總體的各個收入水平下消費支出的條件概率與條件期望

資料來源:虛構(gòu)數(shù)據(jù),僅用作圖表示例。
現(xiàn)在對每一個給定收入水平X條件下,我們能算出消費支出Y的均值,稱為條件均值或條件期望(值),記作:E(Y| X=Xi),讀為“在X的值為xi時Y的均值(期望值)”。有時我們簡單記作E(Y| Xi)。計算如下,將表2-1中的Y值乘以相應(yīng)的條件概率,然后求和。例如,收入水平X=800時,消費支出 Y 的條件均值(期望值)是:550 × 15 +600 × 15 +650 × 15 +700 × 15 +750 × 15 =650,即收入水平X=800的學生的組內(nèi)消費水平Y的平均值為650元。同理,可計算出每個收入水平X下的消費支出Y的條件均值(期望值),結(jié)果見表2-2的末行。
接下來,讓我們看看表2-1數(shù)據(jù)的散點圖,見圖2-2。從圖中可看出,散點表明了不同收入水平下消費支出的分布狀況,即對應(yīng)于各個X值,Y的分布狀況。雖然每個學生的消費支出各異,但我們可以清楚地看出:隨著收入水平X的增加,不同收入水平下組內(nèi)消費水平的均值在增加;或者說,隨著收入的增加,雖然同組內(nèi)個體的消費水平有差異,但消費支出平均值在增加。換句話說,Y的條件均值隨X增加而增加。

圖2-2 對不同收入水平的消費支出及條件期望
從圖2-2中可以看出,給定收入水平X下的Y的條件均值E(Y|Xi)落在一條向上傾斜的直線上,這條直線叫作總體回歸線;也就是說,解釋變量X的值確定的條件下,應(yīng)變量Y的條件均值(期望值)的軌跡稱為總體回歸線。回歸直線或回歸曲線是穿過這些條件均值(期望值)的線。從圖2-3中可看出,每一個條件均值E(Y| Xi)都是Xi的一個函數(shù),這條線的函數(shù)表達式為

圖2-3 總體回歸線

其中,f(Xi)表示解釋變量Xi的某個函數(shù)。方程(2-5)稱為總體回歸函數(shù)(PRF),它表示在給定Xi下Y的分布的(總體)均值與Xi有函數(shù)關(guān)系。換句話說,方程(2-5)或總體回歸函數(shù)說明了應(yīng)變量Y的均值是怎樣隨解釋變量X的變化而變化的。
函數(shù)f(Xi)的具體形式如何確定呢?這是個重要的問題,因為在實際研究經(jīng)濟問題時,我們不可能得到全部總體的數(shù)據(jù)作分析,PRF的函數(shù)形式理論和經(jīng)驗可以給我們參考。例如,理論經(jīng)濟學家提出消費支出與收入有線性關(guān)系(凱恩斯絕對收入理論),據(jù)這個假設(shè),我們知道消費支出的條件均值E(Y| Xi)是收入Xi的線性函數(shù),其形式如下:

其中β0 和β1 為待估參數(shù),稱為回歸系數(shù);方程(2-6)稱為線性總體回歸函數(shù)。線性函數(shù)是最簡單的形式,在回歸分析中,我們的興趣在于估計PRF;就是說,根據(jù)Y 和X 的觀測值估計未知參數(shù) β0 和 β1 的值。(這個問題在后面的內(nèi)容中將詳細說明)
從上面的例子中,我們可以看到,隨著收入增加,消費支出的條件均值也在增加。但對某一位學生來說,消費支出與他的收入水平的關(guān)系是如何的呢?從表2-1和圖2-1中,我們都可以清楚地看出,某一位學生的消費支出不一定隨收入的增加而增加。例如,從表2-1中對于每月1000元收入的兩位同學的消費支出可以看到,一位是650元,少于每月收入800元兩位同學的消費支出(700元和750元),也低于收入水平為1000元的條件均值770元。但比較給定收入水平的平均消費支出水平,可以看到,每月收入為1000元的平均消費支出(770元)比每月收入為800元的平均消費支出(650元)高。

圖2-1 變量之間的關(guān)系
那么,個體消費支出與平均消費水平之間的關(guān)系如何呢?我們從圖2-1中看到,當收入水平給定時,各個學生的消費支出聚集在消費支出的條件均值周圍。我們可以把給定消費水平Xi的每個個值Yi與條件均值E(Y| Xi)的關(guān)系表示如下:

個值Yi與均值E(Y| Xi)的離差為

離差μi值是不確定的,或者說,離差是一個隨機變量,是一個可正可負的變量。我們把μi稱為隨機干擾項或隨機誤差項。

圖2-4 隨機誤差
假定E(Y| Xi)與Xi是線性關(guān)系,方程(2-8)就可以寫成

我們可以這樣解釋方程(2-9),即個體消費支出的多少受兩部分的影響:(1)相同收入水平下的平均消費支出E(Y| Xi)的影響(這部分稱為系統(tǒng)性或確定性部分);(2)μi為隨機或非系統(tǒng)性成分。
例如,給定收入水平X=800,在此收入水平下,個體消費支出由兩部分組成:(1)該收入水平下的平均消費支出(條件期望),即β1 +β2(800);(2)其他因素μi(隨機或非確定性部分)。
Y1 =550=β1 +β2(800)+μ2
Y2 =600=β1 +β2(800)+μ2
Y3 =650=β1 +β2(800)+μ3
……
四 樣本回歸模型
現(xiàn)實中,總體的信息無法得到,在實際經(jīng)濟問題的研究中,我們往往抽取一個樣本并對其特征進行度量,進而推導出樣本回歸函數(shù),并在擁有樣本信息的基礎(chǔ)上估計PRF。
假如我們不知道總體的數(shù)據(jù),我們僅有的信息是給出一個X的值隨機抽樣得到一個Y的值(見表2-3)。它和假設(shè)的總體數(shù)據(jù)2-1不同,對應(yīng)于給定的每一個X的值只有一個Y的值,而且都是隨機抽取的。
表2-3 總體的一個隨機樣本


圖2-5 總體回歸線與樣本回歸線的關(guān)系
問題是:我們能否從樣本預(yù)測整個總體中給定每個X條件下Y的平均消費支出水平?換句話說,可否根據(jù)樣本信息估計總體回歸函數(shù)PRF?我們設(shè)想從總體中再隨機抽取一組樣本(如表2-4)。
表2-4 總體的另一個樣本

將表2-3和表2-4的數(shù)據(jù)繪制成散點圖。畫兩根樣本回歸線:SRF1和SRF2。哪一條與真實的總體回歸線更接近呢?如果我們無法得到PRF的圖形,我們就無從比較圖2-6中的哪一條線接近總體回歸線。這兩條回歸線稱樣本回歸線SRF。有N個樣本,就會得到N條樣本回歸線,這N條樣本回歸線一般情況下位置各異。

圖2-6 一個樣本的回歸線
由樣本數(shù)據(jù)得到的回歸線的函數(shù)表達式為:

稱為樣本回歸函數(shù),記作SRF(sample regression function)。其中Y^ 讀作“Y-帽”。

圖2-7 兩個樣本的回歸線
——條件均值E(Y| Xi)的(樣本)估計值;
——總體回歸系數(shù)β1 的(樣本)估計值;
——總體回歸系數(shù)β2 的(樣本)估計值。
所抽取樣本的個值可表示為:

我們稱方程(2-11)為樣本回歸函數(shù)的隨機形式,其中ei表示(樣本)殘差,表明樣本點與回歸線上的點的偏離,可把它看作總體回歸函數(shù)隨機誤差項μi的估計值。
總的來說,由于我們無法真正得到研究變量的總體信息,更多的時候我們對變量變化的分析僅僅依據(jù)隨機抽取的一個樣本,而不是多個樣本。所以,回歸分析的主要目的就是根據(jù)SRF來估計PRF。然而,我們根據(jù)SRF僅僅能得到PRF的近似值,由于抽樣的波動,可能高估也可能低估。
這樣我們將面臨一個非常重要的問題就是:既然我們認識到SRF僅僅是PRF的一個近似估計,能不能設(shè)計一種方法,使得用這種方法得到的SRF能盡可能地接近PRF呢?具體地說,即:是否可以構(gòu)造一種方法,給定一個樣本數(shù)據(jù),能使計算得到的盡可能地“接近”總體回歸參數(shù)β1;
盡可能地“接近”β2,盡管總體回歸參數(shù)β1 和β2 的真實值永遠無法得到。
第三節(jié) 簡單回歸模型的參數(shù)估計
在回歸分析中有許多計算SRF參數(shù)值的方法,而最廣泛使用的一種是普通最小二乘法(method of ordinary least squares),簡記為OLS。這節(jié)首先給出普通最小二乘法的原理和推導過程。在實際應(yīng)用中,這一原理已被編寫成程序,通常通過計算機軟件(EViews)來完成具體計算,所以這節(jié)的重點是理解普通最小二乘的原理,以及如何在計算機上完成參數(shù)估計。
一 普通最小二乘法估計參數(shù)的原理
參數(shù)是如何估計出來的呢?下面給大家介紹經(jīng)典估計方法——普通最小二乘法(OLS)。普通最小二乘法歸功于德國數(shù)學家高斯。為了說明這個方法,我們先解釋最小二乘原理。
我們來看一個簡單線性回歸模型PRF
Yi=β1+β2Xi+μi
在前面我們不止一次地提到:總體回歸函數(shù)不是直接可以得到的,實際研究中我們通過抽樣估計出SRF近似替代PRF。

其中,和
是通過抽樣所得數(shù)據(jù)計算出來的樣本回歸的系數(shù),是總體回歸系數(shù)β1 和β2 的估計值;
既是個值Yi的估計值也是條件均值E(Y| Xi)的估計值,雙重身份;稱ei為殘差項,它表明個值Yi與估計值
的偏差,是隨機誤差項
的估計量。
問題進一步轉(zhuǎn)化為:對于隨機抽取的樣本,給定 X 和 Y 的觀測值,如何計算得到SRF使得它盡可能地靠近真實的Y值?
為了說明這個問題,我們先看下面的一個假想的實驗。
對于給定的Y和X的觀測值(如表2-5),利用表中第一列和第二列的數(shù)據(jù),假設(shè)有兩位同學分別采取了兩種不同的方法估計SRF的系數(shù)。
表2-5 SRF如何決定的實驗

注:數(shù)據(jù)為假想數(shù)據(jù)。
第一位同學通過計算后得到(暫時不考慮這兩個數(shù)值是怎樣算出來的),得到SRF1的方程為:
將表中第二列X的數(shù)值代入該方程中計算出
的估計值,記作
對應(yīng)于表中的第三列。
第二位同學通過另一種方法計算得到得到SRF2的方程為:
將表中第二列X的數(shù)值代入SRF2中計算出Yi 的估計值,記作
對應(yīng)于表中的第六列。
由于兩位同學計算的參數(shù)值不同,所得到的回歸方程不同,估計值與真值之間的殘差也不同,分別計算殘差e1i和e2i,對應(yīng)于表中的第四列和第七列;殘差的平方對應(yīng)于表中的第五列與第八列。兩位同學所得到的回歸函數(shù)圖形如圖2-8所示。

圖2-8 兩個樣本回歸線的比較
那么我們應(yīng)該選擇哪位同學計算所得的參數(shù)值呢?對于給定的 Y和X的觀測值,我們希望這樣決定SRF,使得它盡可能地接近實際的Y。
為回答這個問題,我們可以采用如下準則:
1.殘差和最小,即盡可能小。這乍看有說服力,但不是一個很好的準則。我們可以從圖2-9中一個人為的散點圖看出。

圖2-9 樣本回歸線與殘差
如果采納殘差和∑ei最小的準則,很可能點離開SRF很遠,ei的分布很遠,但其代數(shù)和卻很小(甚至為零)。假如圖2-9中e1、e2、e3 和e4分別取值10、-2、+2和-10;比較發(fā)現(xiàn),e1 +e4 =0, e2 +e3 =0;顯然,e1 和e4 分布離SRF遠得多。如果我們將殘差平方后或者取絕對值后取和,就可以避免這種問題。
2.殘差平方和最小(最小二乘準則),即

盡可能地小。該方法通過對殘差的平方,避免了前面所說的問題。在第一種方法下,雖然樣本點在SRF周圍散布得很遠,但殘差和可能很小(甚至為零)。而在最小二乘準則下,這是不可能的,因為樣本點離SRF越遠,其平方和也越大。
當給定Y和X的觀測值:
就是說,殘差平方和是參數(shù)估計量的函數(shù),不同的和
的值將得到不同的SRF,從而得到不同的殘差值,進而有不同的殘差平方和的值。

我們現(xiàn)在回到前面的問題,該選擇哪位同學計算的SRF呢?或者說哪位同學的回歸結(jié)果更好呢?比較兩位同學估計結(jié)果的殘差平方和,列(5)為12.214,列(8)為14, 12.214小于14,因此第一位同學的參數(shù)值“最優(yōu)”。
要點:由最小二乘原理或方法選出來的和
將使得對于給定的樣本或一組數(shù)據(jù),殘差平方和
盡可能小。換言之,對于給定的樣本,最小二乘法為我們提供估計參數(shù)值
的思路。即
和
取什么值時,使得二元函數(shù)
值最小。
二 普通最小二乘參數(shù)估計量的推導
關(guān)于函數(shù)的極值或者最值的討論,微積分提供了很好的方法。下面我們通過微分法,計算能使殘差平方和最小的和
根據(jù)微積分極值的討論中一階偏導定理,函數(shù)(2-7)中Q對
的一階偏導為0時,Q達到最小,即:

當函數(shù)分別對
求一階偏導,并令其為零,可推得下列方程組(推導過程省略):

解這個關(guān)于,
的二元方程組,得:

若我們定義和
,用小寫字母表示樣本值對均值的離差。參數(shù)估計量(2-15)可以寫成:

這樣,如果我們要用計算器解一個涉及一小組數(shù)據(jù)的回歸問題的話,就可以減輕計算上的負擔。
三 應(yīng)用普通最小二乘法估計參數(shù)的例子
在家庭可支配收入與消費的例子中,對于給定的一個樣本,參數(shù)的估計可通過表2-6得到:
表2-6 收入與消費的一個樣本

注:數(shù)據(jù)為假想的數(shù)據(jù)。

由該樣本估計的回歸方程為:

上面得到的估計量是從最小二乘原理演算得到的,所以叫作最小二乘(OLS)估計量。稍后,我們將考慮OLS估計量的統(tǒng)計性質(zhì)。
四 普通最小二乘法估計的經(jīng)典假定
為了使普通最小二乘估計量成為最優(yōu)估計量,必須滿足所有的經(jīng)典假定。后面部分章節(jié)將討論違背這些假定的情況,同時介紹更適用的估計參數(shù)方法。
如果我們的目的是估計,那么上節(jié)所討論的OLS法就解決了如何估計樣本回歸函數(shù)參數(shù)值的問題。但我們在回歸分析中最終目的是對總體回歸函數(shù)真實的β1、β2 的推斷。我們隨機抽取一個樣本數(shù)據(jù),可以用OLS算出參數(shù)β1、β2 的估計值,但我們更想知道參數(shù)估計值
、
離它們的總體真值有多近?
離總體條件期望值E(Y| Xi)有多近?能否用SRF替代PRF,進而說明Y的條件均值E(Y| Xi)隨著解釋變量X的變化規(guī)律?
為了解決以上的問題,我們首先回顧一下PRF: Yi=β1 +β2 Xi+μi,它表示被解釋變量Yi的變化依賴于Xi和μi。因此,只有當我們明確Xi和μi后,才能對Yi的值作出統(tǒng)計推斷。也就是說,為了有效解釋回歸結(jié)果,對Xi和μi需要作一些限定。
經(jīng)典的(又稱高斯或者標準)線性回歸模型(CLRM)。這已成為大部分計量經(jīng)濟學的奠基石,它有10個假定。我們先討論簡單線性(一元)回歸模型來說明這些假定,在后面的章節(jié)中我們會將這些假定推廣到多變量(多元)線性回歸模型。
假定1:參數(shù)的線性性。回歸模型中參數(shù)是線性的,變量Y和X的關(guān)系可以是非線性的。
假定2:隨機抽樣時,X的值是確定的。在抽樣時,解釋變量X的值被認為是給定的觀測值,是固定的,或者說是非隨機的。
例如,我們在研究居民消費問題時,先固定收入X的值,再抽取X值分別為800、1100等條件下Y的數(shù)據(jù)。
假定3:隨機誤差項 μi的均值為零。對給定的 X 值,隨機誤差項(干擾項)的均值或期望值為零,或者說μi的條件均值為零,記為:
E(μi| Xi)=0
其幾何意義見圖2-10。圖中描繪了給定每一個X的值,對應(yīng)一個Y的總體值。如圖,給定X的每一個總體Y都是圍繞其條件均值(圓圈)而分布;一些Y位于均值之上,另一些位于均值之下。Y與其條件均值的偏離距離就是μi。假定3要求,對應(yīng)于給定的X, μi的均值等于零。

圖2-10 均值為零
這個假定是說,凡是模型不顯含的因素,歸于μi,對Y的均值沒有系統(tǒng)的影響,正的干擾與負的干擾互相抵消,以至于這些不顯含的影響對被解釋變量Y的影響為零。
假定4:隨機誤差項μi的方差相等或同方差。給定X值,對所有的觀測值Y, Y與其條件均值E(Y| Xi)偏離距離μi的方差都是相同的。就是說,不同的X值對應(yīng)的Y與其條件均值的分散程度都是相同的。用符號表示為:

其中var表示方差。
為了更好地理解同方差的含義,我們看一個例子。令Y為平均工資,X為受教育水平,圖2-11和2-12都表示隨著受教育水平的增加,平均工資也在增加。但在圖2-11中,平均工資的差異在所有受教育水平上都保持不變,而在圖2-12中,這個方差隨受教育水平的增加而增加;換句話說,接受了更多教育的人比受教育水平較低的人的平均工資差異大。后一種情況更符合實際,因為接受了更多教育的人可能有更多的就業(yè)機會,這就導致了更高教育會產(chǎn)生更大的工資差異;而教育水平低的人工作機會少,而其只能拿到最低工資,這就使得教育水平較低的人工資差異小。

圖2-11 同方差

圖2-12 異方差
圖2-11是說,對于每個μi的條件方差都是等于某個正的常數(shù)σ2。同方差性代表分散度相同或者方差相同。與此相對照的圖2-12, Y的條件方差隨X值的不同而不同,這種分布稱為異方差,或者說分散度不同或方差不相同。
假定5:各個隨機誤差(干擾)項無自相關(guān)。給定任意兩個X的值:Xi和Xi(i≠j), μi與μj之間不相關(guān),或者說相關(guān)為零。用符號表示:

其中,i和j為給定兩個不同的X對應(yīng)的觀測值,cov表示協(xié)方差。
這個假定是說,給定任意兩個X的值抽取兩個Y值,Y對各自條件均值的偏離為μi和μj;我們把影響Yi偏離的非顯性因素歸于μi,影響Yj偏離的非顯性因素歸于μj。設(shè)定μi和μj 不相關(guān),是指這些干擾之間不存在交互影響,即零相關(guān)。在后面的章節(jié)中我們會詳細討論如果干擾項之間存在交互相關(guān)性的后果。
假定6: μi和Yi的協(xié)方差為零,或E(μiXi)=0。用符號表示:

這個假定是說,Y變化受兩部分的影響,解釋變量X和歸于隨機干擾項μi的非顯性因素;干擾項和解釋變量之間不相關(guān)。如X和μ相關(guān),我們就無法估計它們對Y的獨立影響,例如:X和μ正相關(guān),當X增大時μ的值也增大,而當X減小時,μ的值也減小;若X和μ負相關(guān),則表現(xiàn)為,當X增大時,μ減小,X減小時,μ增大。無論哪一種情況發(fā)生,我們都無法分開X和μ對Y的影響,進而無法得到Y與X之間獨立的定量關(guān)系。
假定7:觀測次數(shù)n必須大于待估參數(shù)的個數(shù)。或者說觀測次數(shù)n必須大于解釋變量的個數(shù)。
假定8: X的值要有變異。在一個給定的樣本中,X的值不能是同一個值。例如,消費支出主要受收入的影響,如果收入水平很少變動,我們就無法觀測消費支出變動的規(guī)律,要研究Y和X之間的回歸分析,變量必須是變動的。
假定9:正確地設(shè)定了回歸模型。在經(jīng)濟分析中所用的模型沒有設(shè)定的偏誤。
一項經(jīng)濟學問題研究的開始,要對我們感興趣的經(jīng)濟現(xiàn)象設(shè)定計量經(jīng)濟模型。在模型設(shè)定中一些重要的問題包括(1)模型應(yīng)該包括哪些變量?(2)模型的函數(shù)關(guān)系如何?是不是對參數(shù)和變量是線性關(guān)系?(3)對模型的概率假定?
這些都很重要,如果模型遺漏了重要變量,或選擇了錯誤的函數(shù)形式(如非線性關(guān)系設(shè)定成線性關(guān)系),或?qū)λ淖兞孔鞒隽隋e誤的假定,那么回歸結(jié)果的有效解釋大有問題。
假定10:沒有完全的多重共線性。多元線性回歸模型中各解釋變量之間沒有線性關(guān)系。
關(guān)于多重共線性的問題我們將在后面的章節(jié)中詳細介紹。
五 普通最小二乘估計量的性質(zhì):高斯 馬爾可夫定理
估計量分布的理想性質(zhì)是,它的均值等于總體參數(shù)的真實值。為了檢驗參數(shù)估計量的可靠性和顯著性,有必要討論參數(shù)估計量的統(tǒng)計性質(zhì),即從數(shù)理統(tǒng)計的角度衡量參數(shù)估計量的優(yōu)劣,衡量的標準主要是線性、無偏性和有效性。這些性質(zhì)包含在著名的高斯-馬爾可夫定理中,即估計量是最佳線性無偏(best linear unbiasedness property)。在給定經(jīng)典線性回歸模型的假定條件下,最小二乘估計量具有最優(yōu)(BLUE)的性質(zhì)。
這里只是對衡量最佳線性無偏估計量的標準做一個說明性的解釋。
(一)參數(shù)估計量是線性的
即它是一個隨機變量,與回歸模型中應(yīng)變量Y是線性函數(shù)關(guān)系。
(二)參數(shù)估計值是無偏的
即每次抽樣得到的樣本用OLS法可以計算得到兩個參數(shù)的估計值,若干次抽樣所得到的參數(shù)估計量的均值或期望值等于它的真值。用符號表示:

雖然在一次抽樣計算得到的β^ i 可能不等于真值β^ i,但我們?nèi)绻啻沃貜统闃樱⒚看味加嬎慊貧w參數(shù),這些估計量的平均值就會等于真值,就是無偏性。無偏性的要求:分布的均值等于真值。
對無偏性的進一步解釋:
假設(shè)建立一個關(guān)于某學校去年畢業(yè)生的初始工作和他們在校取得的GPA分數(shù)的函數(shù),即:

首先,重點討論參數(shù)估計量的分布。
假設(shè)選擇了第1組25個同學構(gòu)成樣本,并獲得了他們拿到的工資和成績的數(shù)據(jù)。那么,就可以通過普通最小二乘法估計方程中參數(shù)的估計值;如果我們再選擇第2組學生樣本并作同樣的估計,你能得到相同的參數(shù)估計值嗎?答案是:不大可能。很明顯,參數(shù)估計值取決于所選取的樣本觀測值。可是說,如果不同的樣本包含的學生情況不同,得到的參數(shù)估計值也不同。事實上,經(jīng)過多次的抽樣,參數(shù)估計值會有一個分布。如果選擇了5組樣本,就可能得到:

每個樣本都得到一個真實總體參數(shù)的估計值,假如抽上千個樣本,將
得到上千個估計值,所有樣本估計值的分布有均值和方差。所謂“好”的估計是指抽樣分布的均值應(yīng)該等于總體的真值β,即滿足無偏性。
(三)有效性,它在所有無偏估計量中,方差最小。
我們知道隨機變量的方差主要用于度量其在均值周圍的分散情況。方差較小意味著平均來說該隨機變量的值更接近均值。如果兩個估計量都是無偏估計量,我們可以通過比較它們的方差作為選擇方式,方差較小的估計量由于平均起來更接近真值,所以最優(yōu),這就是有效的概念。
為了更清楚地理解這一點。比較圖2-13中的分布A和分布B,假設(shè)它們都是β的無偏估計量。分布A的方差大于分布B。為了比較,再引入一個有偏的分布C,有偏指分布C的均值位于真值β的左邊或者右邊。

圖2-13 無偏的最小方差
當簡單線性回歸模型滿足最小二乘法的基本假設(shè)條件時,我們利用OLS和給定的樣本觀測值,可以求出兩個回歸系數(shù)的估計量。由于樣本是隨機抽取的,不同的樣本得到不同的估計量,所以、
的值會隨樣本數(shù)值的不同而不同,也就是說是隨機變量,具有它的概率分布。
高斯-馬爾可夫證明了在給定的經(jīng)典線性回歸模型的假定條件下,OLS估計量滿足上述三個性質(zhì),即OLS估計量是BLUE。這就是著名的高斯-馬爾可夫定理,其精髓可敘述如下:
高斯-馬爾科夫定理:在給定經(jīng)典線性回歸模型的假定條件下,最小二乘估計量,在無偏線性估計量一類中,有最小方差,就是說,它們是BLUE。
這一定理的證明過程省略,這里強調(diào)指出,該定理在計量經(jīng)濟學理論和實際上都具有重要的意義,隨著后面的學習,該定理的意義將漸漸顯現(xiàn)。
第四節(jié) 評價回歸方程的質(zhì)量
如果回歸分析的基礎(chǔ)是普通最小二乘法,那么計量經(jīng)濟學的核心是判斷OLS估計值的質(zhì)量。許多計量經(jīng)濟學的初學者傾向于直接接受電腦求得的回歸估計值,而不考慮這些估計值的含義或合理性。計量經(jīng)濟學的主要工作是在接受一個回歸結(jié)果之前,從基本理論到數(shù)據(jù)質(zhì)量的各個方面,仔細地考察和評價所估計的方程。實際上,大多數(shù)優(yōu)秀的計量經(jīng)濟學家在估計方程之前會花大量時間來思考從方程中能得到的結(jié)果。
一旦電腦生成估計值后,就要注意以下一些問題:
(1)方程是否有可靠的理論支持?
(2)回歸估計擬合樣本數(shù)據(jù)的程度如何?
(3)數(shù)據(jù)集是否足夠大而準確?
(4)普通最小二乘法是用于這個方程的最優(yōu)估計方法嗎?
(5)估計參數(shù)是否符合研究者收集數(shù)據(jù)前的預(yù)期?
(6)方程中是否包括了所有重要的變量?
(7)是否采用了理論上邏輯嚴密的函數(shù)形式?
(8)回歸是否通過了統(tǒng)計檢驗和避免了計量經(jīng)濟學的主要問題?
判定系數(shù)R2: “擬合優(yōu)度”的一個度量
現(xiàn)在我們考慮對一組數(shù)據(jù)所估計的回歸線的“擬合優(yōu)度”。也就是說,樣本回歸線對數(shù)據(jù)擬合得有多么好。圍繞著這些回歸線的殘差盡可能地小,如果全部觀測點都落在樣本回歸線上,就得到一個“完美”的擬合。判定系數(shù)R2 是度量樣本回歸線對數(shù)據(jù)擬合程度的統(tǒng)計量。
計算步驟如下:

寫成離差形式:
兩邊平方并對樣本求和,得到:對于所有的樣本點,出現(xiàn)在式(2-22)中的平方和,可以描述成:總離差平方和(TSS),實測的樣本值Y與其均值的總變異:




回歸平方和(ESS),或稱為解釋平方和,估計值Y圍繞其均值的變異,可由回歸方程解釋的Y的變化:

殘差平方和(RSS),殘差或未解釋的圍繞回歸線Y值的變異。

這樣,式(2.5.3)就可以表示成:

式(2-25)說明,Y的觀測值圍繞其均值的總變異(離差)可分解成兩部分:一部分來自樣本回歸線;另一部分來自隨機干擾項(非顯性影響因素)。
觀測值Y的變異可分解成兩個部分。
根據(jù)上述關(guān)系,可以用

檢驗樣本回歸線的擬合優(yōu)度。稱R2為可決系數(shù)(Coefficient of determination)。
觀察(2-26)式,回歸平方和所占的比重越大,相應(yīng)的殘差平方和的比重越小,樣本回歸線的解釋能力越強,對樣本點的擬合越好。如果“完全”擬合,則R2=1,該統(tǒng)計量的值越接近于1,樣本回歸線對樣本點的擬合優(yōu)度越高。
實際計算可決系數(shù)時,在參數(shù)值已經(jīng)估計出后,一個較為簡單的計算公式為:

第五節(jié) 實例
例2-1:美國的咖啡消費:1970-1980年
由微觀經(jīng)濟理論可知,一種商品的需求量,依賴于該商品的價格、其他互補品或替代品的價格或消費者的收入、預(yù)期及偏好。把所有這些變量都選取為解釋變量,假定數(shù)據(jù)可得,就是多變量模型。對此,我們還沒有涉及如何求多變量回歸模型的參數(shù)的內(nèi)容。因此,我們所能做的就是假定其他條件不變,僅觀察需求量和自身價格的關(guān)系。然后,我們根據(jù)所給的數(shù)據(jù)用OLS法計算回歸參數(shù)估計值。這個過程可以用EViews軟件實現(xiàn),回歸結(jié)果如下:

現(xiàn)對估計得到的回歸模型解釋如下:如果咖啡每磅零售價上漲1美元,咖啡的銷售量平均每日減少約半杯。假如咖啡的價格降到零,則平均每人日咖啡消費量約2.67杯。當然,我們常常不能對截距項給出任何有意義的解釋。
例2-2:選舉結(jié)果和競選支出
根據(jù)1988年美國眾議院173次兩黨競爭的選舉結(jié)果和競選支出的數(shù)據(jù)(略)。當然競選結(jié)果并不唯一受競選支出多少的影響,還有其他因素影響著競選結(jié)果(如候選人的素質(zhì)等)。我們?yōu)榱苏f明簡單線性回歸模型,僅選取競選支出為解釋變量,來看看花費更多的錢是否能得到更多的選票。假如每次競選有兩名候選人,Y為A候選人所得票數(shù)的百分比,X為A候選人在競選支出中所占的百分比。我們將173組數(shù)據(jù)帶入EViews中用OLS法回歸結(jié)果如下:

這意味著,如果A候選人的開支在總花費中的比例增加一個百分點,候選人就能夠多得到幾乎1/3個百分點的總票數(shù)。
這兩個例子是按一個樣本數(shù)據(jù)擬合的模型真實性如何?因為該模型為包含所有的有關(guān)變量,我們不能稱之為一個完整的模型。因為教學的需要,選擇了兩個簡單的例子。在后面的章節(jié)中我們會詳細介紹如何檢驗?zāi)P偷目煽啃院驼鎸嵭浴?/p>
例2-3: CEO的薪水和凈資產(chǎn)的回報率
在CEO薪水的回歸中,為了解可決系數(shù),回歸線的函數(shù)形式和觀測次數(shù)如下:

我們利用該方程的R-平方,可以看到薪水的變異有多少由資產(chǎn)回報率解釋。在這209位CEO的例子中,該公司的凈資產(chǎn)回報率僅僅解釋了薪水變化的1.3%。這意味著:還有其他影響薪水變異的因素,且它們的影響率達98.7%,如個人特點等因素。這些因素被包括在隨機誤差項中。
要點:在社會科學中,回歸方程中的R-平方過低是正常的。一個顯著低的R-平方值并不意味著OLS回歸方程沒有用。有的時候,解釋變量是能夠解釋因變量的樣本變異中非常實在的部分。
第六節(jié) 實驗:簡單線性回歸模型參數(shù)估計
一 實驗?zāi)康?/p>
本章實驗在于通過實際案例對EViews軟件的基本操作進行詳細介紹,使學生了解和掌握EViews軟件的常用操作,具體內(nèi)容包括:
(1)EViews工作文件的創(chuàng)建、存儲、調(diào)用;序列對象的基本操作;數(shù)據(jù)文件預(yù)處理的常用操作,如新序列的建立、圖像、表格等。
(2)建立新文件、輸入數(shù)據(jù)、擴展工作區(qū)間、數(shù)據(jù)初步分析和簡單線性回歸分析。
二 實驗內(nèi)容與步驟
我們通過一個簡單的回歸分析例子來顯示一個EViews過程,不對EViews的詳細功能展開討論,目的是使學生先對EViews有個概括了解。
例2-4:某省人均可支配收入與人均年消費支出的數(shù)量關(guān)系分析。
STEP1:雙擊桌面上EViews快捷圖標,打開EViews。

圖2-14 新建工作簿窗口
STEP2:點擊Eviews主畫面頂部按鈕File/New/Workfile(如圖2-15),彈出workfile range對話框(圖2-16)。在workfile frequency中選擇Annual,在start date和end date中分別輸入1991和2012,點擊“OK”,出現(xiàn)圖2-17畫面,Workfile定義完畢。

圖2-15 工作簿范圍窗口

圖2-16 新工作簿窗口

圖2-17 建立新變量窗口
STEP3:點擊Eviews主畫面頂部按鈕Objects/New Objects,彈出New Objects對話框(圖2-18),在Type of object中選擇Group,并給New Objects一個名字g1,然后點擊“OK”,彈出一個表格Group對話框,(圖2-19),在該對話框中即可輸入變量及變量值。

圖2-18 錄入數(shù)據(jù)窗口

圖2-19 數(shù)據(jù)組窗口
STEP4:點擊圖2-19表格中第一列頂部的灰色條,該列全部變藍,輸入變量名Y(人均年消費支出),然后在該列中即可輸入變量Y的各年觀測值;同理可定義第二列為變量X(人均可支配收入),并輸入各年人均可支配收入的數(shù)值。這樣X、Y兩個變量被定義,結(jié)果如圖2-20。

圖2-20 X、Y線性圖
STEP5:點擊圖2-20Group對話框中的View/Graph按鈕,出現(xiàn)一個下拉菜單,出現(xiàn)圖2-21畫面。選擇line,即可看見序列X、Y的線性圖(圖2-21)。

圖2-21 凍結(jié)的線性圖
STEP6:點擊圖2-20窗口中Freeze按鈕,得到圖的copy(圖2-21),點擊圖2-21頂部的name,給其一個名字Graph01,這樣就將圖2-22保存在workfile中。圖2-20與圖2-21不同在于,圖2-22是一個Graph類型的object,該線性圖不隨Y、X數(shù)據(jù)變化而變化,是獨立的,可以對其進行編輯;而圖2-21是Group類型的object,僅僅是Y、X數(shù)據(jù)的一種圖形瀏覽形式,它隨著Y、X數(shù)據(jù)變化而變化。
STEP7:點擊Eviews主畫面上的quick/estima equation,彈出Equation specification框(圖2-22),在Equation specification下的空框中輸入Y C

圖2-22 普通最小二乘估計對話框
X,點擊“OK”,得到Y對X回歸模型估計結(jié)果(圖2-24),該模型說明人均可支配收入X對人均消費支出Y具有較強的解釋能力。

圖2-23 回歸結(jié)果

圖2-24 新建工作簿選擇窗口
例2-5:研究2012年中國各地區(qū)城市居民人均年消費支出和可支配收入之間的關(guān)系,做以人均年消費支出為因變量、以人均可支配收入為自變量的回歸,估計。
Yi=β0 +β1 Xi+μi
表2-7 2012年中國各地區(qū)城市居民人均年消費支出和可支配收入

資料來源:《中國統(tǒng)計年鑒2013》。
實驗步驟:
STEP1:建立工作文件。首先,雙擊EViews圖標,進入EViews主頁。在菜單依次點擊File\ New\ Workfile,出現(xiàn)對話框“Workfile Create”。在“Workfile frequency”中選擇數(shù)據(jù)頻率:Annual(年度), Weekly(周數(shù)據(jù)), Quartrly(季度), Daily-5 day week(每周), Semi Annual(半年)Daily-7 day week(每周)Monthly(月度)Undated or irreqular(未注明日期或不規(guī)則的)。
在本例中是截面數(shù)據(jù),選擇“Undated or irreqular”,如圖2-25所示。并在“Data range”中輸入Observations的數(shù)量,如“31”點擊“ok”出現(xiàn)“Workfile UNTITLED”工作框。其中已有變量:“c”-截距項“resid”-剩余項。

圖2-25 建立新變量窗口
STEP2:在“Objects”菜單中點擊“New Objects”,在“New Objects”對話框中選“Group”,并在“Name for Objects”上定義文件名,如圖2-26所示,點擊“OK”出現(xiàn)數(shù)據(jù)編輯窗口。若要將工作文件存盤,點擊窗口上方“Save”,在“Save As”對話框中給定路徑和文件名,再點擊“ok”,文件即被保存。

圖2-26 回歸結(jié)果
STEP3:輸入數(shù)據(jù)。
在數(shù)據(jù)編輯窗口中,首先按上行鍵“↑”,這時對應(yīng)的“obs”字樣的空格會自動上跳,在對應(yīng)列的第二個“obs”有邊框的空格鍵入變量名,如“Y”,再按下行鍵“↓”,對因變量名下的列出現(xiàn)“NA”字樣,即可依順序輸入響應(yīng)的數(shù)據(jù)。其他變量的數(shù)據(jù)也可用類似方法輸入。
若要對數(shù)據(jù)存盤,點擊“fire/Save As”,出現(xiàn)“Save As”對話框,在“Drives”點所要存的盤,在“Directories”點存入的路徑(文件名),在“Fire Name”對所存文件命名,或點已存的文件名,再點“ok”。若要讀取已存盤數(shù)據(jù),點擊“fire/Open”,在對話框的“Drives”點所存的磁盤名,在“Directories”點文件路徑,在“Fire Name”點文件名,點擊“ok”即可。
STEP4:在EViews主頁界面點擊“Quick”菜單,點擊“Estimate Equation”,出現(xiàn)“Equation specification”對話框,選OLS估計,即選擊“Least Squares”,鍵入“Y C X”,點擊“ok”或按回車,即出現(xiàn)如圖2-26那樣的回歸結(jié)果。也可以在EViews命令框中直接鍵入“LS Y C X”,按回車,即出現(xiàn)回歸結(jié)果。
在本例中,參數(shù)估計的結(jié)果為:

STEP5:若要顯示回歸結(jié)果的圖形,在“Equation”框中,點擊“Resids”,即出現(xiàn)剩余項(Residual)、實際值(Actual)、擬合值(Fitted)的圖形,如圖2-27所示。

圖2-27 擬合值、預(yù)測值與殘差
三 實驗小結(jié)
本章實驗主要介紹一元線性回歸模型的建模思路、方法及在EViews中的實現(xiàn)過程。運用一個實際案例詳細的演示和說明了計量分析的基本操作步驟。通過學習可對EViews軟件的基本操作有一個初步的了解,同時會發(fā)現(xiàn),計量經(jīng)濟模型的復雜性和數(shù)據(jù)運算的煩瑣都可以用EViews軟件迎刃而解。
四 備擇實驗
表2-8是我國1985-2004年的財政收入Y(億元)和國內(nèi)生產(chǎn)總值X(億元)的數(shù)據(jù),試根據(jù)數(shù)據(jù)建立以收入為因變量,國內(nèi)生產(chǎn)總值為自變量的簡單線性回歸模型,并解釋回歸系數(shù)的經(jīng)濟意義。
表2-8 我國1985-2004年財政收入和國內(nèi)生產(chǎn)總值

本章小結(jié)
1.古典假設(shè)表述為:回歸模型是線性的模型設(shè)定無誤且含有誤差項,誤差項總體均值為0;所有解釋變量與誤差項都不相關(guān);誤差項觀測值互不相關(guān);誤差項具有同方差;任何一個解釋變量都不是其他解釋變量的完全線性函數(shù);誤差項服從正態(tài)分布(不要求)。
2.估計量的兩個最重要的性質(zhì)是無偏性和最小方差性。無偏估計量是指被估計參數(shù)的均值(期望)與真實值相等。在給定的一類估計量(如無偏估計量),如估計值分布的方差在所有估計量中最小,則滿足最小方差性。
3.在古典假設(shè)下,最小二乘估計量被證明具有最小方差性、線性和無偏性(或稱BLUE,即最優(yōu)線性無偏估計量),被命名為高斯-馬爾科夫定理。當一個或多個古典假設(shè)不成立時(正態(tài)分布假設(shè)除外),在某些時候,隨后章節(jié)將討論,盡管最小二乘估計量仍然能夠估計出參數(shù)估計量,但最小二乘估計量不再具有最小方差性(有效性)、線性和無偏性。
復習題
一、名詞解釋
1.總體回歸函數(shù)
2.樣本回歸函數(shù)
3.隨機干擾項
4.殘差項
5.回歸系數(shù)
6.最小二乘法
7.總離差平方和
8.回歸平方和
9.殘差平方和
10.擬合優(yōu)度
二、簡答題
1.在計量經(jīng)濟模型中,為什么會存在隨機誤差項?
2.總體回歸模型與樣本回歸模型的區(qū)別與聯(lián)系。
3.試述回歸分析與相關(guān)分析的聯(lián)系和區(qū)別。
4.最小二乘法的基本原理是什么?
5.參數(shù)估計量的無偏性和有效性的含義是什么?
6.簡單線性回歸模型的經(jīng)典假設(shè)主要有哪些?違背這些經(jīng)典假設(shè)的計量經(jīng)濟學模型是否就不能進行估計?
三、計算與分析題
1.已知一模型的最小二乘的回歸結(jié)果如下:

標準差(45.2)(1.53)n=30 R2=0.31
其中,Y:政府債券價格(百美元), X:利率(%)。
回答以下問題:
(1)系數(shù)的符號是否正確,并說明理由;
(2)該模型參數(shù)的經(jīng)濟意義是什么。
2.有關(guān)某類居民的日收入X(元)與日消費Y(元)的10組觀測資料如下:

據(jù)此可計算得:
建立消費(Y)對收入(X)的回歸直線。
- 城鄉(xiāng)寬帶發(fā)展與農(nóng)村信息化建設(shè)研究
- 先進制造業(yè)集群發(fā)展實踐:組織變革與合作創(chuàng)新
- 物業(yè)管理:從入門到精通:物業(yè)管理人員必知的125個熱點問題(第三版)
- 中原經(jīng)濟區(qū)農(nóng)業(yè)產(chǎn)業(yè)結(jié)構(gòu)調(diào)整優(yōu)化路徑研究
- 新編行政事業(yè)單位內(nèi)部控制建設(shè)原理與操作實務(wù)
- 第三代半導體材料發(fā)展態(tài)勢分析
- 中國農(nóng)村調(diào)查(總第4卷/村莊類第3卷/華南區(qū)域第3卷)
- 《跨太平洋伙伴關(guān)系協(xié)定》全譯本導讀(上、下冊)
- 成都統(tǒng)籌城鄉(xiāng)發(fā)展年度報告(2015)
- 中國新疆和俄羅斯東部石油業(yè)發(fā)展的歷史與現(xiàn)狀
- 星級酒店前廳經(jīng)理工作指導手冊
- 農(nóng)業(yè)經(jīng)濟學刊(2019年第1期/總第7期)
- 大交通時代:行業(yè)數(shù)字化轉(zhuǎn)型之道
- 邁向物流強國:中國物流業(yè)系統(tǒng)性變革與高質(zhì)量發(fā)展
- 政府行為與農(nóng)業(yè)發(fā)展:1927~1937年湖北農(nóng)業(yè)政策研究