- 伍德里奇《計量經濟學導論》(第4版)筆記和課后習題詳解
- 圣才電子書
- 7242字
- 2021-05-21 22:21:37
2.2 課后習題詳解
一、習題
1.在簡單線性回歸模型y=β0+β1x+u中,假定E(u)≠0。令α0=E(u),證明:這個模型總可以改寫為另一種形式:斜率與原來相同,但截距和誤差有所不同,并且新的誤差期望值為零。
證明:在方程右邊加上α0=E(u),則
y=α0+β0+β1x+u-α0
令新的誤差項為e=u-α0,因此E(e)=0。
新的截距項為α0+β0,斜率不變為β1。
2.下表包含了8個學生的ACT分數和GPA(平均成績)。平均成績以四分制計算,且保留一位小數。
(I)利用OLS估計GPA和ACT的關系;也就是說,求出如下方程中的截距和斜率估計值
評價這個關系的方向。這里的截距有沒有一個有用的解釋?請說明。如果ACT分數提高5分,預期GPA會提高多少?
(II)計算每次觀測的擬合值和殘差,并驗證殘差和(近似)為零。
(III)當ACT=20時,GPA的預測值為多少?
(IV)對這8個學生來說,GPA的變異中,有多少能由ACT解釋?試說明。
答:(I)變量的均值為:,
。
根據公式2.19可得:
根據公式2.17可知:
因此。此處截距沒有一個很好的解釋,因為對樣本而言,ACT并不接近0。如果ACT分數提高5分,預期GPA會提高0.1022×5=0.511。
(II)每次觀測的擬合值和殘差表如表2-3所示:
表2-3
根據表可知,殘差和為-0.002,忽略固有的舍入誤差,殘差和近似為零。
(III)當ACT=20,則
(IV)殘差平方和為:,而
,則判定系數為:R2=1-SSR/SST=1-0.4377/1.0288≈0.577。
GPA的變異中,有57.7%能由ACT解釋。
3.令kids表示一名婦女生過的孩子數目,educ表示該婦女接受過教育的年數。生育率對受教育年數的簡單回歸模型為kids=β0+β1educ+u,其中,u是無法觀測到的誤差。
(I)u中包含什么樣的因素?它們可能與受教育程度相關嗎?
(II)簡單回歸分析能夠揭示教育對生育率在其他條件不變下的影響嗎?請解釋。
答:(I)收入、年齡和家庭背景(如兄弟姐妹的數量)都可能包含在誤差項中。它們可能是與受教育程度相關的:收入和受教育程度是呈正相關的;年齡與受教育程度是呈負相關的;兄弟姐妹的數量與受教育程度是負相關的。
(II)假定(I)中所列舉的因素固定不變,即以誤差項的形式呈現在回歸方程中,但是誤差項與解釋變量是相關的,因此E(u|educ)≠0,經典假定被推翻,因此簡單回歸分析不能解釋教育對生育率在其他條件不變下的影響。
4.假設你對估計花在SAT備考課程上的小時數(hours)對SAT總分(sat)的影響感興趣。
總體是某一年內所有計劃上大學的中學高年級學生。
(I)假設你有權進行一項控制實驗。請說明為了估計hours對sat的引致效應,你將如何構建實驗。
(II)考慮一個更加實際的情形,即由學生選擇在備考課程上花多少時間,而你只能隨機地從總體中抽出sat和hours的樣本。將總體模型寫作如下形式:
sat=β0+β1hours+u
其中,與通常帶截距的模型一樣,我們可以假設E(u)=0。列舉出至少兩個u中包含的因素。這些因素與hours可能呈正相關還是負相關?
(III)在(II)的方程中,如果備考課程有效,那么β1的符號應該是什么?
(IV)在(II)的方程中,β0該如何解釋?
答:(I)構建實驗時,首先隨機分配準備課程的小時數,以保證準備課程的時間與其他影響SAT的因素是獨立的。然后收集實驗中每個學生SAT的數據,建立樣本{(sati,houri):i=1,…,n},n表示試驗中所包括的學生的數量。根據方程2.7,應該嘗試采用盡可能多的有差異的“小時數”。
(II)誤差項還可能包含以下三個因素:天賦能力、家庭收入以及考試當天的健康狀況。如果學生擁有天賦能力,那么他們不需要為考試花費太多時間,能力與時間是負相關的。家庭收入與學習時間呈正相關關系,因為家庭收入越高,就能負擔去越多的課時費用。排除慢性的健康問題,考試當天的健康狀況與為準備考試花費的時間是無關的。
(III)如果備考課程有效,β1的符號應該為正,在其他因素相同的情況下,備考時間越多,sat越高。
(IV)截距有一個有用的解釋:因為E(u)=0,β0表示備考時間為0時學生獲得的平均sat總分。
5.考慮儲蓄函數
其中,e是一個隨機變量,且有E(e)=0和,假設e獨立于inc。
(I)證明:若,則滿足零條件均值的關鍵假設(假定SLR.4)。[提示:若e獨立于inc,則
]
(II)證明:若,則不滿足同方差假定SLR.5。特別地,sav的方差隨著inc而增加。[提示:若e和inc獨立,則
。]
(III)討論支持儲蓄方差隨著家庭收入遞增的證據。
證明:(I)計算inc的條件期望值時,變為一個常數,因此
(II)inc的方差為:
(III)低收入家庭支出的靈活性較低,因為低收入家庭必須首先支付衣食住行等必需品。而高收入家庭具有較高的靈活性,部分選擇更多的消費,而另一部分家庭選擇更多的儲蓄。這種較高的靈活性暗示高收入家庭中儲蓄的變動幅度更大。
6.令和
分別為OLS截距和斜率估計量,并令
為誤差(不是殘差)的樣本均值。
(I)證明:可寫成
,其中wi=di/SSTi和
。
(II)利用(I)及,證明:
和
無關。[提示:要求你證明
]。
(III)證明可寫成
。
(IV)利用(II)和(III)證明:
(V)(IV)中的表達式能簡化成方程(2.58)嗎?[提示:。]
證明:(I)該理論推導與公式2.52的推導本質上是一樣的,區別只是將wi=di/SSTi代到求和的里面。
(II)因為,公式右邊等于0。從(I)可知,
因為誤差項兩兩互不相關,則E(uiuk)=0,i≠h,。因此
(III)最小二乘估計的截距公式為:,代入
,則
(IV)因為和
是不相關的,則有:
(V)能。
根據,則
7.利用Kiel and McClain(1995)有關1988年馬薩諸塞州安德沃市的房屋出售數據,如下方程給出了房屋價格(price)和距離一個新修垃圾焚化爐的距離(dist)之間的關系:
(I)解釋log(dist)的系數。它的符號是你所預期的嗎?
(II)你認為簡單回歸給出了price對dist在其他條件不變下彈性的無偏估計量嗎?(考慮一個城市決定放置焚化爐的地點的決策。)
(III)還有哪些其他因素影響房屋的售價?這些因素會與距離焚化爐的遠近相關嗎?
答:(I)符號為正,與預期相符。log(dist)的系數表示距離焚化爐的距離越遠,價格就越高,價格的距離彈性是0.312,即距離遠1%,價格上升31.2%。
(II)如果城市決定將焚化爐放置在遠離較貴的居民區的地方,則log(dist)與房價是正相關的。這將違背假定4,而OLS估計是有偏的。
(III)房屋的面積、洗手間的數量、占地面積大小、房齡社區質量(包括學校質量)都會影響房屋的售價。這些與距離焚化爐的遠近是有關的。
8.(I)令和
為yi對xi進行回歸的截距和斜率(有n次觀測);c1和c2為常數且c2≠0;
和
為c1yi對c2xi進行回歸的截距和斜率。證明
且
,從而驗證了2.4節中關于度量單位的命題。[提示:為得到
,把改變了度量單位的x和y代入方程(2.19)。然后用方程(2.17)求
,確定代入的是進行度量單位變換后的x和y以及正確的斜率。
(II)現在令和
得自(c1+yi)對(c2+xi)的回歸(對c1和c2不加任何限制)。
證明:且
。
(III)令和
為log(yi)對xi回歸的OLS估計值,其中我們必須假定對所有i,都有yi>0。對c1>0,令
和
為log(c1yi)對xi回歸的截距和斜率。證明:
且
。
(IV)現在假定對所有i,都有x>0。令和
為yi對log(c2xi)回歸的截距和斜率。
和
與yi對log(xi)回歸的截距和斜率相比如何?
答:(I)因為,
,當為c1yi對c2xi進行回歸時,可以通過方程2.19得到方程的斜率:
根據公式2.17可得截距項為:
(II)使用與(I)相同的方法,可得
因此
在(c1+yi)對(c2+xi)的回歸中,c1和c2被完全排除在斜率公式以外,以及。截距為:
(III)因為log(c1yi)=log(c1)+log(yi),令c1代替log(c1),yi代替log(yi),且c2=0,然后采用與(II)相同的方法。
(IV)采用與(II)相同的方法,設c1=0,c2替代log(c2),xi替代log(xi),如果和
是原截距和斜率,那么此時的截距和斜率為:
和
。
9.在線性消費函數中,收入的(估計)邊際消費傾向(MPC)無非就是斜率
,而平均消費傾向(APC)為
。利用對100個家庭的年收入和消費觀測(均以美元計),便得到如下方程:
(I)解釋這個方程中的截距,并評價它的符號和大小。
(II)當家庭收入為30000美元時,預計消費為多少?
(III)以inc為橫軸,畫出估計的MPC和APC圖。
答:(I)截距表示當inc=0,cons預計將為-124.84美元。但這與事實不符,反映出消費函數在預測方面(尤其是收入處于較低的水平上時)是薄弱的。從年同比角度而言,124.84美元與0美元的差距并沒有那么大。
(II)將30000美元代入方程:預計消費=-124.84+0.853×30000=25465(美元)。
(III)MPC和APC如圖2-1所示。即使截距是負的,樣本中最小的APC是正的。圖中從年均收入水平1000美元開始。
圖2-1
10.在高斯-馬爾可夫假定SLR.1~SLR.5之下,考慮標準的簡單回歸模型y=β0+β1x+u。通常的OLS估計量和
都是各自總體參數的無偏估計量。令β1表示通過假定截距為零而得到β1的估計量(見2.6節)。
(I)用x1、β0和β1表示E(β1)。證明:當總體截距(β0)為零時,是β1的無偏估計量。有沒有其他的情況使得
也是無偏的?
(II)求的方差。(提示:方差不依賴于β0。)
(III)證明。[提示:對任何數據樣本,
,除非
,否則該式嚴格不等。]
(IV)當我們要從和
中做出選擇時,評論偏誤和方差的替代關系。
答:(I)從方程2.66可知:
將yi=β0+β1xi+ui代入可得:
分子化簡后可寫為:
因此
對于所有的i而言,E(ui)=0,則:
上式中右邊的第一項表示的偏差。當β0=0、
或
時,
是無偏的。
(II)根據(I)中所表示的,可得方差為:
(III)根據公式2.57,
對任何數據樣本,
除非。因此
。
(IV)對于給定的樣本而言,當增加,的有偏程度增加。但是當增加時,的變化與是相關的。當β0較小時,的偏差也很小。因此β0、以及樣本大小n(的規模)決定了在均方誤差上和的優劣。
11.數據集BWGHT.RAW包含了美國婦女生育方面的數據。我們關心的兩個變量是因變量[嬰兒出生體重的盎司數(bwght)]和解釋變量[母親在懷孕期間平均每天抽煙的根數(cigs)]。下面這個簡單回歸是用n=1388個出生數據進行估計的:
(I)當cigs=0時,預計嬰兒的出生體重為多少?當cigs=20(每天一包)時呢?評價其差別。
(II)這個簡單回歸能夠得到嬰兒出生體重和母親抽煙習慣之間的因果關系嗎?請解釋。
(III)要預測出生體重125盎司,cigs應該為多少?
(IV)樣本中在懷孕期間不抽煙的婦女比例約為0.85。這有助于解釋第(III)部分中的結論嗎?
答:(I)當cigs=0時,預計嬰兒的出生體重為119.77盎司;當cigs=20時,預計嬰兒的出生體重為109.49盎司,比前者下降8.6%。
(II)不能。因為還有其他因素影響嬰兒的出生體重,如母親的整體健康狀況和產前護理的質量。這些因素可能與懷孕期間吸煙量是相關的。另外,咖啡因的攝入也會影響到嬰兒的出生體重,這也與吸煙量相關。
(III)要預測出生體重為125盎司,那么cigs=(125-119.77)/(-0.524)≈-10.18。這是無意義的,它表明在一個解釋變量的情況下預測出生體重會發生的后果。盡管有約700名嬰兒的出生體重大于119.77盎司,但最大的預測出生體重不能超過119.77盎司。
(IV)因為模型僅僅使用吸煙量來解釋出生體重,因此僅有一個結果:即cigs=0時的出生體重。cigs=0時的預測結果必然大致位于樣本數據的中間位置,因此可以預測高出生率。
二、計算機習題
1.401K.RAW中的數據是帕普克(Papke,1995)所分析數據的一個子集,帕普克是為了研究401(k)養老金計劃的參與率和該計劃的慷慨程度之間的關系。變量prate是有資格參與該計劃的員工中擁有活動賬戶的百分比,也是我們要解釋的變量??犊潭戎笜耸怯媱澋钠ヅ渎蕀rate。這個變量給出了員工每向這個賬戶存1美元,公司為該員工匹配的平均數量。例如,若mrate=0.50,則員工每投入1美元,公司就匹配50美分。
(I)求出該計劃的樣本中平均參與率和平均匹配率。
(II)現在估計下面這個簡單回歸方程報告你的結果以及樣本容量和R2。
(III)解釋你的方程中的截距。解釋mrate的系數。
(IV)當mrate=3.5時,求出prate的預測值。這是一個合理的預測嗎?解釋這里出現的情況。
(V)prate的變異中,有多少是由mrate解釋的?你認為,這是一個足夠大的量嗎?
答:(I)平均參與率是87.63%,平均匹配率是0.732。
(II)回歸方程為:
(III)截距表示即使mrate=0,預測的參與率是83.05%。mrate的系數表明匹配率每增加1美元,則有資格參與該計劃的員工中擁有活動賬戶的百分比(prate)增加5.86%。該結果假定prate的變動是可能的。如果prate已經達到98%,那么截距就是無意義的。
(IV)mrate=3.5,則
這不是一個合理的預測,因為參與率不超過100%。這表明因變量是有界限的,簡單回歸所預測的自變量的極值是不符合常理的。
(V)prate的變異中,有7.5%是由mrate解釋的,說明還有其他因素影響養老金計劃參與率。
2.數據集CEOSAL2.RAW包含了美國公司首席執行官的信息。變量salary是以千美元計的年薪,ceoten是已擔任公司CEO的年數。
(I)求出樣本中的平均年薪和平均任期。
(II)有多少位CEO尚處于擔任CEO的第一年(就是說,ceoten=0)?最長的CEO任期是多少?
(III)估計簡單回歸模型log(salary)=β0+β1ceoten+u,用通常的形式報告你的結果。多擔任一年CEO,預計年薪增長(近似)的百分數是多少?
答:(I)平均年薪為865.864千美元,平均任期為7.95年。
(II)有5位CEO處于擔任CEO的第一年。最長的CEO任期是37年。
(III)回歸方程是:
多擔任一年CEO,預計年薪增長的近似百分數是0.97%(或1%)。
3.利用Biddle and Hamermesh(1990)中的SLEEP75.RAW數據,研究在每周用于睡眠的時間和用于有酬工作的時間之間是否存在替代關系。我們可以用它們中的任何一個作為因變量。為具體起見,估計模型sleep=β0+β1totwrk+u。
其中,sleep是每周用于晚上睡眠的分鐘數,totwrk是這一周中用于工作的分鐘數。
(I)用方程的形式,連同觀測的次數和R2報告你的結果。該方程中的截距表示什么?
(II)若totwrk增加2小時,則sleep估計要減少多少?你覺得這是一個很大的效應嗎?
答:(I)估計方程為:
截距表示不工作的人每周用于晚上睡眠的時間為3586.4分鐘。這意味著每晚睡眠的時間達到8.5小時。
(II)當?totwrk=120,則?sleep=-0.151×120=-18.12(分鐘)。這并不是一個很大的效應。如果某人工作日的工作時間均增加一小時,睡眠總減少時間約為45分鐘,平攤在每晚只有約6分鐘。
4.利用WAGE2.RAW中的數據估計一個簡單回歸,以便用智商(IQ)來解釋月薪(wage)。
(I)求出樣本中的平均工資和平均IQ。IQ的樣本標準差是多少?(總體中的IQ已標準化為平均值是100,標準差是15。)
(II)估計一個簡單回歸模型,其中IQ提高一個單位導致wage變化相同的數量。利用這個模型計算IQ提高15個單位時,工資的預期變化。IQ能夠解釋大多數工資變異嗎?
(III)現在再估計一個模型,其中IQ提高一個單位對工資具有相同的百分比影響。如果IQ提高15個單位,預期工資提高的百分比大約是多少?
答:(I)平均工資為957.95美元,平均IQ為101.28。IQ的樣本標準差為15.05,與總體標準差非常接近。
(II)簡單回歸模型為:
IQ提高15個單位導致工資變化8.3×15=124.5(美元)。IQ不能夠解釋大多數工資變異,薪水的變異中,僅有9.6%是由IQ解釋的。
(III)回歸模型為:
如果IQ提高15個單位,則
因此預期工資提高的百分比大約是13.2%。
5.在化工產業的企業總體中,令rd表示年研發支出,sales表示年銷售額(都以百萬美元計)。
(I)寫一個模型(不是估計方程),其中rd和sales之間的彈性為常數。哪一個參數代表彈性?
(II)再用RDCHEM.RAW中的數據估計模型。用通常的形式寫出估計方程。rd關于sales的彈性估計值是多少?用文字解釋這個彈性的含義。
答:(I)不變彈性的對數—對數模型為:log(rd)=β0+β1log(sales)+u,參數β1代表彈性。
(II)估計方程為:
rd關于sales的彈性估計值是1.076,說明sales每增長1%,rd將會增長1.08%。
6.例2.12中曾使用了MEAP93.RAW中的數據。現在,我們想用這個文件中的數據來說明數學通過率(math10)與每個學生的平均支出(expend)之間的關系。
(I)就多花一美元對通過率的影響而言,你認為具有恒定不變的影響合適呢,還是這種影響越來越小更合適?請加以解釋。
(II)在總體模型math10=β0+β1log(expend)+u中,證明β1/10表示expend提高10%導致math10改變的百分數。
(III)利用MEAP93.RAW中的數據,估計(II)中的模型。按照通常的方式報告估計方程,包括樣本容量和及R2。
(IV)支出的估計影響有多大?也就是說,如果支出提高10%,估計math10會提高多少個百分點?
(V)有人擔心這個回歸分析可能得到math10的擬合值會超過100。為什么在這個數據集中不必擔心這個問題?
答:(I)多花一美元對通過率的影響而言,這種影響越來越小更合適。在支出較小的學校,多花錢可以用于購買更多的教材、電腦以及雇用高質量的教師,但在一個高支出水平上,即已經具備了大量教材、足夠好的設備和高質量的教師時,再增加支出對通過率的影響幾乎沒有,即使有也會很小。
(II)?math10=β1?log(expend)≈(β1/100)(%?expend),如果%?expend=10,則?math10=β1/10。
(III)估計方程為:
(IV)支出提高10%,估計math10會提高1.1%。支出的估計影響并不大,但這對低支出水平的學校而言是無影響的,因為10%的支出增加從絕對數量上看是很小的。
(V)在這個數據集中,最大的math10為66.7,遠小于100。實際上,最大的擬合值僅為30.2。
7.利用CHARITY.RAW中的數據[得自于Franses and Paap(2001)]回答如下問題:
(I)在這個4268人的樣本中,平均捐款數量是多少(以荷蘭盾為單位)?沒有捐款的人數百分比是多少?
(II)每年平均寄出的郵件數量是多少?其最小值和最大值是多少?
(III)用普通最小二乘法估計如下模型:
gift=β0+β1mailsyear+u
按照通常的方式報告估計方程,包括樣本容量和R2。
(IV)解釋斜率系數。如果每封郵件的成本是1盾,那么慈善機構預期能夠從寄出的每一封郵件中獲得凈利潤嗎?這意味著慈善機構從每封郵件中都獲得了凈利潤嗎?請加以解釋。
(V)樣本中最小慈善捐款的預測值是多少?利用這個簡單的回歸分析,你有可能預測gift等于0嗎?
答:(I)平均捐款數量為7.44荷蘭盾。在4268個被調查者中,2561人沒有捐款,占60%。
(II)每年平均寄出的郵件量為2.05。最小值為0.25,這意味著有人每四年寄出一封郵件,最大值為3.5。
(III)估計方程為:
(IV)斜率系數為2.65,意味著年均郵件量導致了額外2.65荷蘭盾的捐贈。如果每一封郵件的成本是1盾,那么每封郵件的預期凈收益則是1.65盾,然而這只是從平均角度而言的,并不意味著慈善機構從每封郵件中都獲得了凈利潤。部分郵件對捐贈量沒有任何貢獻,或者其貢獻額小于郵寄成本,部分郵件可能產生遠高于郵寄成本的捐贈量。
(V)樣本中最小慈善捐款的預測值是:2.01+2.65×0.25=2.67。即使從總體來看,某些人沒有收到郵件,最小慈善捐款為2。因此不可能預測gift等于0。