官术网_书友最值得收藏!

4.2 課后習題詳解

一、習題

1.考慮一個用企業年銷售額、股本回報率(roe,以百分數表示)和企業股票的回報ros,以百分數表示)來解釋CEO薪水的如下方程:log(salary)=β0+β1log(sales)+β2roe+β3ros+u。

(i)用模型參數來表述如下虛擬假設:在控制了sales和roe后,ros對CEO的薪水沒有影響。再給出對立假設的參數表述:股票市場更好的業績會提高CEO的薪水。

(ii)使用CEOSAL1.RAW中的數據,通過OLS可以得到如下方程:

說明: 10

如果ros提高50個百分點,預計salary會提高多大比例?ros對salary具有實際上很大的影響嗎?

(iii)檢驗ros對salary沒有影響的虛擬假設,對立假設是具有正效應。在10%的顯著性水平上進行檢驗。

(iv)你最后會在一個用企業業績表示CEO報酬的模型中包括ros嗎?給出你的解釋。

答:(i)虛擬假設為:H0:β3=0;對立假設為:H1:β3>0。

(ii)如果ros提高50個百分點,預計salary會提高0.00024×50=0.012=1.2%。ros對salary不具有實際上很大的影響。

(iii)自由度為無窮大,10%的顯著性水平下,單側檢驗的臨界值為1.282。t統計量為:0.00024/0.00054≈0.44,小于臨界值,因此在10%的顯著水平上不能拒絕虛擬假設,即ros對salary沒有影響。

(iv)會。基于樣本而言,估計的ros系數看起來并不等于0的原因是抽樣差異;另一方面,在模型中包含ros不會造成任何傷害,這取決于它與其他的自變量之間的相關關系。

2.下面哪種因素可能導致通常OLS的t統計量無效(即在H0下不服從t分布)?

(i)異方差性;

(ii)模型中兩個自變量之間的樣本相關系數達到0.95;

(iii)遺漏一個重要的解釋變量。

答:(i)和(iii)可能導致通常OLS的t統計量無效。同方差性是CLM假定之一。遺漏一個重要的變量違背了假定MLR.3。

(ii)CLM假定除了排除相關系數等于1的情況外,并沒有涉及自變量之間的相關性。

3.在例4.7中,我們利用非工會制造企業的數據估計了廢品率與其他企業特征之間的關系。我們現在來更深入地分析這個例子,并使用一個更大的企業樣本。

(i)例4.7中待估計的總體模型可寫成log(scrap)=β0+β1hrsemp+β2log(sales)+β3log(employ)+u,利用1987年的43個觀測,所估計的方程是

說明: 18

將這個方程與僅用樣本中29個非工會企業估計出來的結果進行對比。

(ii)證明這個總體模型也可以寫成log(scrap)=β0+β1hrsemp+β2log(sales/employ)+θ3log(employ)+u,其中θ3=β2+β3。[提示:log(x2/x3)=log(x2)-log(x3)。]解釋假設H0:θ3=0。

(iii)當估計第(ii)部分的方程時,我們得到

說明: 19

控制了工人培訓和銷售—雇員比后,是否企業越大,其廢品率在統計上的顯著性越大?

(iv)檢驗假設:sales/employ提高1%將伴隨以廢品率下降1%。

答:(i)當hrsemp的標準誤不變,系數將會增加一半。t統計量從-1.47下降到-2.21,在5%的顯著性水平上,臨界值為-1.684,t統計量小于臨界值,左側檢驗下系數顯著地小于零。

(ii)如果在方程的右邊加上β2log(sales),可得:

log(scrap)=β0+β1hrsemp+[β2log(sales)-β2log(employ)]+[β2log(employ)+β3log(employ)]+u=β0+β1hrsemp+β2log(sales/employ)+θ3log(employ)+u

(iii)企業越大,其廢品率在統計上的顯著性不一定越大。log(employ)系數的t值為0.2,非常小。因此控制了工人培訓和銷售-雇員比后,可以斷定以雇員多少而決定的企業規模與廢品率無關。

(iv)(ii)中的虛擬假設為:H0:β2=-1。t統計量為:(-0.951-1)/0.37≈0.132,該t值非常小,無法拒絕虛擬假設。

4.使用CEOSAL2.RAW中的數據得出下表:

說明: HWOCRTEMP_ROC2230

變量mktval為企業的市場價值,profmarg為利潤占銷售額的百分比,ceoten為其就任當前公司CEO的年數,而comten則是其在這個公司任職的總年數。

(i)評論profmarg對CEO薪水的影響。

(ii)市場價值是否具有顯著影響?試解釋你的結論。

(iii)解釋ceoten和comten的系數。這些變量是統計顯著的嗎?

(iv)你如何解釋在其他條件不變的情況下,你在這個公司任職時間越長,你的薪水則越低?

答:(i)據表中(2)、(3)可知,profmarg的系數為負,t統計量為為-1。因此在企業的市場價值和銷量固定的情況下,邊際利潤對CEO的薪水無影響。

(ii)據表中(3)可知,log(mktval)的t統計量為2.05,在5%的顯著性水平上的臨界值為1.96,因此是統計顯著的。所以市場價值具有顯著影響。

(iii)&(iv)這些變量在低顯著性水平上是個別顯著的。因為tceoten≈3.11,tcomten≈-2.79。其他變量固定的情況下,就任公司CEO的年份增加一年,薪水增長1.71%。在公司任職(非CEO)增加一年,薪水減少0.92%。第二個結論看起來令人驚訝,但它正是反映了“明星”效應:企業從公司外部聘用CEO都傾向于一小群被高度評價的候選人,因此這些人的工資被哄抬起來,而非CEO職員的聘用不大可能像CEO一樣。

5.在4.5節,我們使用了一個檢驗住房價格定價理性的例子。在那里,我們使用了price和as-sess的一個對數一對數模型[參見方程(4.47)]。這里,我們采用一個水平值一水平值的表述。

(i)對于如下簡單回歸模型:

price=β0+β1assess+u

若β1=1和β0=0,則評價是理性的。所估計的方程是

說明: 17

首先,相對雙側對立假設,檢驗假設H0:β0=0。然后,相對雙側對立假設,檢驗H0:β1=1。你的結論是什么?

(ii)為了檢驗聯合假設β0=0和β1=1,我們需要約束模型的SSR。這就要求在n=88的情況下計算

因為約束模型的殘差剛好為pricei-assessi。(由于兩個參數在H0下都被設定,把以不需要約束模型的估計值。)這最終得到SSR=209448.99。對這個聯合假設進行F檢驗。

(iii)現在檢驗模型price=β0+β1assess+β2lotsize+β3sqrft+β4bdrms+u。假設H0:β2=0,β3=0和β4=0。利用同樣88個住房數據估計這個模型的R2是0.829。

(iv)如果price的方差隨著assess,sqrft,lotsize或bdrms而變化,你對第(iii)部分的F檢驗有什么看法?

答:(i)自由度為88-2=86,在5%的顯著性水平下,雙側檢驗的臨界值是1.987。H0:β0=0的t統計量為0.89,因此不能拒絕虛擬假設。H0:β1=1的t統計量為(0.976-1)/0.049≈-0.49,同樣是統計不顯著的,因此無法拒絕虛擬假設。

(ii)因為SSRr=209448.99,SSRur=165644.51,因此F統計量為:

查表可得,1%顯著水平上,自由度分別為2和90的臨界值為4.85,因此拒絕虛擬假設。

(iii)采用R2型的F統計量,無約束模型中的自由度為88-5=83。F統計量為:

在10%的顯著性水平上,臨界值為2.15,因此不能拒絕原假設。此時p值為0.23。

(iv)如果存在異方差性,則違背了MLR.5,在零假設條件下,F統計量服從F分布。因此,將F統計量與臨界值相比較,或從F分布得到p值都是沒有意義的。

6.回歸分析還可以用來檢驗市場是否在評價股票時有效地使用了市場信息。為簡單起見,令return為持有一個企業的股票在從1990年末到1994年末的四年時間內得到的總回報。有效市場假設認為,這些回報不應該與1990年知道的信息存在系統相關性。如果在期初知道的企業特征有助于預測股票回報,那我們在選擇股票時就能用到這個信息。對于1990年,令dkr表示企業的債務—資本比率,eps表示每股收益,netinc表示凈收入,而salary則表示CEO的總報酬。

(i)使用RETURN.RAW中的數據,估計了如下方程:

說明: 22

檢驗這些解釋變量在5%的顯著性水平上是否聯合顯著。存在個別顯著的解釋變量嗎?

(ii)現在使用netinc和salary的對數形式重新估計這個模型

說明: 23

第(i)部分的結論有沒有什么變化?

(iii)在第(ii)部分中,我們為什么不用dks和eps的對數?

(iv)總的看來,股票回報可預測性的證據是強還是弱?

答:(i)已知n=142,k=4,因此F統計量為:

5%的顯著性水平,分子自由度為4,分母自由度為137的臨界值為2.45,大于F統計量,因此不能拒絕虛擬假設,即解釋變量在5%的顯著性水平上聯合不顯著。

變量dkr的t統計量最大,為1.6,小于臨界值1.96,因此在5%的顯著性水平下,不存在個別顯著的解釋變量。

(ii)F統計量為:,小于臨界值,因此解釋變量在5%的顯著性水平上聯合不顯著。同樣不存在在合理的顯著性水平上顯著的統計量。

(iii)log不能定義dkr或eps為零的企業,因此采用log形式,將可能在回歸中丟失部分企業的數據。

(iv)股票回報可預測性的證據是弱的。在5%的顯著性水平上,沒有t統計量是顯著的,同時F統計量也是不顯著的。報酬的變異中,只有3.3%的部分能被解釋變量解釋。

7.考慮例4.3中的估計方程,這個方程可以被用來研究缺課對大學平均成績的影響:

說明: 1

(i)利用標準正態近似,求出βhsGPA在置信水平為95%時的置信區間。

(ii)相對于雙側對立假設,你能在5%的顯著性水平上拒絕假設H0:βhsGPA=0.4嗎?

(iii)相對于雙側對立假設,你能在5%的顯著性水平上拒絕假設H0:βhsGPA=1嗎?

答:(i)βhsGPA在置信水平為95%時的置信區間為:[0.412-1.96×0.094,0.412+1.96×0.094]。

(ii)不能。因為0.4位于置信區間內。

(iii)能。因為1在置信區間以外。

8.在習題3.4中,我們估計了方程

說明: 20

其中的標準誤是我們現在才同估計值一并給出的。

(i)相對于一個雙側對立假設,是educ還是age在5%的水平上是個別顯著的?給出你的計算。

(ii)從方程中去掉educ和age,則得到

說明: 21

在5%的顯著性水平上,educ和age在原方程中是聯合顯著的嗎?說明你所給答案的理由。

(iii)在模型中包括educ和age,是否顯著影響所估計的睡眠和工作之間的替換關系?

(iv)假設睡眠方程含有異方差性。這對第(i)和(ii)部分計算的檢驗意味著什么?

答:(i)自由度為:706-2=704;在雙側檢驗中,5%的顯著性水平上,標準臨界值為1.96,educ的t統計量為:-11.13/5.88≈-1.89,因此無法拒絕虛擬假設βeduc=0。同樣,age的t統計量為1.52,小于臨界值,因此是統計不顯著的。

(ii)采用R2型的F統計量,F統計量為:

在5%的顯著水平上,臨界值為3,小于F統計量,因此educ和age在原方程中是聯合顯著的。實際上,p值為0.019,因此變量在2%的顯著性水平上聯合顯著。

(iii)不影響所估計的睡眠和工作之間的替換關系。因為變量是聯合顯著的,包含educ和age只使得totwrk的系數由-0.151變為-0.148。

(iv)t檢驗和F檢驗成立的假設之一是同方差性。如果方程存在異方差性,那么第(i)和(ii)部分的檢驗將不再有效。

9.租金率是否受到一個大學城里學生人數的影響呢?令rent表示美國一個大學城里單位租借面積的平均月租金,pop表示總城市人口,avginc表示城市平均收入,pctstu表示學生人數占總人口的百分比。一個檢驗某種關系的模型是log(rent)=β0+β1log(pop)+β2log(avginc)+β3pctstu+u。

(i)表述虛擬假設:在其他條件不變的情況下,學生人數相對于總人口的多少對月租金沒有影響。并表述有影響的對立假設。

(ii)你預期β1和β2具有什么樣的符號?

(iii)利用RENTAL.RAW中64個大學城在1990年的數據所估計的方程為

說明: 14

“總人口增加10%將伴隨著租金提高約6.60%”的說法有什么不妥?

(iv)在1%的顯著性水平上檢驗第(i)部分陳述的假設。

答:(i)虛擬假設為:H0:β3=0;對立假設:H1:β3≠0。

(ii)其他條件相同的情況下,總人口增加使租房需求增加,從而租金增加。當平均收入更高時,對整體住房的需求增加,推高了房地產的成本,包含租金率。因此β1和β2都是正的。

(iii)log(pop)的系數表示的是彈性,正確的說法應該是:總人口增加10%,租金將提高0.66%。

(iv)自由度為60,1%的顯著性水平下,雙側檢驗的臨界值為2.66。t統計量是3.29,大于臨界值,因此拒絕虛擬假設,β3統計顯著地不等于0。

10.在經典線性模型假定MLR.1~MLR.6下,考慮含有三個自變量的多元回歸模型:y=β0+β1X1+β2X2+β3X3+u,你想檢驗的虛擬假設是H0:β1-3β2=1。

(i)令表示β1和β2的OLS估計量。用的方差及其協方差求出的標準誤是什么?

(ii)寫出檢驗H0:β1-3β2=1的t統計量。

(iii)定義θ1=β1-3β2,寫出一個涉及β0,θ1,β2和β3的回歸方程,使你能直接得到及其標準誤。

答:(i)

標準誤為:

(ii)t統計量為:

(iii),代入模型中可得:y=β0+(θ1+3β2)X1+β2X2+β3X3+u=β0+θ1X1+(3X1+X2)β2+β3X3+u,此即為涉及β0,θ1,β2和β3的回歸方程,即為X1的系數。

11.變量rdintens是研發支出(R&D)占銷售額的百分比。銷售額以百萬美元度量。變量profmarg是利潤占銷售額的百分比。

利用RDCHEM.RAW中32家化工企業的數據,估計如下方程:

說明: 11

(i)解釋log(sales)的系數。特別地,如果sales增加10%,估計rdintens會變化多少個百分點?這在經濟上是一個很大的影響嗎?

(ii)檢驗假設R&D的強度不隨sales而變化,對立假設是,它隨著銷售額的增加而提高。在5%和10%的顯著性水平上進行這個檢驗。

(iii)解釋profmarg的系數,它在經濟上顯著嗎?

(iv)profmarg對rdintens是否有統計顯著的影響?

答:(i)保持profmarg不變,

說明: 12

因此,如果%?sales=10,說明: 13。估計rdintens會變化3個百分點,相對于sales的變動,并不是一個很大的影響。

(ii)虛擬假設:H0:β1=0,對立假設為:H1:β1>0。β1是log(sales)的系數。t統計量為:0.321/0.216≈1.486。進行單側檢驗,在5%的顯著性水平上,自由度為29,臨界值為1.699,因此在該顯著性水平上不能拒絕虛擬假設。但是在10%的顯著性水平上,臨界值為1.311,小于t統計量,拒絕虛擬假設,即R&D的強度隨著銷售額的增加而提高。

(iii)profmarg的系數在經濟上顯著。根據先驗經驗,當利潤越高,無論是出于避稅目的還是提升企業自主創新能力的需要,研發支出都會越高,因此profmarg的系數是正的,符合一般規律。

(iv)profmarg對rdintens的影響統計不顯著。因為其t統計量等于1.087,小于在10%的顯著性水平上單側檢驗的臨界值。

二、計算機習題

1.如下模型可用來研究競選支出如何影響選舉結果:

voteA=β0+β1log(expendA)+β2log(expendB)+β3prtystrA+u

其中,voteA表示候選人A得到的選票百分數,expendA和expendB分別表示候選人A和B的競選支出,而prtystrA則是對A所在黨派實力的一種度量(A所在黨派在最近一次總統選舉中獲得的選票百分比)。

(i)如何解釋β1

(ii)用參數表述如下虛擬假設:A的競選支出提高1%被B的競選支出提高1%所抵消。

(iii)利用VOTE1.RAW中的數據來估計上述模型,并以通常的方式報告結論。A的競選支出會影響結果嗎?B的支出呢?你能用這些結論來檢驗第(ii)部分中的假設嗎?

(iv)估計一個模型,使之能直接給出檢驗第(ii)部分中假設所需用的t統計量。你有什么結論?(使用雙側對立假設。)

答:(i)保持其他因素固定不變,則有?voteA=β1?log(expendA)=(β1/100)[100﹒log(expendA)]≈(β1/100)[%?expendA],因此當expendA增加1%,voteA變動(β1/100)個百分點。

(ii)虛擬假設為:H0:β2=-β1,這意味著A的競選支出提高z%,同時B的競選支出提高z%,從而voteA不變。因此虛擬假設可寫為:H0:β2+β1=0。

(iii)估計方程為:

說明: 24

log(expendA)的系數是非常顯著的,因為其統計量為15.92,log(expendB)的系數也是顯著的。估計方程表明在其他條件不變的情況下,候選人A支出增加10%,候選人A得到的選票百分數將增加0.61%。在其他條件不變的情況下,候選人B支出增加10%,候選人A得到的選票百分數將減少0.66%。這些效應是不能被忽略的。

假設log(expendA)的系數與log(expendB)的系數大小相等,符號相反,那么將不存在,但在假設檢驗中,需要該標準誤。因此不能用這些結論來檢驗第(ii)部分中的假設。

(iv)令θ1=β1+β2,代入原方程可得:

說明: 25

估計該方程可得:。第(ii)部分的t統計量為:-0.532/0.533≈1。因此不能拒絕虛擬假設。

2.本題要利用LAWSCH85.RAW中的數據。

(i)使用與第3章習題4一樣的模型,表述并檢驗虛擬假設:在其他條件不變的情況下,法學院排名對起薪中位數沒有影響。

(ii)新生年級的學生特征(即LAST和GPA)對解釋salary而言是個別或聯合顯著的嗎?

(iii)檢驗是否要在方程中引入入學年級的規模(clsize)和教職工的規模(faculty);只進行一個檢驗。(注意解釋clsize和faculty的缺失數據。)

(iv)還有哪些因素可能影響到法學院排名,但又沒有包括在薪水回歸中?

答:(i)模型為:

log(salary)=β0+β1LAST+β2GPA+β3log(libvol)+β4log(cost)+β5rank+u

虛擬假設為:H0:β5=0。估計方程為:

說明: 26

rank的t統計值為-11,非常顯著。如果rank減少10,起薪中位數預期增加3.3%。

(ii)LAST是統計不顯著的,因為t≈1.18,但是GPA是統計顯著的,t≈2.76。給定GPA高度顯著的情況下,F統計量等于9.95,p值約為0.0001,因此聯合顯著性的檢驗是無實際意義的。

(iii)在模型中引入入學年級的規模和教職工的規模時,將會丟失數據。聯合顯著性檢驗的F統計量為0.95,p值為0.39。除非使用較大的顯著性水平,否則兩個變量之間不是聯合顯著的。

(iv)排名本身帶有一定程度的不可測性,而且排名可能部分依賴于一些不影響學生質量的瑣碎因素。LAST和GPA是學生質量的好的控制因素。性別和種族的差異也是影響薪水的因素。然而,并不確定這些因素與排名相關的原因。由出版物的發行記錄來衡量的教職工的質量應該被囊括在內。

3.參考第3章習題14。現在,我們使用住房價格的對數作為因變量:log(price)=β0+β1sqrft+β2bdrms+u。

(i)你想在住房增加一個150平方英尺的臥室的情況下,估計并得到price變化百分比的一個置信區間。以小數形式表示就是θ1=150β1+β2。使用HPRICE1.RAW中的數據去估計θ1

(ii)用θ1和β1表達β2,并代入log(price)的方程。

(iii)利用第(ii)部分中的結果得到的標準誤,并使用這個標準誤構造一個95%的置信區間。

答:(i)估計模型為:

說明: 27

因此,表明在住房增加一個150平方英尺的臥室的情況下,預期價格將上漲8.6%。

(ii)因為β2=θ1-150β1,則有log(price)=β0+β1sqrft+(θ1-150β1)bdrms+u=β0+β1(sqrft-150bdrms)+θ1bdrms+u。

(iii)對(ii)中的模型進行回歸,可得,且已知,則95%的置信區間為(0.0326,0.1390)。

4.在例4.9中,可以使用樣本中所有1388個觀測數據去估計約束模型。使用所有觀測值計算bwght對cigs,parity和faminc回歸的R2,并與例4.9中約束模型所報告的R2相比較。

答:使用樣本中所有1388個觀測數據,可得R2=0.0348。當錯誤的使用了從無約束模型中的1191個觀測數據得出的R2(0.0348)時,可以得到F統計量:

F=[(0.0387-0.0348)/(1-0.0387)](1185/2)≈2.4

p值為0.091,在10%的顯著性水平上,是顯著的,不拒絕虛擬假設。但是這不是正確的結果,正確的F值是例4.9中使用的1.42,p值為0.242,此時拒絕虛擬假設。

5.本題要用到MLB1.RAW中的數據。

(i)使用方程(4.31)中所估計的模型,并去掉變量rbisyr。hrunsyr的統計顯著性會怎么樣?hrunsyr的系數大小又會怎么樣?

(ii)在第(i)部分的模型中增加變量runsyr(每年壘得分),fldperc(防備率)和sbasesyr(每年盜壘數)。這些因素中,哪一個是個別顯著的?

(iii)在第(ii)部分的模型中,檢驗bavg,fldperc和sbasesyr的聯合顯著性。

答:(i)如果去掉變量rbisyr,則估計模型變為:

說明: 29

此時hrunsyr是統計顯著的,因為t≈4.99,它的系數也增加了2.5倍。

(ii)增加變量runsyr(每年壘得分),fldperc(防備率)和sbasesyr(每年盜壘數)后的模型為:

說明: 30

runsyr是統計顯著的,t=0.0174/0.0051≈3.41,表明在其他因素固定的情況下,壘得分增加一年,預期薪水將大幅度增長1.74%。每年盜壘數的值是負的,而防備率的t值僅為0.5。職業棒球大聯盟的成員們大多數是優秀的守場員,實際上,最小的每年防備率是800。防備率相對較小的變異,使得它的影響難以估計。

(iii)根據t檢驗,bavg,fldperc和sbasesyr是個體不顯著的。它們的聯合顯著性檢驗的F統計量為0.69,p值為0.56,因此,變量是聯合不顯著的。

6.本題要用到WAGE2.RAW中的數據。

(i)考慮一個標準的工資方程

log(wage)=β0+β1educ+β2exper+β3tenure+u

表述虛擬假設:多一年工作經歷與在現在的崗位上多工作一年對log(wage)具有相同影響。

(ii)在5%的顯著性水平上,相對于雙側對立假設,通過構造一個95%的置信區間來檢驗第(i)部分中的虛擬假設。你得到的結論是什么?

答:(i)虛擬假設為:H0:β2=β3

(ii)令θ2=β2-β3,估計模型為:

log(wage)=β0+β1educ+θ2exper+β3(exper+tenure)+u

95%的置信區間為:[0.0020-1.96×0.0047,0.0020+1.96×0.0047],即[-0.0072,0.0112]。因為0位于置信區間內,因此不能拒絕原假設,即在5%的顯著性水平上,不能拒絕β2=β3

7.參考4.4節中所用的例子。你將使用數據集TWOYEAR.RAW。

(i)變量phsrank表示一個人的高中百分位等級。(數字越大越好。比如90意味著,你的排名比所在班級中90%的同學更高。)求出樣本中phsrank的最小、最大和平均值。

(ii)在方程(4.26)中增加變量phsrank,并照常報告OLS估計值。phsrank在統計上顯著嗎?高中排名提高10個百分位點,能導致工資增加多少?

(iii)在方程(4.26)中增加變量phsrank顯著改變了2年制和4年制大學教育回報的結論了嗎?請解釋。

(iv)數據集包含了一個被稱為id的變量。你若在方程(4.17)或(4.26)中增加id,預計它在統計上不會顯著,解釋為什么?雙側檢驗的p值是多少?

答:(i)phsrank的最小值為0,最大值為99,平均值為56.16。

(ii)在方程中增加變量phsrank可得:

說明: 32

phsrank的t統計量為1.25,小于臨界值,是統計不顯著的。如果排名提高10個百分位點,log(wage)預期將增加0.003,這意味著薪水將會增長0.3%。

(iii)在方程中增加變量phsrank使得jc的t統計量的絕對值變得更小了,為1.33,但是其系數等于方程4.26中的系數。因此增加變量phsrank沒有顯著改變2年制和4年制大學教育回報的結論。大專學校的回報被估計得更少了,但該差異在標準顯著水平下并不是統計顯著的。

(iv)變量id只是工人的身份證號碼,是被隨機排列的。因此,在回歸方程中,id與任何其他變量都是不相關的。因此若在方程中增加id,它在統計上不會顯著。實際上,其p值約等于0.54。

8.數據集401KSUBS.RAW包含了凈金融財富(nettfa)、被調查者年齡(age)、家庭年收入(inc)、家庭規模(fsize)方面的信息,以及參與美國個人的特定養老金計劃方面的信息。財富和收入變量都以千美元為單位記錄。對于這里的問題,只使用單身者數據(fsize=1)。

(i)數據集中有多少單身者?

(ii)利用OLS估計模型nettfa=β0+β1inc+β2age+u,并以常用格式報告結果。解釋斜率系數。斜率估計值有何驚人之處嗎?

(iii)第(ii)部分的回歸截距有重要意義嗎?請解釋。

(iv)在1%的顯著性水平上,針對H1:β2<1檢驗H0:β2=1,求出p值。你能拒絕H0嗎?

(v)如果你做一個nettfa對inc的簡單回歸,inc的斜率估計值與第(ii)部分的估計值有很大不同嗎?為什么?

答:(i)數據集中有2017單身者。

(ii)回歸模型為:

說明: 1

inc的系數表明收入每增加一美元,凈金融財富預計將增加80美分。age的系數表明,其他要素不變的情況下,年齡增長一歲,則凈金融財富增加843美元。斜率估計值符合常理。

(iii)t統計量為:(0.843-1)/0.092≈-1.71,在單側檢驗下,p值約為0.044,因此在5%的顯著性水平下,可以拒絕虛擬假設。

(iv)簡單回歸中inc的斜率估計值是0.821,與原回顧中的0.799不同。事實證明,在單身的樣本中,inc和age之間的相關系數僅為0.039,這解釋了簡單回歸和多重回歸結果不同的原因。

9.利用DISCRIM.RAW中的數據回答本題。(也可參見第3章計算機習題c3.8。)

(i)利用OLS估計模型log(psoda)=β0+β1prpblck+β2log(income)+β3prppov+u,以常用形式報告結果。在5%的顯著性水平上,相對一個雙側對立假設,統計顯著異于零嗎?在1%的顯著性水平上呢?

(ii)log(income)和prppov的相關系數是多少?每個變量都是統計顯著的嗎?報告雙側P值。

(iii)在第(i)部分的回歸中增加變量log(hseval)。解釋其系數并報告H0:βloghseval=0的雙側p值。

(iv)在第(iii)部分的回歸中,log(income)和prppov的個別統計顯著性有何變化?這些變量聯合顯著嗎?(計算一個p值。)你如何解釋你的答案?

(v)給定前面的回歸結果,在確定一個郵區的種族構成是否影響當地快餐價格時,你會報告哪一個結果才最為可靠?

答:(i)OLS估計模型為:

雙側檢驗的p值為0.018,在5%的置信水平上拒絕虛擬假設,但在1%的水平上無法拒絕虛擬假設。

(ii)log(income)和prppov的相關系數為-0.84,表明可能存在相當高程度的多重共線性。每一個系數都是統計顯著的,的t統計量為5.1,而的t統計量為2.86,雙側檢驗的p值為0.004。

(iii)增加變量log(hseval)后,OLS回歸結果為:

log(hseval)的系數表示彈性,意味著房屋價值每增加1%,在其他變量不變的情況下,預計價格增長0.12%。雙側檢驗的p值的三位小數點都為0。

(iv)增加變量log(hseval)后使得log(income)和prppov的個別統計不顯著,即使在置信水平為15%時,log(income)和prppov系數的t統計量都小于臨界值。

然而,在聯合顯著檢驗中,在5%的置信水平下,分子自由度為2,分母自由度為396,F統計量為3.52,p值等于0.030,因此所有的控制變量是高度相關的,因此部分變量個體上統計不顯著就是符合常理的。

(v)因為(iii)中的回歸包含的最多的控制變量,log(hseval)個體上是統計顯著的,log(income)和prppov是聯合顯著的。(iii)看起來是最可靠的。因此,一個合理的估計是:在其他因素固定的情況下,黑人的比例增加0.1,psoda估計增加1%。

10.利用ELEM94_95.RAW中的數據回答本題。所得到的結論可以與表4.1中的結論進行對比。因變量lavgsal表示教師平均薪水的對數,bs表示平均福利與平均薪水的比率(以學校為單位)。

(i)將lavgsal對bs進行簡單回歸。斜率估計值在統計上顯著異于0嗎?它在統計上顯著地異于-1嗎?

(ii)在第(i)部分的回歸中增加變量lenrol和lstaff。bs的系數有何變化?這種情形與表4.1中的情形相比如何?

(iii)第(ii)部分中bs系數的標準誤為何比第(i)部分中的標準誤更小?(提示:當增加變量lenrol和lstaff后,對誤差方差和多重共線性會造成什么樣的影響?)

(iv)lstaff的系數為何為負?它的絕對值算大嗎?

(v)在回歸中再添加變量lunch。保持其他條件不變,教師會因教育那些家庭條件不好的學生而得到補償嗎?請解釋你的結論。

(vi)總之,你利用ELEM94_95.RAW得到的結論,與表4.1在形式上一致嗎?

答:(i)使用1848個觀測值,βbs的樣本回歸估計值為-0.795。95%的置信區間為-1.088到-0.502,這包括了-1。因此在5%的置信水平上,不能拒絕虛擬假設H0:βbs=-1 。它在統計上顯著地異于0,不顯著異于-1。

(ii)在模型中增加變量lenrol和lstaff,bs的系數變為-0.605,統計顯著地異于1,95%的置信區間為[-0.818,-0.392]。這種情形與表4.1中的情形很相似,簡單回歸估計的系數為-0.825,多重回歸的系數為-0.605。

(iii)簡單回歸估計的標準誤為0.150,多重回歸估計的標準誤為0.109。增加的其他解釋變量對標準誤的作用方向是相反的。在本題中,bs和兩個增加的變量lenrol和lstaff由于多重共線性的原因而增加標準誤。而同時,lenrol和lstaff包含在回歸方程中減小了系數的誤差方差從而減小了標準誤。事實上,它們屬于簡單回歸的誤差項的組成部分。在這個案例中,多重共線性相對于誤差方差的減少是溫和的,因此標準誤從簡單回歸中的0.231下降到多重回歸中的0.168,或者也可以從判定系數的角度去觀察誤差方差的變動。事先無法比較兩種效應中哪種效應起主導作用,但是可以在進行兩種回歸后對誤差方差進行比較。

(iv)lstaff變量表示平均每千名學生的教工數的對數。當教工數增加,平均每名學生的教工數將會增加。將此與更小的班級規模聯系起來,對教師而言這是令人滿意的情形。因為其他條件不變的情況下,教師愿意少支取工資,從而減小班級的規模。彈性為-0.714,表示教工規模增加10%,則工資減少-7.14%。

(v)在回歸中再添加變量lunch,其系數為-0.00076,t值為-4.69,在其他條件不變的情況下,雇用貧困率與低工資是相關的。在這個數據集中,lunch的平均值為36.3,標準誤差為25.4。因此,lunch的標準誤差增加與工資變動是相關的,即導致工資減少-0.0076×25.4≈-0.019,約2%。本題沒有足夠的證據說明教師會因教育那些家庭條件不好的學生而得到補償。

(vi)與表4.1在形式上一致。其數值大小也是合理地接近的。從絕對值角度而言,簡單回歸估計是最大的,當其他解釋變量加入模型中后,回歸結果將會變小。最終兩個回歸不是相同的,因為在表4.1中不能控制lunch,而畢業率與輟學率與小學學生無關。

主站蜘蛛池模板: 响水县| 通道| 郑州市| 桂东县| 思茅市| 武穴市| 田东县| 利川市| 嘉峪关市| 东兰县| 灵川县| 仙居县| 绥德县| 开化县| 元阳县| 政和县| 乌什县| 清水河县| 阜城县| 晋江市| 湟中县| 喀喇沁旗| 利辛县| 韶山市| 恩平市| 闸北区| 宾川县| 澄城县| 岢岚县| 阿拉善左旗| 莆田市| 穆棱市| 龙井市| 永定县| 偃师市| 洪泽县| 塘沽区| 大田县| 凤台县| 乌兰浩特市| 洛隆县|