第三章一元经典线性回归模型的基本假设与检验问题3.1 TSS,RSS,ESS 的自由度如何计算?直观含义是什么?答:对于一元回归模型,残差平方和RSS的自由度是(n - 2),它表示独立观察值的个数对于既定的自变量和估计量& 1和° 2,n个残差 JL 匕u = Y—我一但Xi i i 2 i必须满足正规方程组因此,n个残差中只有(n- 2)个可以“自由取值”,其余两个随之确定所以RSS的自由度是(n — 2)TSS的自由度是(n -1) : n个离差之和等于0,这意味着,n个数受到一个约束由于TSS=ESS+RSS,回归平方和ESS的自由度是13.2为什么做单边检验时,犯第一类错误的概率的评估会下调一半?答:选定显著性水平a之后,对应的临界值记为,力,则双边检验的拒绝区域为111> t o/2 a/2单边检验时,对参数的符号有先验估计,拒绝区域变为t >t或t <-t ,故对犯第I类错 a/2 a/2误的概率的评估下下降一半3.3常常把高斯-马尔科夫定理简述为:OLS估计量具有BULE性质,其含义是什么?答:含义是: (1)它是线性的(linear): OLS估计量是因变量的线性函数。
2)它是无偏的(unbiased):估计量的均值或数学期望等于真实的参数比如△ 一 挪2) = °23)它是最优的或有效的(Best or efficient):如果存在其它线性无偏的估计量,其方差必 定大于OLS估计量的方差3.4做显著性检验时,针对的是总体回归函数(PRF)的系数还是样本回归函数(SRF)的 系数?为什么?答:做显著性检验时,针对的是总体回归函数(SRF)的系数总体回归函数是未知的,也 是研究者所关心的,所以只能利用样本回归函数来推测总体回归函数,后者是利用样本数据 计算所得,是已知的,无需检验习题)3.5以下陈述正确吗?不论正确与否,请说明理由1) X值越接近样本均值,斜率的OLS估计值就越精确£°答:错误因为Se(^2) |E U 2n _ 2,当X值越接近样本均值时气=X「X将会变小,则E X2也将变小,这将会导致se(吗)变大标准差的变大致使 i=1OLS估计值波动更大,OLS估计值也变得更不精确了2) 如果误差项u与自变量X相关,则估计量仍然是无偏的答:错误在证明估计量是无偏性的时候,我们假定自变量是给定的,否则E(叩=P2+E kE(u)=P2的第一个等式不成立。
3) 仅当误差项服从正态分布时,估计量才具有BLUE性质答:错误,在证明高斯-马尔科夫定理时,无需假设误差项服从正态分布4)如果误差项不服从正态分布,则不能进行'检验和F检验答:正确在证明相关统计量服从学生分布和F分布时,需要假设误差项服从正态分布5)如果误差项的方差较大,则置信区间较宽答:正确因为当误差项变大时,置信区间的表达式:p _&e(p)-1 <8
9) 如果误差项序列相关或为异方差,则估计系数不再是无偏或BLUE答:错误当误差项序列相关或为异方差时,估计系数依然是无偏的,但是不再具有有效性, 同时线性性也是满足的10) p值是零假设为真的概率答:错误P值是当原假设为真时我们拒绝原假设的概率3.6以下是商品价格P和商品供给S的数据:P27514828S154132928431740Zs2 =1025, Zp2 = 55.9, Zps = 255.4其中小写字母表示离差(观察值减去均值)1) 估计OLS线性回归方程 E(S) = P1 + P2P2) 估计「日?的标准差3) 检验假设:价格影响供给4)求& 1的置信度为95%的置信区间你对置信区间有何评论?-Z答:(1)P = Q8Pi = 4.625Z Si = 2 8. 1258由系数估计公式:Zn x y=1& 22 Zn x2=1 i顷-&2X,可得八&2 5 5. 4 / … =4. 5 75 5. 9人&广 S 2 P = 28.125 - 4.57 x 4.625 = 6.99可得估计的回归方程为:+ &2P = 6-" + 4-57P(2)由于总体方差未知则旧&1)=X 2nZ x 2iU 2Se( & 2)= ]吐=0.3352n 一 2⑶假设:H。
& 2=0,则就 13.63(&2)6昂万口 L,而对于当前样本, 2利用Excel计算可得:Prob.(|%| > 13.63) = 9.6845E -06这说明,在一次抽样中,统计量绝对值大于等于13.63的概率非常非常小,几乎不会发生所以,我们拒绝原假设:H0: & 2 = 0,则说明价格影响供给4)由置信区间公式:& - 3^(3 ) -1 VV&+ Se(E ) -1 1 1 a/2 1 1 1 a/2这里a = 5%,对于本题,自由度为n - 2 = 6,则ta/2 = 2-447 .已知&;= 6.99,据(」)=1.786,故2.6197 <& 1 < 11.3603这也就是说[2.6197,11.3603]由95%的可能性包含&1不能说:&1有95%的可能性落在区间[2.6197,11.3603〕内】 3.7已知r和X满足如下的总体回归模型:Y = &1 + &2X + U(1)根据Y和X的5对观测值计算出:=10, Z xy = 27ZX =55, ZY = 15, Zx2 = 74, Zy2利用最小二乘法估计&「&2"Z'Q 27 =0.364974答:& c 2 Zn x2=1 i& = Y -&2X =3 — 0.3649x11 = -3.0139(2)经计算,该回归模型的残差平方和RSS为1.4。
计算判定系数,并估计回归标准误°〃 ESS 答.R2 = 答: TSS=1 -竺=1 -14 = 0.86TSS 10Z X2 =Z (x + X )2 =Z X2 + nX 2 = 74 + 5 x 112 = 679X 2n乙尤2 iSe(& 2)= = 0.07943 x 7467914 x = 0.9225 x 74 33.8假设某人利用容量为19的样本估计了消费函数C =以+匕+气,并获得下列结果:C = 15+ 0. Y1i it = (3. 1) (18. 7)2 = R 0. 98(1) 计算参数估计量的标准差2) 构造P的95%的置信区间,据此检验P的统计显著性答:(1)推-18・7可得:村)=黑=0.0433n 、牝 3.1 可得:Se(of) = 15 = 4.8387Se(dc) 3.1⑵由置信区间公式:P-蜥>td/2〈陀E+抑>",可得:0.7186
该回归结 果来自于美国19个城市构成的数据样本1) 你如何解释该结果?(2) 在对立假设为H1 : ° 2 >1的前提下,检验H0 : 3 2 = 1的虚拟假设(零假设)你 使用什么检验?为什么?(3) 假设1968年的LFPR为0.58 (或58%),基于上述回归结果,1972年的LFPR的均值 的估计值是多少?构造其真实均值的95%的置信区间4) 如何检验总体回归误差项服从正态分布的虚拟假设?答:(1)由可决系数0.397可知,两个年度的劳动参与率有一定程度的相关性,但相关程度 不是很高直观地说,劳动力参与率存在一定的惯性2)使用t检验假设:H0: & 2 = L则&-T &T 〜(&) 口,而对于当刖样本,se(&) ,, 2 2利用单边检验,接受原假设使用单边检验是因为我们有先验判断:& 2 - 1人 八 一 一 一一一 (3)E(Y)的估计值 Y = 0.2033 + 0.6560X = 0.2033 + 0.6560x0.58 = 0.5738由总体方差未知,则Y - Se(Y)t < E(Y) < Y + Se(Y)t ,a/2 a/2H 加竺=・ 054+4 0・0誓8 00 5 可 得:0.5633 < Y < 0.5844 n -1 1 9- 1由此得到Y的置信度为95%的置信区间为[0.5633,0.5844](4)有三种方法可以检验总体回归误差项服从正态分布的虚拟假设:(1)残差直方图:用频率描述随机变量概率密度函数的图示法。
2)正态分位图:把一组数据标准化之后与标准正态分布比较(3)雅克-贝拉检验如果残差服从正态分布,雅克和贝拉证明了 JB统计量服从自由度为2的穴2分布如果JB统计量对应的P值很小就拒绝残差服从正态分布的零假设,否则就不能拒绝正态分布假设3.10考虑双变量模型模型1:Y = & +P X + ui 1 2 i i模型 II: Y =% +a2(X. — X) + u其中X =(X X.)/n,n是样本容量I. .. 交.(1)它们的OLS估计量是否相同(&与1七与以2)?(2)OLS估计量的方差是否相同?你认为那个模型更好?答:(1)K与&一相同,耽与a不相同 2- Zn xy=1 i iX^i=1 iX (x -x) ya =—卞」 1 i =2 乙(X - x )2i,a = Y-a2(2) se( 31)=bse( |3 )=「A4 c则可知se(P )se(a ),se(P ) = se(a )2 2因为,ZX; =。