计量经济学4多元回归分析:推断

上传人:san****019 文档编号:83798820 上传时间:2019-03-01 格式:PPT 页数:79 大小:321.50KB
返回 下载 相关 举报
计量经济学4多元回归分析:推断_第1页
第1页 / 共79页
计量经济学4多元回归分析:推断_第2页
第2页 / 共79页
计量经济学4多元回归分析:推断_第3页
第3页 / 共79页
计量经济学4多元回归分析:推断_第4页
第4页 / 共79页
计量经济学4多元回归分析:推断_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《计量经济学4多元回归分析:推断》由会员分享,可在线阅读,更多相关《计量经济学4多元回归分析:推断(79页珍藏版)》请在金锄头文库上搜索。

1、第4章 多元回归分析:推断,4.1 OLS估计量的抽样分布 4.2 检验对单个总体参数的假设:t检验 4.3 置信区间 4.4 检验关于参数的一个线性组合的假设 4.5 对多个线性约束的检验:F检验 4.6 报告回归结果,回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。,尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。 那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。 主要包括拟合优度检验、变量的显著性检验及参数的区间估计

2、。,4.1 OLS估计量的抽样分布,已经了解了OLS估计量的期望值和方差有助描述OLS估计量的精密度 要进行统计推断,还需要知道估计量的抽样分布,4.1.1 正态性假定,样本中自变量的值既定,因而OLS估计量的抽样分布取决于误差分布 假定MLR.6 正态性 总体误差u独立于解释变量x1,x2,xk,而且服从均值为零,方差为s2的正态分布:,4.1.2 经典线性模型假定,高斯马尔科夫假定与正态分布假定一起被称为经典线性模型假定,对参数而言为线性;随机抽样性;条件均值为0;不存在完全共线性;同方差性,经典线性模型,总结经典线性模型假定的一种简洁方法:,在实际应用中,误差不一定具有正态性,例子:考虑

3、劳动力市场上,工资与教育、工作经历、在现任工作的任职年限的关系,工资不可能低于0 ,何况有最低工资法案不具有正态分布,对变量做一个变换,比如log,一般来讲,相对于很大的样本容量来讲,误差的非正态性算 不上一个严重的问题目前,我们姑且认可正态性假定。,4.1.3 定理,定理4.1 正态抽样分布 在经典线性假定下,给定自变量的样本值,有,其中,SSTj为xj的总样本变异 因此,,证明:(仅证明1),相互独立的正太随机变量的线性组合依然服从正态分布,注意:,的任何线性组合也都是正态分布的。 中的任何一个子集也都具有联合正态分布。,4.2 检验对单个总体参数的假设:t检验,对总体模型中的某个参数的假

4、设进行检验 总体模型:,研究如何检验那些有关某个特定的bj的假设。,是总体未知的特征,而且永远不会确定的知道它们。但可以做出假设,然后通过统计推断来检验假设,假设它满足经典线性模型假定,4.2.1 定理及概念,定理 4.2 标准化估计量的t分布 在经典线性模型假定下,有,式中,k+1为总体模型中未知参数的个数。,证明:,正态分布:YN(,2) 标准正态分布:Z=(Y-)/N(0,1) 2分布:X=Zi2n2 t分布: tn F分布: Fk1,k2,所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否

5、接受或否定原假设。 假设检验采用的逻辑推理方法是反证法。 先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。 判断结果合理与否,是基于“小概率事件不易发生”这一原理的。,兴趣所在。又叫原假设,零假设,虚拟假设:,意味着控制了其他自变量后, xj对y没有任何局部效应。,回顾统计学中给出的正态总体的均值的假设检验 t统计量(或t比率),软件会给出,备择假设,并不是不关心bj0的情形只是基于经济理论,对于该研究,排除了bj0的可能,4.2.2对立假设:单侧对立假设,拒绝法则: 在 时,H0在某一显著性水平上被拒绝并支持H1 如果在5%的显著性水平上拒绝H0

6、并支持H1,则称xj是统计显著的,否则称xj是统计上不显著的。,临界值根据显著性水平和自由度决定(查表可得G.2),在虚拟假设正确时, 错误拒绝它的概率,例子:5%的显著性水平,df=n-k-1=28,临界值c=1.701,0,1.701,面积=0.05,随着t分布的自由度逐渐变大,t分布会接近标准的正态分布df大于120,就可以使用标准正态分布的临界值。,拒绝域,标准误,df=522,使用标准正态分布的临界值:1%的显著性水平,c=2.326 在1%的显著性水平上是统计显著大于0的,Example:小时工资方程,参数小于0的单侧对立假设,拒绝法则:,t分布只报告正值,c一定为正值,故-c一定

7、为负值。,5%的显著性水平,df=18,临界值c=1.734,例子,-1.734,面积=0.05,0,拒绝域,Example:学生表现与学校规模,一种观点认为,在所有其它条件相同的情况下,小学校的学生比大学校的学生的情况更好些。,学生通同过密歇根教学评价委员会标准化十分制数学测验的百分比,用来衡量学生表现,年均教师工资,每千名学生拥有的教职工人数,学生注册人数,用来衡量学生规模,df=404,在5%的显著性水平上,临界值为-1.65,-1.65,不能拒绝H0,实际上在15%的显著性水平上,c=-1.04-0.91 也不能拒绝虚拟假设,变化函数形式:自变量取log,-1.65(5%的显著性水平上

8、的临界值),两个模型究竟哪一个个更好呢? 注意观察拟合优度。较高的拟合优度能够说明自变量的 形式对应变量有更强的解释力度。,习题4.1,4.2.3 双侧对立假设,当经济理论(或常识)没有很好的说明bj的符号时,这是一个恰当的对立假设。即便知道bj在对立假设中的符号,采取双侧检验也是明智的避免根据回归方程中参数估计值来提出对立假设。 双尾检验的拒绝法则:,-2.06,面积=0.025,0,2.06,面积=0.025,5%的显著性水平,df=25, c=2.06,拒绝域,拒绝域,Example:大学GPA的决定因素,因变量:大学GPA (colGPA);自变量:高中GPA (hsGPA),大学能力

9、测验分数(ACT),每周缺课次数(skipped),双尾检验:5%的显著性水平,c=1.96;1%的显著性水平,c=2.58,在显著性水 平是1%时 统计上显著,在显著性水 平是5%时 统计上不显著,小结:t统计量检验显著性原理,如果H0成立, Ptt /2 tt /2是小概率事件,如果该事件在一次抽样中就出现,说明假设H0值得怀疑,应当拒绝H0,检验步骤,(1)计算 | t | (2)查表求临界值 t2(n-k-1) (3)比较,下结论 如果 | t | t2 ,则接受H0,认为在显著性水平为的意义下, j 不显著; 如果| t | t2 ,则拒绝 H0,认为在显著性水平为的意义下, j 显

10、著。,4.2.4 检验bj的其它假设,有时,也检验参数是否等于某个给定的常数,最常见的假设,那么相应的t统计量就是:,t=(估计值-假设值)/标准误,Example:住房价格和空气污染,506个社区组成的样本,估计一个联系社区中平均住房价格(price)与各种社区特征的模型:nox表示空气中氧化亚氮的含量,以每区的百万分子数度量;dist表示该社区相距五个商业中心的加权距离,以英里为单位;rooms表示社区平均每套住房的房间数;stratio为该社区学校的平均学生教师比。总体模型为:,c,如此小的t统计量,几乎不需要看t分布中的临界值: 即使在很大的显著性水平上,估计的弹性也不会显著的异于-1

11、。,4.2.5 计算t检验的P值,使用经典方法进行假设检验,需要选择一个显著性水平。给定t统计量的观测值,能拒绝虚拟假设的最小显著性水平是多少这个水平被称为检验的p值,p 值的概念:为了方便,将 t 统计量的值记为 计算 pPtt 0称为p 值(pvalue ) 通常的计量经济学软件都可自动计算出p 值,P值检验法原理,如果p ,则p/2 /2, t0落入接受域,应接受H0 如果p ,则p/2/2, t0落入拒绝域,应拒绝H0,P值检验法准则,当P 值小于显著性水平时,系数在显著性水平下是显著的 当P 值大于显著性水平时,系数在显著性水平下是不显著的。,P值检验法的优点,在使用上更简单,不用查

12、临界值表 不将 固定在某个武断的水平上是一个更可取的办法,最好是让使用者自己去决定在给定的p-value,到底是否拒绝零假设。,例子:t=1.85,df=40,对于双侧对立假设所得到的p值,-1. 85,面积=0.0359,0,1. 85,面积=0.0359,可以在7.18%的显著性水平上拒绝H0,一旦p值计算出来,在任何显著性水平(a)上都能进行检验: p a,拒绝虚拟假设;否则不能拒绝 回归软件包都会给出双尾检验的p值。如果求单侧检验的p值,只需将双尾检验的p值除以2。,4.2.6 对经典假设检验用语的提醒,当H0 未被拒绝时,我们说“在x%的显著水平上不能拒绝H0”,而不是说“在x%的显

13、著水平上接受了H0” 再次考虑住房价格与空气污染的例子。,t=0.393,t=-0.462,很显然,两 个虚拟假设 不可能同时 接受,5%的显著性水平,c=1.96,4.2.7 经济或实际显著性与统计显著性,前面强调的是统计显著性:与t统计量相关 经济显著性或实际显著性:系数估计值的大小及符号,过多的强调统计显著性,即使一个变量的估计效应不太大,由于有很小的标准误,也认为它在解释y时很重要导致错误的结论,要么它很大,要么它很小,Example: 401k养老金计划的参与率,企业贡献率、工人年龄、企业规模对养老金计划参与率的影响,其t统计量的绝对值为3.25,双尾检验的P值为0.001在相当小的

14、显著性水平上都是统计显著的,实际意义呢?,在处理大样本时,除了看t统计量, 对系数的大小加以解释也特别重要。,习题4.3(i),4.2.8 小结,检验统计显著性 如果该变量是统计显著的,则讨论系数的大小,以对其实际或经济上的重要性有所认识。 如果变量在通常的显著性水平上不是统计显著的,那你仍可能要问这个变量对y是否有预期的影响,而这个影响在实践中是否很大。如果影响很大,那你就应该对t统计量计算p值。对于小样本,可以让p值大到0.20(并非一成不变),需要注意的是:t统计量小,而实际上大的估计值可能来自抽样误差太大,因为我们可以断定这些变量在统计上不显著,如果t统计量小的变量具有“错误”的符号,

15、则可以忽略这个变量。 一个有出乎意料的符号而在实践中具有很大影响的显著变量,才是问题。,这常常是可能由于遗漏了关键变量,4.3 置信区间,假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围(如是否为零),但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。 要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计。,如果存在这样一个区间,称之为置信区间(confidence interval); 1-称为置信系数(置信

16、度)(confidence coefficient), 称为显著性水平(level of significance);置信区间的端点称为置信限(confidence limit)或临界值(critical values)。,要判断估计的参数值 离真实的参数值有多“近”,可以预先选择一个概率(01),并求一个正数,使得随机区间 包含参数的真值的概率为1-。即:,置信区间(CI)为总体参数的可能取值提供了一个范围,故又被称为区间估计。 总体参数bj的一个95%的置信区间为,因为,c是一个tn-k-1分布的第97.5 个百分位,定理4.2:,经验法则:自由度大于50的t分布,5%显著性水平下c值与2很接近;因而构造置信水平为95

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号