双变量回归的进一步讨论

上传人:宝路 文档编号:47886056 上传时间:2018-07-05 格式:PPT 页数:33 大小:543.47KB
返回 下载 相关 举报
双变量回归的进一步讨论_第1页
第1页 / 共33页
双变量回归的进一步讨论_第2页
第2页 / 共33页
双变量回归的进一步讨论_第3页
第3页 / 共33页
双变量回归的进一步讨论_第4页
第4页 / 共33页
双变量回归的进一步讨论_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《双变量回归的进一步讨论》由会员分享,可在线阅读,更多相关《双变量回归的进一步讨论(33页珍藏版)》请在金锄头文库上搜索。

1、经济类核心课程计量经济学PowerPoint Presentation by Lu Shiguang 2012 All Right Reserved, Hunan Institute of Engineering第二章 双变量回归的进一步讨论教师:卢时光1. 正态性假设1.1 为什么要对干扰ui的概率分布作出正态性假设?在上一章的分析中,我们并没有对干扰ui的概率分布作出 任何假设。我们对ui的描述是:它们的期望值为0,它们 是不相关的,并且有着一个不变的方差。有了这些假设,我们看到最小二乘(OLS)估计量 有着非常好的统计性质,例如它们是无偏估计的,最小 方差。如果我们的目的仅仅是做点估计,

2、则上述假定就足够好 了,但是点估计只是统计推断的一个方面,另一方面则 是假设检验。我们的目标并不仅仅是得到 ,而是要利用它对 其真值 作出论断。更一般的来说,我们的目的 不仅是要得到样本回归函数(SRF),而是要用它来推测 总体回归函数(PRF)。那么,我们为什么必须对干扰项ui的概率分布进行进一步 的假定呢?事实上,我们在前面的分析中已经强调过, 最小二乘(OLS)估计量 都是ui的线性函数,因此 最小二乘(OLS)估计量 的概率分布是依赖于ui的 概率分布的。在回归分析中,人们常常愿意假设ui是遵循正态分布的, 这种假设是有理由的,我们稍后来证明。我们把假定了干扰ui符合正态分布的模型称为

3、双变量经典 正态线性回归模型(CNLRM)。1.2 正态性假设经典正态线性回归假定每个ui都是正态分布的,且:顺便指出,对两个正态分布变量来说,零协方差或零相 关就意味着这两个变量是互相独立的。ui符合正态分布的解释:1. ui代表了回归模型中未作为自变量引入的,而对因变量 产生影响的其他因素的总和。我们希望这些被忽略的变 量的影响是微小的,而且充其量是随机的。利用中心极 限定理可以证明,如果存在大量的独立且同分布的随机 变量,随着这些变量的数量的无限增大,它们的总和将 趋于正态分布。中心极限定理也说明,即便变量的个数是有限的,且不 是严格独立的,它们的总和也可以看做是服从正态分布 的。正态分

4、布的一个基本性质是:正态分布变量的任何线性 函数都是正态分布的。这样最小二乘估计量 也都是 正态分布的。最后,正态分布是一种简单的,我们熟知的分布。1.3 在正态性假设下OLS估计量的性质在正态性假设下,OLS估计量 有如下统 计性质:1. 它们是无偏的。2. 它们有最小方差。3. 一致性。随样本含量无限地增大,估计量将收 敛到它们的真值。4. 是正态分布的。5. 服从n-2个自由度的 分布。6. 的分布独立于 。7. 是最优无偏估计量(BLUE)。 是正态分布的 是正态分布的1.3 与正态分布有关的一些概率分布t分布、CHI分布和F分布与正态分布有着密切关系,在统 计推断中被大量的使用。以下

5、以定理的形式将其关系概 括,证明请参阅相关文献。2.区间估计和假设检验2.1 区间估计回到上一章我们的例子中,我们在最后求得边际消费倾 向2的估计值 为0.5091,这是对2的一个点估计值。虽 然大量重复抽样的结果使得估计值的均值可望等于真值 (E( )= 2 ),但单独一次抽样的结果可能是相背离的。统计学上,一个点估计的可靠性是有它的标准误来衡量 的。我们不能完全信赖一个点,而需要构造一个区间, 比如在点估计量的两侧各宽2或3个标准误,使得它有95% 的可能性包含真实的2 。我们试求两个正数和, 位于0和1之间,使得随机区间 包含2的的概率为1- 。用符号来表示:如果这个区间存在,就称之为置

6、信区间; 1- 称为置信系数 ;而称显著性水平;置信区间的端点分别称为置信下限和 置信上限。注意:(1)上式并没有说2落在给定区域的概率是1- ,因为2虽然未知, 但是一个确定的数,它落在固定区域的可能性只有1或者0。(2)因为 是随机的,而置信区域是根据 来构造的,因此置信 区域也是随机的。(3)因此,我们说如果重复多次,那么从长期来看,平均的说,这 些区域将有1- 次包含着参数的真值。2.2 回归参数1和2的置信区域2的置信区域在ui的正态假设下,OLS估计量 本身就是正态 分布,因此构造一个随机变量:这是一个标准化的正态分布变量。当2已知,以 为均值的正态分布有着良好的性质:正态曲线下

7、之间的面积约占68%;在2之间的面积约占 95%;在3之间的面积约占99.7%。但是2我们不知道,在实践中用无偏估计量 来 测定。构造一个随机变量:这样定义的随机变量t是遵循自由度为n-2(因为先要估算 ,所以丧失了2个自由度)的t分布(利用定理5)。在前面例子中, =0.5091,se( )=0.0357,自由度为8。 若取=5%, 查表t/2=t0.025=2.306,将这些值带入到上式中 得到2的95%置信区间为: 0.4268 2 0.59142的置信区域在正态假设下,构建一个随机变量:遵循自由度为n-2的2分布。回到原来的例子:2.3 假设检验:概述假设检验问题可以简单概述如下:问某

8、一给定的观测值 或发现是否与某声明的假设(stated hypothesis)相符( compatible)?这里用相符一词来表示与假设值“足够接近 ”,因而我们不拒绝所声称的假设。用统计语言来说,这个声称的假设叫做虚拟假设并用H0 来表示,通常在检验虚拟假设时要有一个对立假设,记 做H1。假设检验就是要设计一个观测程序,以便决定拒绝或不 拒绝一个虚拟假设。我们考虑变量遵循某种概率分布, 通过计算这个参数的分布值来作出判定。通常来说在一 次观测中,一个小概率的事件发生了,我们通常认为在 概率统计是不成立的,通常拒绝这个虚拟假设。假设检验有两种互为补充的方法:置信区间和显著性检 验。2.4 假设

9、检验:置信区间的方法双侧或双尾检验回到我们的例子中,我们已经知道所估计的 的值是0.5091。我们设 立一个虚拟假设及其对立假设,并对其进行判定:H0:20.3H1:20.3在虚拟假设下 是0.3,而对立假设下 大于或者小于0.3。虚拟假设 是一个简单假设,而对立假设是一个复合假设,这样就是我们所说 的双侧假设。那么所观测的 是否与H0相符?从大量重复的角度上来看,像(0.4268,0.5914)这样的许许多多的区 间将有95%的概率包含真实的2,因此,如果虚拟假设的2落在这个 100(1-)%置信区间,我们就不拒绝虚拟假设;如果落在区间之外 ,我们就可以拒绝虚拟假设。回到例子中,H0:20.

10、3。显然落在(0.4268,0.5914)所给的95%置信 区间之外,因此我们能以95%的置信度拒绝 的真值是0.3的假设。即便 虚拟假设是真的,我们一个大到0.5091的 的值,最多只有5%的机会, 这是一个小概率的事件。在统计学上,当我们拒绝虚拟假设时,我们说我们的发现是统计上显著 的。反之,当我们不拒绝虚拟假设时,我们说我们的发现不是统计上显 著的。决策规则:构造一个2的100(1-)%置信区间。如果2在假设H0下落 入此区间,就不要拒绝H0。但如果落入此区间之外,就要拒绝H0。单侧或单尾检验有时候,我们根据某些先前的经验性工作,或者依照某 种理论性的预测,而把对立假设取为单侧或单向的,

11、例如我们设立一个虚拟假设及其对立假设,并对其进行 判定:H0:20.3H1:20.3这种方式称为单侧或单尾检验。检验统计假设的另一种方法被称为显著性检验,它是对 置信区间法的一种补充,概括的来说,显著性检验是利 用样本结果,来证实一个虚拟假设的真伪的一种检验程 序。显著性检验的基本思想在于一个检验统计量以及在 虚拟假设下这个统计量的抽样分布。根据算出来的统计 值来决定是否接受H0。2.5 假设检验:显著性检验法(1)回归系数的显著性检验:t检验回忆在正态性假设下,构造的随机变量:遵循自由度为n-2的t分布。如果我们给定虚拟假设H0:22*,则可 以构造一个置信区间:这样,我们构建的100( 1

12、-)%置信区间叫做虚拟假设(H0)的接 受域,而置信区间之外的区域叫做虚拟假设(H0)的拒绝域或临界 域。因为我们利用了t分布,所有上述检验程序被称为t检验。用 显著性检验的语言来说,如果一个统计量的值落在临界域上 ,这个统计量是统计上显著的。这时我们拒绝虚拟假设。同 样,一个统计量的值落在了接受域中,这个统计量是统计上 不显著的。这时我们不拒绝虚拟假设。我们注意到,我们把有关概率分布的两个尾端当做拒绝域, 所以我们的检验程序仍然是一种双侧或双尾显著性检验。如 果观测值落入任意一尾端,我们就拒绝该虚拟假设。之所以 我们仍然使用双尾显著性检验,是因为我们的对立假设H1: 20.3是一个双侧复合假

13、设,2或者大于0.3,或者小于0.3。如果经验告诉我们,2要比0.3大,这样我们设: H0:20.3 以及H1:20.3。这样,假设是单侧(右尾部)的。我们利 用单侧或单尾检验。除了上端置信限或临 界值现在是t0.05,即 5%的水平外,检验程 序如前。同样,拒绝虚拟假设 H0。显著性t检验:决策规则(2)2的显著性检验:2检验考虑以下变量:(3)方差分析在上一章,我们导出了等式:对总平方和(TSS)的构成部分进行研究就叫方差分析( analysis of variance, ANOVA)。同任一平方和联系在一起的是它所依据的自由度(df), 即独立观测值的个数。因为在计算样本均值 时,我们

14、失去了一个自由度,故TSS有n-1个自由度;而在估计 之前必须先计算 ,从而RSS有n-2个自由度。把各项平方和及其相应的自由度引入后,我们得到了方差分 析表:现在考虑变量:上述F有什么用处?可以证明:如果2真的为0,则上述两个方程都给出相同的真实的2估计 ,这时解释变量X与Y没有任何线性关系,Y的变异全部是由 于随机干扰ui所带来的。这样,F比值提供了对虚拟假设 H0:2 =0的一个检验。我们所需做的,无非是算出F比值,再 拿它同从F表中选定显著水平上读出的临界值相比较,或者 查找所算F值的p值。回到例子中,ESS=8552.73,自由度1;RSS=337.27,自由度 8;F=8552.7

15、3/(337.27/8)=8552.73/42.159=202.87查表95%临界值F1,8=5.32202.87,拒绝H0。或者根据 p=0.0000001,确实是一个很小的概率,同样拒绝H0。事实上,根据我们计算tdf=8=14.24,(14.24)2=F=202.87。可知,t检验和F检 验是检验假设的两个互为补充的备选方法,对于双变量回归 模型而言,确实不需要F检验。但当我们考虑多元(复)回 归模型时,F检验成为检验统计假设的非常有用的方法。2.6 回归分析的结果上图中第一组括号内的数字代表估计的回归系数标准误,第二组数 值是在回归系数为零假设下计算出来的t值(例如 3.8128=24.45456.4138),而第三组数字代表估计的p值。比如当自由 度为8时,得到一个等于3.8128或更大

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号