第二章 回归分析概要第三节 一元线性回归模型的统计检验根据第一章第二节里,我们讲过的计量经济学模型检验规则可知,在利用 OLS 法估计 了一元线性回归模型的参数,并确定了样本回归线后,首先要根据经济理论及实际问题中X 和Y的对应关系,对回归系数的符号、大小及相互关系进行直观判断,如果上述检验通过 的话,还须对估计值进行统计学检验回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线来 替代总体回归线尽管,从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期 望(均值)就等于总体的参数真值,但是,在一次抽样中,估计值不一定就等于该真值那 么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统 计检验,主要包括拟合优度检验、变量的显著性检验以及参数检验的置信区间估计一、拟合优度检验拟合优度检验,顾名思义,是检验模型对样本观测值的拟合程度(即回归直线对观测值 的拟合程度)显然,若样本观测值离回归直线越近,则拟合优度越好,X对Y的解释程度 越强;反之,则拟合优度差,X对Y的解释程度弱参看课本 44 页图 3.2.3)TSS =S (y -「)2tess =S(y -y)2tRSS = S (U )2tTSS = ESS + RSSy - y 二(y -刃 + (y - y ) t t t t 因为样本值太多,分别考察每一个离差是不切实际的,又为了克服绝对值符号在计算上 带来的不便,因此,常使用离差平方和来考察总离差(推导过程课本44 页)。
被解释变量的总离差平方和TSS 可解释平方和(回归平方和) ESS 残差平方和 RSS因此,显然,ESS在TSS的构成中所占比例越大,RSS在TSS中所占的比例就越小,说明回 归参数估计值的显著性越强,即样本回归线与真实回归线的拟合优度就越好因此,可以用 ESS 在 TSS 中所占的比例表示样本回归线与总体回归线的拟合程度ess 工(y - y )2R 2 = = tTSS S ( y - y ) 2tRSSR 2 = 1 --TSS0 < RSS < TSS ,0 < ESS < TSS0 < R 2 < 1二、变量的显著性检验1. 相关系数的检验样本相关系数定义公式ESS2 二TSSy =卩x t 1 tESS - E工(y - y )2E tE (y - y)2ty 2 二卩 2 E x 2t 1 tx yttX _jLt t2(E x y)2x 2 E y 2 ttt取 R 2的平方根,便有:rxy样本相关系数的性质:( ) r 的取值介于- 和 之间2) 当r = 0时,X和Y的样本观测值之间没有线性关系3) 在大多数情况下,0〈|r〈 1,即X与Y的样本观测值之间存在着一定的线性关系。
当r〉0时,X与Y正相关,当r〈0时,X与Y负相关4) 如果r \ = 1,则表明X与Y存在完全线性关系当r = 1时,称为完全正相关,当r = -1时,称为完全负相关5) r是对变量之间线性相关关系的度量,r = 0只是表明两个变量之间不存性关 系,它并不意味着X与Y之间不存在其他类型的关系相关系数的计算公式:-E x E yt t=x2 - (E x )2 nE y2 - (E y )2t t t t相关系数的检验在实际的客观现象分析中,相关系数一般都是根据样本数据计算的,因而带有一定的随机性 样本容量越小,其可信度越差,因此相关系数本身也要通过检验相关系数的显著性检验问题可以分为两大类:(1) 对总体相关系数是否等于0 进行检验2) 对总体相关系数是否等于某一个给定的不为0的数值进行检验在现阶段,我们只讨论相关系数r是否为0数学上可以证明,在X和Y都服从正态分布并且又有r=0的条件下,可以采用t检验来 确定 r 的显著性首先,计算相关系数r的t值:r\ n — 2t =X' 1 - r 2其次,根据给定的显著性水平和自由度(n-2),查找t分布表中对应的临界值t ,若 a/2H > t ,表明r在统计上是显著的(存性关系),若|t| < t ,表明r在统计上是不显 a/2 a/2著的(不存性关系)。
通常给定的显著水平a=0.05)(n表示样本容量,n-2表示自由度—在一元线性回归模型当中)相关系数的检验是为了帮助我们判断X与Y之间是否存性关系2. t 显著性检验用以进行变量的显著性检验的方法主要有三种:F检验、t检验和z检验,它们的区别在 于构造的统计量不同应用最为普遍的是t检验几乎所有的计量经济学软件中,都有关于 t统计量检验的计算结果,我们在一元线性回归模型中只讨论t检验假设检验是统计推断的一个主要内容,它的基本任务是根据样本所提供的信息,对未知 总体分布的某些方面的假设做出合理的判断假设检验的程序是:先根据实际问题的要求提出一个论断,称为统计假设,记做H然后根据样本的有关信 息,对H0的真伪进行判断,做出拒绝H0或接受H0的决策假设检验的基本思想是概率性质的反证法为了检验原假设 H0 是否正确,先假设这个 假设是正确的,看由此能推出什么结果如果导致一个不合理的结果,则表明“假设H0为 正确”是错误的,即原假设H0不正确,因此要拒绝原假设H0;如果没有一个导致不合理现 象的出现,则不能认为原假设H0不正确,因此不能拒绝原假设H0概率性质的反证法的根据是小概率事件原理,该原理认为“小概率事件在一次实验中几 乎是不可能发生的”。
在原假设H0下构造一个事件,这个事件在“假设H0是正确”的条件 下是一个小概率事件随机抽取一组容量为n的样本观测值进行该事件的试验,如果该事件 发生了,说明“假设H0是正确”是错误的,因为不应该出现的小概率事件出现了因而应 拒绝原假设H0;反之,如果该小概率事件没有出现,就没有理由拒绝原假设H0,应该接受 原假设H0以卩为例的t值检验:1(1) 提出假设 对回归系数进行显著性检验,所提出的假设的一般形式是:原假设H : P = 0;01备选假设H : B工011(假设0 = 0,是因为卩是否为0,可以表明X对Y是否有显著的影响11在原假设H成立的条件下,0八 八卩-卩 卩t = 1 1 = 1SS如果,It |〈t (n - 2),接受原假设H,表明X对Y没有显著影响,一元线性回归模型无a/2 0意义a/2如果,It|〉t (n - 2),拒绝原假设,接受备选假设H ],表明X对Y有显著影响S卩是6】的标准差估计值,S严叽的标准差估计值,它们的计算公式是: I s 丄 x2); S s(V= Z2( + v );浙 力 u n L X2 1t& 2是随机干扰项Ut的方差的无偏估计量,它的计算办法是: u入 工y2 - 6工X y& 2 = * 1u n-k其中K表示待估参数的个数,N表示样本容量。
三、回归系数的置信区间根据t分布构造置信区间,由于t =^1-卩1(具有n - 2个自由度),给出置信度1-a, S查自由度为n-2的t分布表,得出临界值t (n - 2),t值落在(-t ,t )的概率是1-a,a/2 a/2 a /2也可以记做:P{_用-B ‘〈-t 〈 ~1 1〈ta /2 S a /2B1S = 1 - a,这就是B真实值的置信区间同理,可t 〈t〈t }= 1 - a,将• 代入其中,a /2 a /2理可得:p E -1 s〈B〈B +11 a/2 0 11/2 A 、 11 /*. /*. t得B的置信区间为P B - t S〈B〈B + t S丿=1 - a0 0 a/2 (B 0 0 a/2 g00 置信区间的大小取决于回归系数估计值的标准差,标准差越小,说明估计值越接近于真 实值,估计结果越可靠根据前面我们所学过的内容,可知,模型的参数一般具有特定的经济意义例如,在以 每月家庭消费支出Y为被解释变量,以每月家庭可支配收入X为解释变量的模型当中,X 前参数的经济意义是边际消费倾向当经过模型估计得到B =0.670后,我们能否说“边际1消费倾向为0.670”呢?不能。
根据置信区间,我们只能说“边际消费倾向以0.99的置信水 平处于以 0.670为中心的区间中”四、一元线性回归模型的点预测和区间预测 点预测(课本 51 页)单个 y 的区间分布是:F土 t (n - 2)c :1 + +a nx2F—,X x 2tY均值的区间分布是:入丨1 X2± t (n — 2)b . + F—a n X X2t根据课本上的图像,可以看出:(1) y的置信区间比y的均值E(y )的置信区间宽;F F F(2) 这些区域的宽度在x = X的时候达到最小本节重点内容回顾: 本节公式较多,其证明方法需大家仔细查看讲义或教科书(1) 拟合优度的含义是什么(2) 相关系数的判断准侧(3) t 显著性检验的方法(4) 置信区间的构造及模型预测课后练习题 一、单选题(每题2 分,共 32分)1. 在回归分析中,定义的变量满足( )A. 解释变量和被解释变量都是随机变量B. 解释变量为非随机变量,被解释变量是随机变量C. 解释变量和被解释变量都是非随机变量D. 解释变量是随机变量,被解释变量是非随机变量2. 表示 X 与 Y 之间真实线性关系的是( )A.Y =卩 + 卩 X + u B.E(y|x ) = p + p Xi 0 1 it i 0 1 iC. Y = p> + B X + u D. Y = B + p> Xi 0 1 i t i 0 1 i3. 最小二乘原则是指使( )达到最小值的原则确定样本回归方程。
E 八 1 八 1 八 八(Y — Y ) B.乙 Y — Y C.max 乙 Y — Y D.Z (Y — Y )2i i i i i i i i4. 对回归模型Y二p + p X + u进行统计检验时,通常假定u.服从()i 0 1 i i iA. N (0,b 2) B. t (n — 2) C. N (0,b 2) D. t (n)i5. 下列哪个性质不属于估计量的样本性质( )A.无偏性 B.有效性 C.线性性 D.—致性6. 对于Y = B + B X + u,以cf表示估计标准误差,r表示样本相关系数,则有()i 0 1 i iA. & = 0 时,r = 1 B.& = 0 时,r = — 1C. & = 0 时,r = 0 D. & = 0 时,r = 1 或 一 17. 电视机的销售收入(Y,万元)与销售广告(X,万元)之间的回归方程为Y = 356 + 2.4X , 这说明( )A. 销售收入每增加1万元,广告支出平均增加2.4万元B. 销售收入每增加1万元,广告支出平均减少2.4万元C. 广告支出每增加1万元,消费收入平均增加2.4万元D. 广告支出每增加1万元,消费收入平均减少。