试谈回归模型的统计检验.ppt

资源描述

《试谈回归模型的统计检验.ppt》由会员分享，可在线阅读，更多相关《试谈回归模型的统计检验.ppt（36页珍藏版）》请在金锄头文库上搜索。

1、本资料来源,第三节回归模型的统计检验,一、模型的拟合优度检验二、模型的显著性检验三、解释变量的显著性检验,利用样本数据估计得到的样本回归方程,只是对总体回归方程的一个近似估计模型是否能确切反映经济变量间的相互关系还需要进行检验.,回归分析中主要是通过一些统计检验方法来保证模型在统计意义上的可靠性.,如在一次抽样中，参数的估计值与真值的差异有多大，是否显著，这就需要进一步进行统计检验。统计检验主要包括拟合优度检验、变量的显著性检验及参数的区间估计。,一、模型的拟合优度检验,拟合优度：即模型对样本数据的接近程度。,拟合优度检验：对样本回归直线与样本观测值之间拟合程度的检验。,度量拟合优度的

2、指标：判定系数（可决系数）R2,1、总离差平方和的分解公式,对一元模型: 已知由一组样本观测值（Xi,Yi），i=1,2,n,如果Yi=i 即实际观测值落在样本回归“线”上，则拟合最好。可认为，“离差”全部来自回归线，而与“残差”无关。,则,总离差平方和分解公式: TSS=ESS+RSS 其中:,由于,=0,所以有：,注意：一个有趣的现象,TSS=ESS+RSS,Y的观测值围绕其均值的总离差(total variation)可分解为两部分：一部分来自回归线(ESS)，另一部分则来自随机因素的影响(RSS)。,在给定样本中，TSS不变，如果实际观测点离样本回归线越近，则ESS在TSS中占的比

3、重越大，因此拟合优度：回归平方和ESS/Y的总离差TSS,2、可决系数R2统计量,称 R2 为（样本）可决系数/判定系数（coefficient of determination)。,可决系数的取值范围：0，1 R2越接近1，说明实际观测点离样本线越近，模型的拟合优度越高。,注：可决系数是一个非负的统计量。它也是随着抽样的不同而不同。,判定系数不仅反映了拟合程度的优劣，而且有直观的经济含义：它定量地描述了y 的变化中可以用解释变量的变化来说明的部分，即模型的可解释程度。,问题：在应用过程中发现，如果在模型中增加一个解释变量， R2往往增大. 这就给人一个错觉：要使得模型拟合得好，只要增加解

4、释变量即可。但是，现实情况往往是，由增加解释变量个数引起的R2的增大与拟合好坏无关，R2需调整。,调整的判定系数（Adjusted R-squared)）,在样本容量一定的情况下，增加解释变量必定使得自由度减少，所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度，以剔除变量个数对拟合优度的影响:,其中：n-k-1为残差平方和的自由度，n-1为总体平方和的自由度。,除了调整的判定系数之外，人们还使用另外两个指标SC（Schwarz Criterion，施瓦兹准则）和AIC(Akaike Information Criterion，赤池信息准则)来比较含有不同解释变量个数模型的拟合

5、优度： SC = AIC =,这两准则均要求仅当所增加的解释变量能够减少AIC值或AC值时才在原模型中增加该解释变量。(P57),显然，其值越小表明模型的拟合优度越高。,二、模型的显著性检验,模型的显著性检验，就是检验模型对总体的近似程度。最常用的检验方法是F检验或者R检验。 1. F检验,给定的显著水平，可由F分布表查得临界值，进行判断：,若，可以认为模型的线性关系是显著的；,若，则接受，认为模型的线性关系不显著，回归模型无效。,检验通不过的原因可能在于：一是所选取的解释变量不是影响被解释变量变动的主要因素,或者说影响y变动的因素除模型中的因素外，还有其它不可忽略的因素；解释变量与

6、被解释变量之间不存在线性相关关系；(3)样本容量n小；(4)回归模型存在序列相关。,2. R检验,在一元线性回归中，R 1，即-1R 1,在多元线性回归中，R称为复相关系数，且0R1,给定显著性水平和自由度n-k,即可查表找到。,判断：R，被解释变量与解释变量线性关系显著。,R，被解释变量与解释变量线性关系不显著，回归方程无效，重建方程。,F检验与R检验结果一致(P44图2-7):,因此,实际应用可选择其一。,图2-7 F统计量与R2的关系,多元线性回归模型的显著性检验(F检验),方程的显著性检验，旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。,1、方程显著性的F

7、检验,即检验模型 Yi=0+1X1i+2X2i+ +kXki+i i=1,2, ,n 中的参数j是否显著不为0。,可提出如下原假设与备择假设：,H0： 0=1=2= =k=0 H1： j不全为0,F检验的思想来自于总离差平方和的分解式： TSS=ESS+RSS,如果这个比值较大，则X的联合体对Y的解释程度高，可认为总体存在线性关系，反之总体上可能不存在线性关系。因此,可通过该比值的大小对总体线性关系进行推断。,根据数理统计学中的知识，在原假设H0成立的条件下，统计量,服从自由度为(k , n-k-1)的F分布,给定显著性水平，可得到临界值F(k,n-k-1)，由样本求出统计量F的数值，通过

8、F F(k,n-k-1) 或 FF(k,n-k-1) 来拒绝或接受原假设H0，以判定原方程总体上的线性关系是否显著成立。,例如:对于中国居民人均消费支出的某例(n=23解释变量为人均可支配收入、价格指数；被解释变量为消费支出数据、计算略）结果如下：一元模型：F=285.92 二元模型：F=2057.3,给定显著性水平 =0.05，查分布表，得到临界值：一元例：F(1,21)=4.32 二元例： F(2,20)=3.52,显然有 F F(k,n-k-1) 即二个模型的线性关系在95%的水平下显著成立。,2、关于拟合优度检验与方程显著性检验关系的讨论,由,可得：,与,或,在中国居民人均收入-消

9、费一元模型中，,在中国居民人均收入-消费二元模型中，,实际应用中不必过分苛求值的大小,重要的是考虑模型的经济意义是否合理.,三、解释变量的显著性检验,回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。在一元线性模型中，就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。,变量的显著性检验所应用的方法是数理统计学中的假设检验。计量经计学中，主要是针对变量的参数真值是否为零来进行显著性检验的。,1、假设检验,所谓假设检验，就是事先对总体参数或总体分布形式作出一个假设，然后利用样本信息来判断原假设是否合理，即判断样本信息与原假设是否有显著差异，从而决定是否

10、接受或否定原假设。假设检验采用的逻辑推理方法是反证法。先假定原假设正确，然后根据样本信息，观察由此假设而导致的结果是否合理，从而判断是否接受原假设。判断结果合理与否，是基于“小概率事件不易发生”这一原理的,2、变量的显著性检验,检验步骤：,（1）对总体参数提出假设 H0： 1=0， H1：10,（2）以原假设H0构造t统计量，并由样本计算其值,（3）给定显著性水平，查t分布表，得临界值t /2(n-2),(4) 比较，判断若 |t| t /2(n-2)，则拒绝H0 ，接受H1 ；若 |t| t /2(n-2)，则拒绝H1 ，接受H0 ；,对于一元线性回归方程中的0，可构造如下t统计量

11、进行显著性检验：,在上述收入-消费支出例中，首先计算的估计值,(标准化后的简算公式! 用Eviews可直接输出结果),t统计量的计算结果分别为：,给定显著性水平=0.05，查t分布表得临界值 t 0.05/2(8)=2.306 |t1|2.306，说明家庭可支配收入在95%的置信度下显著，即是消费支出的主要解释变量； |t2|2.306,表明在95%的置信度下，无法拒绝截距项为零的假设。,例四(P45),对多元线性回归模型在通过F检验后,一般还需对变量的显著性进行检验（t检验）,因方程的总体线性关系显著每个解释变量对被解释变量的影响都是显著的,因此，必须对每个解释变量进行显著性检验，以决定是

12、否作为解释变量被保留在模型中。这一检验是由对变量的 t 检验完成的。,1、t统计量,由于可以证明:,以cii表示矩阵(XX)-1 主对角线上的第i个元素，于是参数估计量的方差为：,其中2为随机误差项的方差，在实际计算时，用它的估计量代替:,因此，可构造如下t统计量,2、t检验,设计原假设与备择假设：,H1：i0,给定显著性水平，可得到临界值t/2(n-k-1)，由样本求出统计量 t 的数值，通过 |t| t/2(n-k-1) 或 |t|t/2(n-k-1) 来拒绝或接受原假设H0，从而判定对应的解释变量是否应包括在模型中。,H0：i=0 （i=1,2k）,解释变量显著性检验通不过的原因可能在

13、于:,(1) xi与y不存在线性相关关系； (2) xi与y不存在任何关系 ; (3) xi与xj(ij)存在线性相关关系。例4 (见教材P50) 操作演示在EViews软件输出的回归分析结果中，在每个t统计量值ti的右端还列出了一个概率值p（又称为p值），它表示: P（|t|ti）= p 即给出了所谓“精确的显著水平”。,注意：一元线性回归中，t检验与F检验一致,一方面，t检验与F检验都是对相同的原假设H0：1=0 进行检验; 另一方面，可以证明两个统计量之间有如下关系：,在中国居民人均收入-消费支出二元模型例中，由应用软件计算出参数的t值：,给定显著性水平=0.05，查得相应临界值：

14、 t0.025(19) =2.093。,可见，计算的所有t值都大于该临界值，所以拒绝原假设。即: 包括常数项在内的3个解释变量都在95%的水平下显著，都通过了变量显著性检验。,例4.(P45)我国独立核算工业企业生产函数得统计检验,四、参数的置信区间,参数的置信区间用来考察：在一次抽样中所估计的参数值离参数的真实值有多“近”。在变量的显著性检验中已经知道：,易得：在(1-)的置信水平下i的置信区间是,其中，t/2为显著性水平为、自由度为n-k-1的临界值。,在中国居民人均收入-消费支出二元模型例中, 给定=0.05，查表得临界值：t0.025(19)=2.093,计算得参数的置信区间： 0 ：(44.284, 197.116) 1 ： (0.0937, 0.3489 ) 2 ：(0.0951, 0.8080),从回归计算中已得到：,

展开阅读全文