§3.3 §3.3 多元线性回归模型的统计检验多元线性回归模型的统计检验 (Statistical Test of Multiple Linear Regression) 一、拟合优度检验一、拟合优度检验 二、方程的显著性检验二、方程的显著性检验(F(F检验检验) ) 三、变量的显著性检验(三、变量的显著性检验(t t检验)检验) 四、参数的置信区间四、参数的置信区间 一、拟合优度检验一、拟合优度检验 (Testing the Simulation Level)1、可决系数与调整的可决系数、可决系数与调整的可决系数则 总总离差离差平方和的分解平方和的分解由于: =0所以有: 注意:注意:一个有趣的现象一个有趣的现象-ii1ik 可决系数可决系数该统计量越接近于1,模型的拟合优度越高 问题:问题:在应用过程中发现,如果在模型中增加一个解释变量, R2往往增大 这就给人一个错觉一个错觉:要使得模型拟合得好,要使得模型拟合得好,只要增加解释变量即可只要增加解释变量即可—— 但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,,R2需调整需调整。
调整的可决系数调整的可决系数((adjusted coefficient of determination)) 在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平将残差平方和与总离差平方和分别除以各自的自由度,以方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响剔除变量个数对拟合优度的影响:其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度地区城镇居民消费模型(地区城镇居民消费模型(k=2))地区城镇居民消费模型(地区城镇居民消费模型(k=1))与与k=2比较,变化不大比较,变化不大0.9738930.970433二、方程的显著性检验二、方程的显著性检验(F(F检验检验) ) (Testing the Overall Significance) 方程的显著性检验,旨在对模型中被解释变方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系量与解释变量之间的线性关系在总体上在总体上是否显著是否显著成立作出推断成立作出推断 1、方程显著性的、方程显著性的F检验检验 F检验是要检验模型中被解释变量与解释变量之间的被解释变量与解释变量之间的线性关系在总体上是否显著成立线性关系在总体上是否显著成立,即检验模型 Yi=0+1Xi1+2Xi2+ +kXik+i i=1,2, ,n中的参数j是否显著不为0。
按照假设的原理与程序,可提出如下原假设与备择假设: H0: 0=1=2= =k=0 H1: j不全为0 F F检验的思想检验的思想来自于总离差平方和的分解式: TSS=ESS+RSS 如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存性关系,反之总体上可能不存性关系 因此因此, ,可通过该比值的大小对总体线性关系可通过该比值的大小对总体线性关系进行推断进行推断 由于Yi服从正态分布,根据数理统计学中的定义Yi的一组样本平方和服从χ2分布,所以有: ^ ―― ESS=∑(Yi-Y) ~~χ2(k) ^ RSS=∑(Yi-Yi) ~~χ2(n-k-1) 即回归平方和、残差平方和分别服从自由度为k和n-k-1的χ2分布 进一步根据数理统计学中的知识,在原假设H0成立的条件下,统计量 服从自由度为(k , n-k-1)的F分布。
给定显著性水平,可得到临界值F(k,n-k-1),由样本求出统计量F的数值,通过 F F(k,n-k-1) 或 FF(k,n-k-1)来拒绝或接受原假设H0,以判定原方程总体上总体上的线性关系是否显著成立 地区城镇居民消费模型地区城镇居民消费模型拒绝0假设,犯错误的概率为0对于对于地区城镇居民消费模型地区城镇居民消费模型的例子:的例子:二元模型:F=560.5650给定显著性水平 =0.05,查分布表,得到临界值:F(2,28)=3.34显然有 F F(k,n-k-1) ,即二个模型的线性关系在95%的水平下显著成立 2、、关于拟合优度检验与方程显著性检验关于拟合优度检验与方程显著性检验关系的讨论关系的讨论 由可推出:与或 对于一般的实际问题,在对于一般的实际问题,在5%5%的显著性水平下,的显著性水平下,F F统计量的临界值所对应的统计量的临界值所对应的R R2 2的水平是较低的所以,的水平是较低的所以,不宜过分注重不宜过分注重R R2 2值,应注重模型的经济意义;在进行值,应注重模型的经济意义;在进行总体显著性检验时,显著性水平应该控制在总体显著性检验时,显著性水平应该控制在5%5%以内。
以内• 在在地区城镇居民消费地区城镇居民消费二元模型二元模型中中,, 3.340.1354•有许多著名的模型,有许多著名的模型,R2小于小于0.5,支持了重要,支持了重要的结论的结论 • 例如:例如:库茨涅兹假设库茨涅兹假设——收入差距与经济增长收入差距与经济增长水平之间的倒水平之间的倒“U”型规律•((1)内容:)内容:随着经济的发展水平的提高,居民收入随着经济的发展水平的提高,居民收入差距先扩大,然后达到顶点,再缩小,即居民的收差距先扩大,然后达到顶点,再缩小,即居民的收入差距与经济发展水平是倒入差距与经济发展水平是倒“U”型•((2)该规律可以从经济理论上得到很好的解释该规律可以从经济理论上得到很好的解释•((3)该假设之所以被接受,是基于经验的证明该假设之所以被接受,是基于经验的证明建立一个计量经济学模型,被解释变量是收入差距建立一个计量经济学模型,被解释变量是收入差距(用基尼系数表示),解释变量是经济发展水平(用基尼系数表示),解释变量是经济发展水平(用(用GDP表示,包含表示,包含GDP的一次项、二次项,因为的一次项、二次项,因为倒倒“U”型假设是一条抛物线),从而构造一个二型假设是一条抛物线),从而构造一个二元模型,看看该二元模型是否显著性成立,及元模型,看看该二元模型是否显著性成立,及GDP的二次项系数是否为负的二次项系数是否为负——因为抛物线是开口向下的。
因为抛物线是开口向下的 后来做了很多检验,如用美国的历史数据、德国历史数据以及后来做了很多检验,如用美国的历史数据、德国历史数据以及 64个国家(从经济发展水平低到经济发展水平高)同一年的数据,个国家(从经济发展水平低到经济发展水平高)同一年的数据,均符合倒均符合倒“U”型规律,但方程的拟合优度大体上都在型规律,但方程的拟合优度大体上都在0.4左右对我国,用中国各个省份的数据研究各省的居民收入差距,也对我国,用中国各个省份的数据研究各省的居民收入差距,也验证了该规律验证了该规律——即经济发展水平比较低的地区(如西部地区),即经济发展水平比较低的地区(如西部地区),居民收入差距小;经济发展水平比较高的地区(如广居民收入差距小;经济发展水平比较高的地区(如广 东、上海、北京),居民收入差距比较小;而经济发展水平处东、上海、北京),居民收入差距比较小;而经济发展水平处 于中间的省份(如湖北、湖南、吉林、辽宁等),居民收入差于中间的省份(如湖北、湖南、吉林、辽宁等),居民收入差 距大,但模型的拟合优度为距大,但模型的拟合优度为0.30.3、、0.40.4、、0.50.5,比较小,但模型成,比较小,但模型成 立,因为方程的显著性检验立,因为方程的显著性检验F F检验在相当高的水平下成立。
检验在相当高的水平下成立 因此,不要片面追求拟合优度,关键是看模型的经济意义本身因此,不要片面追求拟合优度,关键是看模型的经济意义本身因此,不要片面追求拟合优度,关键是看模型的经济意义本身因此,不要片面追求拟合优度,关键是看模型的经济意义本身三、变量的显著性检验(三、变量的显著性检验(t t检验检验)) (Testing the Individual Significance)• 对于多元线性回归模型,方程的总体线性总体线性关系显著 每个解释变量每个解释变量对被解释变量的影响都是显著的• 因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中• 这一检验是由对变量的这一检验是由对变量的 t 检验完成的检验完成的1、、t t统计量统计量 由于 以cii表示矩阵(X’X)-1 主对角线上的第i个元素,于是参数估计量的方差为: 因此,可构造如下t统计量 其中2为随机误差项的方差,在实际计算时,用它的估计量代替: = 2、、t检验检验 设计原假设与备择假设: H1:i0 给定显著性水平,可得到临界值t/2(n-k-1),由样本求出统计量t的数值,通过 |t| t/2(n-k-1) 或 |t|t/2(n-k-1)来拒绝或接受原假设H0,从而判定对应的解释变判定对应的解释变量是否应包括在模型中。
量是否应包括在模型中 H0:i=0 (i=1,2…k) 地区城镇居民消费模型地区城镇居民消费模型关于常数项的显著性检验关于常数项的显著性检验•T T检验同样可以进行检验同样可以进行•一般不以一般不以t t检验决定常数项是否保留在模型中,检验决定常数项是否保留在模型中,而是从经济意义方面分析回归线是否应该通过而是从经济意义方面分析回归线是否应该通过原点注意:注意:一元线性回归中,一元线性回归中,t t检验与检验与F F检验一致检验一致 一方面一方面,t检验与F检验都是对相同的原假设H0:: 1=0=0 进行检验; 另一方面另一方面,两个统计量之间有如下关系: 四、参数的置信区间四、参数的置信区间 参参数数的的置置信信区区间间用来考察:在在一一次次抽抽样样中中所所估计的参数值离参数的真实值有多估计的参数值离参数的真实值有多“近近” 在变量的显著性检验中已经知道:在变量的显著性检验中已经知道:=容易推出容易推出:在(1-)的置信水平下i的置信区间是 其中,t/2为显著性水平为 、自由度为n-k-1的临界值 在地区城镇居民消费地区城镇居民消费二元模型二元模型例中,给定=0.05,查表得临界值:t0.025(28)=2.048计算得参数的置信区间: 1 : (0.4014, 0.7098 ) 2 :(0.0174, 0.4828) 从回归计算中已得到:0.55560.25010.07530.1136如何才能缩小置信区间?如何才能缩小置信区间? • 增大样本容量增大样本容量n n,,因为在同样的样本容量下,n越大,t分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小;;• 提高模型的拟合优度提高模型的拟合优度,,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,残差平方和应越小。
•提高样本观测值的分散度提高样本观测值的分散度,一般情况下,样本观测值越分散,(X’X)-1的分母的|X’X|的值越大,致使区间缩小。