§3.2 多元线性回归模型的统计检验 Statistical Test of Multiple Linear Regression Model,一、拟合优度检验(R2) 二、方程显著性检验(F检验) 三、变量显著性检验(t检验),一、拟合优度检验 Testing the Simulation Level,1、概念,检验模型对样本观测值的拟合程度 通过构造一个可以表征拟合程度的统计量来实现 问题:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度? 答案: 选择合适的估计方法所保证的最好拟合,是同一个问题内部的比较;拟合优度检验结果所表示的优劣是不同问题之间的比较2、总体平方和、残差平方和和回归平方和,定义TSS为总体平方和(Total Sum of Squares),反映样本观测值总体离差的大小;ESS为回归平方和(Explained Sum of Squares),反映由模型中解释变量所解释的那部分离差的大小;RSS为残差平方和(Residual Sum of Squares),反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小。
既然ESS反映样本观测值与估计值偏离的大小,可否直接用它作为拟合优度检验的统计量? 不行 统计量必须是相对量TSS、ESS、RSS之间的关系TSS=RSS+ESS,3、一个有趣的现象,矛盾吗?可能吗?,关键是在TSS=RSS+ESS的推导过程中应用了一组矩条件,矩条件在大样本下成立,只有1个样本时肯定不成立,在样本足够大时近似成立理解教材中关于TSS=RSS+ESS的推导过程,4、拟合优度检验统计量--- 可决系数r2和调整后的可决系数R2,可决系数r2模型与样本观测值完全拟合时, r2=1该统计量越接近于1,模型的拟合优度越高 问题:要使得模型拟合得好,就必须增加解释变量; 增加解释变量必定使得自由度减少调整的可决系数R2,为什么以R2作为检验统计量避免片面增加解释变量的倾向?,R2多大才算通过拟合优度检验?,在应用软件中,可决系数r2和调整后的可决系数R2的计算是自动完成的在消费模型中 r2=0.999773 R2=0.999739,二、方程显著性检验 Testing the Overall Significance,1、关于假设检验,假设检验是统计推断的一个主要内容,它的基本任务是根据样本所提供的信息,对未知总体分布的某些方面的假设作出合理的判断。
假设检验的程序是,先根据实际问题的要求提出一个论断,称为统计假设;然后根据样本的有关信息,对的真伪进行判断,作出拒绝或接受的决策 假设检验的基本思想是概率性质的反证法 概率性质的反证法的根据是小概率事件原理,该原理认为“小概率事件在一次试验中几乎是不可能发生的”2、方程的显著性检验,对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断 用以进行方程的显著性检验的方法主要有三种:F检验、t检验、r检验它们的区别在于构造的统计量不同,即设计的“事件”不同 应用最为普遍的F检验3、方程显著性的F检验,方程显著性的F检验,F检验的思想来自于总离差平方和的分解式:TSS=ESS+RSS 由于回归平方和ESS是解释变量X联合体对被解释变量Y的线性作用的结果,所以,如果ESS/RSS的比值较大,则X的联合体对Y的解释程度高,可认为总体存性关系,反之总体上可能不存性关系因此,可通过该比值的大小对总体线性关系进行推断进一步根据数理统计学中的定义,如果构造一个统计量,,则该统计量服从自由度为(n-k-1)的F分布在消费模型中,k=2,n=16,给定α=0.01,查得F0.01(2,13)=3.80,而F=28682.51>3.80,所以该线性模型在0.99的水平下显著成立。
关于拟合优度检验与方程显著性检验关系的讨论,可见,F与R2同向变化:当R2 =0时,F=0;当R2=时,F为无穷大;R2越大,F值也越大要注意:不要过分强调R2回答前面的问题: R2多大才算通过拟合优度检验?在消费模型中, R2>0.28→F>3.80→该线性模型在0.99的水平下显著成立有许多著名的模型, R2小于 0.5,支持了重要的结论,例如收入差距的倒U型规律不要片面追求拟合优度三、变量显著性检验 Testing the Individual Significance,1、变量显著性检验,对于多元线性回归模型,方程的总体线性关系是显著的,并不能说明每个解释变量对被解释变量的影响都是显著的因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中变量显著性检验的数理统计学基础相同于方程显著性检验,检验的思路与程序也与方程显著性检验相似用以进行变量显著性检验的方法主要有三种:F检验、t检验、z检验它们的区别在于构造的统计量不同应用最为普遍的t检验如果构造一个统计量,,,已经知道,说明:在古典假设条件下,假定ui服从正态分布,Yi也服从正态分布,而已经估计出来的参数均是被解释变量Yi的线性函数(线性性),所以即使是在小样本情况下,参数估计量也服从正态分布。
在大样本的情况下,即使被解释变量Yi不服从正态分布,参数估计量也会趋于正态分布提出原假设与备择假设:H0:i=0, H1: i0,注意: t分布的临界点的规律:1)必须考虑两个因素:自由度和显著性水平2)随着自由度的增加,t分布的临界点值变大在例2.3.1的消费模型中,|t0|=6.835,|t1|=32.363,|t2|=5.071给定α=0.01,查得t0.005(13)=3.012,所以所有变量都在0.99的水平下显著3、在一元线性回归(k=1)中,t检验与F检验是一致的4、关于检验标准的判断,科学性 灵活性 关键是讲清楚在什么置信水平下显著 直观判断,。