简单线性回归模型的统计检验

资源描述

《简单线性回归模型的统计检验》由会员分享，可在线阅读，更多相关《简单线性回归模型的统计检验（52页珍藏版）》请在金锄头文库上搜索。

1、第三节第三节拟合优度的度量拟合优度的度量 1 1、拟合优度检验、拟合优度检验拟合优度检验拟合优度检验：对样本回归直线与样本观测值之间拟合程度的检验。度量拟合优度的指标度量拟合优度的指标：判定系数判定系数（可决可决系数系数）R2 2 问题：问题：采用普通最小二乘估计方法，已经保证了模型最好地拟合了样本观测值，为什么还要检验拟合程度？ 2 2、总离差平方和的分解、总离差平方和的分解已知由一组样本观测值（Xi,Yi），i=1,2,n得到如下样本回归直线如果Yi=i 即实际观测值落在样本回归“线”上，则拟合最好拟合最好。可以认为，“离差离差”全部来自回归线，而与全部来自回归线，而与“残差残差

2、”无关。无关。对于所有样本点，则需考虑这些点与样本均值离差的平方和,可以证明：记总体平方和总体平方和（Total Sum of Squares）回归平方和回归平方和（Explained Sum of Squares）残差平方和残差平方和（Residual Sum of Squares ）TSS=ESS+RSS Y的观测值围绕其均值的的观测值围绕其均值的总离差总离差(total variation)可分解为两部分：一部分来自回归线可分解为两部分：一部分来自回归线(ESS)，另一部分则来自随机势力，另一部分则来自随机势力(RSS)。在给定样本中，TSS不变，如果实际观测点离样本回归线越近，则E

3、SS在TSS中占的比重越大，因此拟合优度拟合优度：回归平方和：回归平方和ESS/YESS/Y的总离差的总离差TSSTSS3、可决系数、可决系数R2 2统计量统计量称 R2 为（样本）（样本）可决系数可决系数/判定系数判定系数（coefficient of determination)。可决系数可决系数的取值范围取值范围：0，1 R2 2越接近越接近1 1，说明实际观测点离样本线越近，拟，说明实际观测点离样本线越近，拟合优度越高，模型的解释程度越高合优度越高，模型的解释程度越高。在例收入收入-消费支出消费支出例中，注：可决系数注：可决系数是一个非负的统计量。它也是随是一个非负的统计量。

4、它也是随着抽样的不同而不同。为此，对可决系数的统计着抽样的不同而不同。为此，对可决系数的统计可靠性也应进行检验，这将在第可靠性也应进行检验，这将在第3章中进行。章中进行。第四节第四节回归系数的区间估计和假设检验回归系数的区间估计和假设检验一、一、OLS估计的分布性质估计的分布性质二、回归系数的区间估计二、回归系数的区间估计三、回归系数的假设检验三、回归系数的假设检验是关于样本观测值是关于样本观测值Yi的线性函数的线性函数因为是关于Y 的线性函数，而Y是关于随机扰动项 ui的线性函数，所以也是ui的线性函数，且服从正态分布一、一、OLS估计的分布性质估计的分布性质（2）在小样本情况下，

5、若用无偏估计）在小样本情况下，若用无偏估计代替代替去去估计标准误差，则进行标准变化的统计量不再服从正估计标准误差，则进行标准变化的统计量不再服从正态分布，而是服从自由度为态分布，而是服从自由度为n-2的的t分布分布假设检验假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围（如是否为零），但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值，往往需要通过构造一个以样本参数的估计值为中心的“区间”，来考察它以多大的可能性（概率）包含着真实的参数值。这种方法就是参数检验的置信区间估置信区间估计计。二

6、、回归系数的区间估计二、回归系数的区间估计如果存在这样一个区间，称之为置置信信区区间间（confidence interval）； 1-称为置置信信系系数数（置置信信度度）（confidence coefficient），称为显显著著性性水水平平（level of significance）；置信区间的端点称为置置信信限限（confidence limit）或临界值临界值（critical values）。t分布假如接受域拒绝域拒绝域0举例：一元线性模型中举例：一元线性模型中， i (i=1，2）的置信区间的置信区间: :在变量的

7、显著性检验中已经知道：意味着，如果给定置信度（1-），从分布表中查得自由度为(n-2)的临界值，那么t值处在(-t/2, t/2)的概率是(1- )。表示为：即于是得到:(1-)的置信度下, i的置信区间是在上述收入收入- -消费支出消费支出例中，如果给定，查表得：由于于是，1、2的置信区间分别为：（，528.59 ) （，0.5797) XiYi 得，在显著性水平下，临界值为，则的估计区间是回归系数的区间估计：回归系数的区间估计：回归系数的区间估计：回归系数的区间估计：3 3种情况种情况种情况种情况（1）的方差的方差已知，已知，与与的区间估计。由的区间估计。由(2)

8、 (2) 的方差的方差的方差的方差未知，大样本下未知，大样本下未知，大样本下未知，大样本下与与与与的区间估计的区间估计的区间估计的区间估计在大样本下，用代替，仍可利用正态分布作区间估计，此时的区间估计分别为： (3) (3) 的方差的方差的方差的方差未知，在小样本下，未知，在小样本下，未知，在小样本下，未知，在小样本下，与与与与的区间估计。的区间估计。的区间估计。的区间估计。在小样本下：在小样本下：在显著性水平下在显著性水平下，临界值为，临界值为，则则的区间估计分别为：的区间估计分别为：三、回归系数的假设检验三、回归系数的假设检验回归分析回归分析是要判断解释变量解

9、释变量X是否是被解释变被解释变量量Y的一个显著性的影响因素。在一元线性模型一元线性模型中，就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性变量的显著性检验。检验。变量的显著性检验所应用的方法是数理统计学变量的显著性检验所应用的方法是数理统计学中的中的假设检验假设检验。计量经计学中，主要是针对变量的参数真值计量经计学中，主要是针对变量的参数真值是否为零来进行显著性检验的。是否为零来进行显著性检验的。 1、什么是假设检验、什么是假设检验所谓假设检验假设检验，就是事先对总体参数或总体分就是事先对总体参数或总体分布形式作出一个假设，然后利用样本信息来判断布形式作出一个假设，然

10、后利用样本信息来判断原假设是否合理，即判断样本信息与原假设是否原假设是否合理，即判断样本信息与原假设是否有显著差异，从而决定是否接受或否定原假设有显著差异，从而决定是否接受或否定原假设。假设检验采用的逻辑推理方法是反证法。假设检验采用的逻辑推理方法是反证法。先假定原假设正确，然后根据样本信息，观察先假定原假设正确，然后根据样本信息，观察由此假设而导致的结果是否合理，利用适当的符由此假设而导致的结果是否合理，利用适当的符合某种概率分布的统计量和给定的显著性水平，合某种概率分布的统计量和给定的显著性水平，构造一个小概率事件，如果小概率事件发生，说构造一个小概率事件，如果小概率事件发生，说明原假

11、设不正确，就拒绝原假设。明原假设不正确，就拒绝原假设。总体总体总体总体假设检验的过程（提出假设抽取样本作出决策）抽取随机样本抽取随机样本抽取随机样本抽取随机样本均值均值均值均值 X X = 20= 20我认为人口的平我认为人口的平均年龄是均年龄是5050岁岁提出假设提出假设提出假设提出假设拒绝假设拒绝假设! 别无选择别无选择.作出决策作出决策作出决策作出决策2、变量的显著性检验、变量的显著性检验：t检验检验为了解释回归模型中解释变量对被解释变量是否有为了解释回归模型中解释变量对被解释变量是否有显著影响，在计量检验中通常把回归系数显著影响，在计量检验中通常把回归系数作为作为原假设，检验原

12、假设是否成立。原假设，检验原假设是否成立。检验步骤：检验步骤：（1）对总体参数提出假设 H0： 1=0， H1：10（2）以原假设H0构造t统计量，并由样本计算其值（3）给定显著性水平，查t分布表，得临界值t /2(n-2)（4）比较，判断若 |t| t /2(n-2)，则拒绝H0 ，接受H1 ；若 |t| t /2(n-2)，则拒绝H1 ，接受H0 ；t分布0接受原假设接受原假设H0拒绝原假设拒绝原假设H0假如接受域拒绝域拒绝域临界点临界点小概率事件小概率事件小概率事件小概率事件举例：举例：对于回归方程中的1，可构造如下t统计量进行显著性检验：在上述例2收入-消费支出例中，首先计

13、算2的估计值 t统计量的计算结果分别为：给定显著性水平，查t分布表得临界值 t |t1，就拒绝原假设，说明家庭可支配收入对消就拒绝原假设，说明家庭可支配收入对消费支出的影响确实是显著的；费支出的影响确实是显著的； |t2|,表明在95%的置信度下，拒绝截距项为零（ H0： 2=0）的原假设 t统计量25.52临界值，就拒绝原假设就拒绝原假设,说明说明家庭消费支出对家庭可支配收入的回归系数家庭消费支出对家庭可支配收入的回归系数是显著的是显著的t t t t0.05/20.05/2=2.306=2.3063.163.16t t0.01/20.01/2=3.25=3.25P(t2.306)=0.0

14、000P(t2.306)=0.0000案例分析:中国城市居民消费支出第五节第五节回归模型预测回归模型预测第五节回归模型预测1、对、对Y0平均值的点预测平均值的点预测总体回归函数当人均收入Xi=8000时，人均消费2、对、对Y0平均值预测的置信区间平均值预测的置信区间由于于是回归分析表解释：回归分析表解释：其中于是，在1-的置信度下，总体均值总体均值E(Y|X0)的置信区间为的置信区间为 3、对、对Y Y0 0总体个值的预测区间总体个值的预测区间由 Y0=0+1X0+ 知: 于是式中 :从而在1-的置信度下， Y0的置信区间的置信区间为在收入收入-消费支出消费支出例中，得到的样本回

15、归函数为则在 X0=1000处， 0 = 而因此，总体均值总体均值E(Y|X=1000)的95%的置信区间为： 61.05 E(Y|X=1000) 或（）同样地，对于Y在X=1000的个体值个体值，其95%的置信区间为： 130.87Yx=1000 或 (372.03, 975.65) 总体回归函数的置信带（域）置信带（域）（confidence band）个体的置信带（域）置信带（域）对于Y的总体均值E(Y|X)与个体值的预测区间（置信区间）:（1）样本容量n越大，预测精度越高，反之预测精度越低；（2）样本容量一定时，置信带的宽度当在X均值处最小，其附近进行预测（插值预测）精度越

16、大；X越远离其均值，置信带越宽，预测可信度下降。eviewseviews应用软件中的广义差分法应用软件中的广义差分法在在Eview/TSP软软件件包包下下，广广义义差差分分采采用用了了科科克克伦伦-奥科特（奥科特（Cochrane-Orcutt）迭代法估计）迭代法估计。在在解解释释变变量量中中引引入入AR(1)(1)、AR(2)(2)、，即即可可得得到参数和到参数和1、2、的估计值。的估计值。其其中中AR( (m) )表表示示随随机机误误差差项项的的m阶阶自自回回归归。在在估估计过程中自动完成了计过程中自动完成了1、2、的迭代。的迭代。案例2：用回归模型预测木材剩余物伊春林区位于黑龙江省东北部。全区有森林面积万公顷，木材蓄积量为亿m3。森林覆盖率为62.5%，是我国主要的木材工业基地之一。1999年伊春林区木材采伐量为532万m3。按此速度44年之后，1999年的蓄积量将被采伐一空。所以目前亟待调整木材采伐规划与方式，保护森林生态环境。为缓解森林资源危机，并解决部分职工就业问题，除了做好木材的深加工外，还要充分利用木材剩余物生产林业产品，如纸浆、纸袋、纸板等。因此预测林区的年木材剩余物是安排木材剩余物加工生产的一个关键环节。下面，利用一元线性回归模型预测林区每年的木材剩余物。显然引起木材剩余物变化的关键因素是年木材采伐量。

展开阅读全文

简单线性回归模型的统计检验

最新文档