逐步回归ppt课件－金锄头文库

资源描述

《逐步回归ppt课件》由会员分享，可在线阅读，更多相关《逐步回归ppt课件（36页珍藏版）》请在金锄头文库上搜索。

1、第七章逐步回归方法引言,在气象预报中，对预报量的预报常常需要从可能影响预报y的诸多因素中挑选一批关系较好的作为预报因子，应用多元线性回归的方法建立回归方程来做预报，但如何才能保证在已选定的一批因子中得到最优的回归方程呢？逐步回归分析方法就是针对这一问题提出的一种常用方法。下面从提出这一方法的基本思路、这一方法的计算过程出发来作介绍。,第一节回归系数（预报因子）的显著性检验,在多元线性回归方程的建立中，尽管最后都作了方程的统计检验，但并不意味着在p个因子中，每个因子对预报量y的影响都是重要的。需要对每个因子进行考察，若某个因子对预报量y的作用不显著，那么在多元线性回归方程中

2、它前面的系数就可能近似为0，因此，检验某一因子是否显著等价于检验假设：,要对作假设检验，自然就要寻找它的样本统计量和与它有关的统计量的分布。因为最小二乘估计的是随机变量的线性函数，由于这些随机变量是遵从正态分布，则也遵从正态分布。,在假设条件成立下，统计量遵从自由度为（1，n-p-1）的F分布,其中，为矩阵中对角线上第k个元素。确定信度以后，查表求出标准值，若，说明该因子方差贡献显著，保留该因子，否则可以考虑从回归方程中剔除出去。,预报因子数目增多的优缺点：优点：一般而言，回归方程中包含的因子个数越多，回归平方和就越大，残差平方和越小，残差方差的估计就越小，预报值

3、的置信区间就越小，方程一般也较容易通过检验。缺点：但因子数增多，也给方程增加了不少与预报量关系不大的因子，给预报带来下面三个明显缺点：,逐步回归的三种方案,1、逐步剔除方案 2、逐步引进方案 3、双重检验的逐步回归方案,逐步剔除法,1、概念：从包含全部变量的回归方程中逐步剔除不显著的因子。 2、方案：假定有4个预报因子，首先用这4个因子建立回归方程，然后对每个因子检查的大小。,因为在做单个因子检验时，上式中的分母是不变的(不同因子检验时)，因此，只比较各因子的分子部分即可，从它们中找出最小者作F检验。若检验结果显著，则其余因子自然显著；若检验结果不显著，则剔除这一因子，然

4、后对少一个因子的方程重复上一过程。,3、因子的方差贡献这一方案的步骤中每次仅比较统计量，这个统计量是十分重要的，常被称为因子的方差贡献，或称为偏回归平方和，记为从中选出方差贡献最小者，记为，再作F检验，检验时使用下面的公式,其中，l为检验时回归方程中所含因子个数，表示回归方程含l个变量时的残差平方和。,4、存在的三个问题 1）因子的方差贡献代表什麽样的意义? 2）为何不同时把几个不显著的因子从方程中剔除出去，而是要每次剔除一个? 3）在过程中，每剔除一个因子就要重新计算新方程中的回归系数，当因子较多时，计算量很大，如何解决?,我们知道,回归平方和是所有因子对预报量的总贡献

5、。所考虑的因子越多，回归平方和越大，若去掉一个因子，回归平方和只会减小，不会增加。减少的数值越大，说明该因子在回归中所起的作用越大，表明该因子越重要，可用此衡量该因子的方差贡献大小。下面介绍这个量的大小。,1,设为l个变量对应的回归平方和，为l-1个变量,即去掉第k个因子时的回归平方和它们的差就是去掉第k 个因子后，回归平方和的减少量。这部分叫做偏回归平方和，可以衡量每个因子在回归中所引起的作用的大小。,在剔除因子过程中，假如方差贡献都比较小，我们只能剔除其中的最小者，而不应该全部去掉。因为这两个因子之间可能存在密切相关关系，剔除第一个因子后，其对y的影响可能很大程度转移到第

6、二个因子对y的影响上。所以回归平方和不会因此减小很多。但如果同时去掉两个因子，就会比较多的减少回归平方和，从而影响回归的精度。,2,新老回归系数之间的关系：当剔除第k个因子后，,3,逐步引进方法 1. 概念在一批待选的因子中，考查他们对预报量y的方差贡献，挑选所有因子中方差贡献最大者，经统计检验是显著的，进入回归方程。,如从等因子中考察哪个因子方差在一元回归方程中贡献最大，故首先计算：其中，表示回归方程中无任何因子时的回归平方和，此时为0。,假如在p个因子中，的方差贡献最大，记为，则据回归系数的检验公式遵从F分布的统计量进行检验：若显著，则引进该因子。,设到l步，方程

7、已有l个因子。若考虑从p-l个因子中引进哪个变量时，还是要考察他们各个因子引进后的方差贡献，仍选取最大者，记为，使用统计量作检验，其中表示在将要引入回归方程中的l+1个因子时，回归方程的残差平方和。如此在方程中逐个地引入因子。,注意：这样得到的方程并不能保证其中所有因子都是显著的。因为各因子之间存在相关关系，所以引入新变量后，原有的变量就不一定仍然显著。,双重检验的逐步回归方案,上述两个方案各存在一定缺点：逐步剔除计算量大；逐步引入计算量小，但不一定保证最后的方程是“最优”的。双重检验的基本思想：将因子一个个引入，引入因子的条件是该因子的方差贡献显著；同时，每引入一个新因子，

8、要对老因子逐个检验，将方差贡献变为不显著的因子剔除。,方法：利用求解线性方程中求解求逆同时并行的方法，使得在计算因子方差贡献和求解回归系数同时进行。优点：计算简便，由于每步都作检验，保了最后所得方程中所有因子都是显著的。,逐步回归方法的一般步骤和计算公式,第一步准备工作从标准化变量出发，建立求标准回归系数的标准方程组。将系数矩阵化为相关矩阵R，并与常数矩阵放在一起组成增广矩阵，同时为了检验的方便，又在此矩阵中添上了一行（），组成一个方阵，记为，假定有p个待选因子，并开始作逐步回归计算。,第二步引入因子从p个待选因子中考虑引一个因子进入回归方程，建立每个因子的回归

9、方程：选方差贡献最大的，然后计算引进后的标准回归系数。假定在前l步中已引入l 个因子，考虑 p-l个未引入的因子中的方差贡献时，计算第k 个因子方差贡献的公式为,计算中可利用前l步消去求逆的结果，即用在作l次消去求逆变成矩阵后阵中的元素。如果发现第k个因子方差贡献最大，即则用它进一步作下面的显著性检验，这时利用下面统计量作检验。,在显著性水平下，若，则认为该因子方差贡献显著，引入该因子。,检验显著后，认为可以引进到方程中，然后对该因子所对应的列进行消去，并求出引进该因子后回归方程的标准回归系数。,第三步剔除因子当后来引入因子后，原来已引入的因子方差贡献会发生变化

10、，可能变为不显著的，要进行剔除。剔除的标准也可利用统计检验进行。仅在第三个因子引入后才考虑剔除。,假定方程中已引入l个因子，现在考虑在方程中各个因子所起的作用，即它们的方差贡献。设第k个因子为最小，即利用下面的统计量进行显著性检验,在显著性水平下，若，则认为该因子方差贡献不显著，可剔除。,第四步计算结果设结果引入了l个因子进入回归方程，消去过程从变到，则回归方程为其中，标准回归系数为如果要化为距平形式的回归方程，则计算,这时距平形式的残差平方和为、回归平方和为复相关系数为回归方程的均方差无偏估计量为可进行预报值的置信区间估计。,引入剔除,1,4,2,3,注意：上一步刚引入的变量下一步不可能剔除；上一步刚剔除的变量下一步不可能引入，使得前三步可以连续引入三个变量。,

展开阅读全文