自变量选择与逐步回归

资源描述

《自变量选择与逐步回归》由会员分享，可在线阅读，更多相关《自变量选择与逐步回归（5页珍藏版）》请在金锄头文库上搜索。

1、自变量选择与逐步回归一、全模型和选模型设研究某一实际问题，涉及对因变量有影响的因素共有 m 个，由因变量 y 和m个自变量构成的回归模型y = B + P x + P x + P x +8称为全模型。0 1 1 2 2 m m如果从可供选择的 m 个变量中选出 p 个，由选出的 p 个自变量组成的回归模型y = P + P x + P x + P x + 8称为选模型。0 p 1 p 1 2 p 2 pp pp p二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑，第一种情况是全模型正确而误用了选模型；第二种情况是选模型正确而无用了全模型。以下是这两种情况对回归的影响。

2、1、全模型正确而误用选模型的情况性质 1，在 x 与 x , x 的相关系数不全为 0 时，选模型回归系数的最小二乘jp +1m估计是全模型相应参数的有偏估计，即E(P ) = PP ( j = 1,2, ,p )jpjpj性质2，选模型的预测是有偏的。性质3，选模型的参数估计有较小的方差。性质4，选模型的预测残差有较小的方差。性质5，选模型的均方误差比全模型预测的方差更小。性质1和性质2表明，当全模型正确时，而舍去了 m-p个自变量，用剩下的 p 个自变量去建立选模型，参数估计值是全模型相应参数的有偏估计，用其做预测，预测值也是有偏的。这是误用选模型产生的弊端。性质 3 和性质 4 表

3、明，用选模型去作预测，残差的方差比用全模型去作预测的方差小，尽管用选模型所作的预测是有偏的，但得到的预测残差的方差下降了，这说明尽管全模型正确，误用选模型是有弊也有利的。性质 5 说明，即使全模型正确，但如果其中有一些自变量对因变量影响很小或回归系数方差过大，丢掉这些变量之后，用选模型去预测，可以提高预测的精度。由此可见，如果模型中包含了一些不必要的自变量，模型的预测精度就会下降。2、选模型正确而误用全模型的情况全模型的预测值是有偏估计；选模型的预测方差小于全模型的预测方差；全模型的预测误差将更大。一个好的回归模型，并不是考虑的自变量越多越好。在建立回归模型时，选择自变量的基本知

4、道思想是少而精。丢掉了一些对因变量 y 有影响的自变量后，所付出的代价是估计量产生了有偏性。然而，尽管估计是有偏的，但预测偏差的方差会下降。另外，如果保留下来的自变量有些对因变量无关紧要，那么，方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。因此，在建立实际问题的回归模型时，应尽可能剔除那些可有可无的自变量。三、所有子集回归1、所有子集的数目设在一个实际问题的回归建模中，有 m 个可供选择的变量 x , x , x ，由于1 2 m每个自变量都有入选和不入选两种情况，这样 y 关于这些自变量的所有可能的回归方程就有2m-1个，这里-1是要求回归模型中至少包含一个自变量，即减去

5、模型中只包含常数项的这一种情况。如果把回归模型中只包含常数项的这一种情况也算在内，那么所有可能的回归方程就有2m个。从另一个角度看，选模型包含的自变量数目 p 有从 0 到 m 共有 m+1 种不同的情况，而对选模型中恰包含 p 个自变量的情况，从全部 m 个自变量中选 p 个的方法共有线性组合Cp个，因而所有选模型的数目为：C0 + C1 + Cm = 2m。mm mm2、关于自变量选择的几个准则把选模型的残差平方和记为 SSE ，当再增加一个新的自变量 x 时，相应的pp +1残差平方和记为 SSE 。根据最小二乘估计的原理，增加自变量时残差平方和将p+1减少，减少自变量时残差平方

6、和将增加。因此有SSE R2，即当自变量子集在扩大时，残差平 p +1p方和随之减少，而复决定系数R2随之增大。因此，如果按残差平方和越小越好的原则来选择自变量子集，或者为提高复决定系数，不论什么变量只要多取就行，则毫无疑问选的变量越多越好。这样由于变量的多重共线性，给变量的回归系数估计值带来不稳定性，加上变量的测量误差积累，参数数目的增加，将使估计值的误差增大。因此，从数据与模型拟合优劣的直观考虑出发，认为残差平方和 SSE 最小的回归方程就是最好的，还曾用负相关系数 R 来衡量回归拟合好坏都不能作为选择变量的准则。准则一：自由度调整复决定系数达到最大。当给模型增加自变量时，复决定

7、系数也随之逐步增大，然而复决定系数的增大代价是残差自由度的减少，因为残差自由度等于样本个数与自变量个数之差。自由度小意味着估计和预测可靠性低。设R 2 = 1 - n - 1 (1 - R 2)为自由度调整 an - p -1后的复决定系数，其中，n为样本容量，P为自变量的个数。在实际问题的回归建模中，自由度调整复决定系数R2越大，所对应的回归方程越好。则所有回归a子集中R 2最大者对应的回归方程就是最优方程。ab 2实际上就是用从另外一个角度考虑回归的拟合效果，回归误差项b 2的无偏估计为：SSE，此无偏估计式中也加入了惩罚因子n-p-1， n - p -1自由度n-p-1作平均的平均残

8、差平方和。当自变量个数从0开始增加时，SSE逐渐减小，作为除数的惩罚因子n-p-1也随之减小。当自变量个数从0开始增加时,&2先是开始下降然后稳定下来，当自变量个数增加到一定数量后，&2又开始增加。这是因为刚开始时，随着自变量个数增加，SSE能够快速减小，虽然作为除数的惩罚因子n-p-1也随之减小，但由于SSE减小的速度更快，因而&2是趋于减小的。当自变量数目增加到一定程度，应该说重要的自变量基本上都已经选上了，这时在增加自变量，SSE减少不多，以至于抵消不了除数n-p-1的减小，最终又导致了&2的增加。用平均残差平方和&2和调整的复决定系数作为自变量选元准则实际上是等价的。因为

9、有R2 = 1 -口2，由于SST是与回归无关的固定值，因而R2与&2是a SST a等价的。& 2小说明模型好，而& 2小R 2就会大也说明模型好。a准则二：赤池信息量AIC达到最小。设模型的似然函数为L( ,x)，0的维数为p,x为随即样本，则AIC定义为：八八AIC=-2InL(0 ,x) +2p,其中0为0的极大似然估计；p为未知参数的个数，式中 LL右边的第一项是似然函数的对数乘以 -2，第二项惩罚因子是未知参数个数的 2 倍。似然函数越大估计量越好，现在 AIC 是死然数的对数乘以-2 再加上惩罚因子2p,因而选择使AIC达到最小的模型是最优模型。在回归分析的建模过程中，对每一

10、个回归子集计算AIC，其中AIC最小者所对应的模型是最优回归模型。准则三： C 统计量达到最小p即使全模型正确，仍有可能选模型有更小的预测误差， C 正是根据这一原pSSE 1理提出来的。C = (n-m-1)p-n + 2p，其中cP2 =SSE 为全模型中pSSEn m 1mmc 2的无偏估计。选择使C最小的自变量子集，这个自变量子集对应的回归方程p就是最优回归方程。四、前进法前进法的思想是变量由少到多，每次增加一个，直至没有可引入的变量为止。具体做法是首先将去全部m个自变量，分别对因变量y建立m个一元线性回归方程，并分别计算这 m 个一元回归方程的 m 个回归系数的 F 检验值，记

11、为 b 1,F1,F1 ，选其最大者记为Fi = maxb 1,Fi,F11给定显著性水平a，12 mj12 m若F1 F (1,n-2)，则首先将x引入回归方程，为了方便，设x就是x oj ajj1接下来因变量y分别与(x ,x ), ( x ,x ),，(x ,x )建立m-1个二元线1 2 1 3 1 m性回归方程，对m-1个回归方程中x ,x，,x的回归系数进行F检验计算F23m值，记为和2, F 2,F 2 ,选其最大者记为F 2 = maxb 2, F 2,F 21,若23mj23mF/ 化(1,n -3)则接着将xj引入回归方程。依照上述方法接着做下去，直至所有未被引入方程的自变

12、量的 F 值均小于 Fa(1, n-p-1)时为止，这时，得到的回归方程就是最终确定的方程。每步检验中的临界值F (1, n-p-1)与自变量数目p有关，实际使用当中，通常使用显著 a性 p 值作检验。五、后退法后退法与前进法相反，首先用全部 m 个变量建立一个回归方程，然后在这 m 个变量中选择一个最不重要的变量，将它从方程中剔除，即把回归系数检验的F 值最小者对应的自变量剔除。设对 m 个回归系数进行 F 检验(偏 F 统计量)，记求得的F值为F m , F m，,F m ，选其最小者记为Fm = minm , Fm，,Fm 1，给 12mj12m定显著性水平a，若Fm F (1,n-m

13、-1)，则首先将x从回归方程中剔除，为了 j aj方便，设 x 就是 x 。jm接着对剩下的 m-1 个自变量重新建立回归方程，进行回归系数的显著性检验，项上面那样计算出 Fm-1 ，如果又有 Fm-1 F (1, n - (m -1) -1) ，则剔除 x ，重新 jjaj建立 y 关于 m-2 个自变量的回归方程，依次下去，直至回归方程中所剩余的 p 个自变量的F检验值均大于临界值F (1, n-p-1)，没有可剔除的自变量为止。a 这时，得到的回归方程就是最终确定的方程。六、前进法和后退法的比较前进法和后退法显然都有明显的不足。前进法可能存在这样的问题，即不能反映引进新的自变量后的变

14、化情况。因为某个自变量开始可能是显著的，但当引入其他自变量后它变得并不显著了，但是也没有机会将其剔除，即一旦引入，就是“终身制”的，这种只考虑引入，而没有考虑剔除的做法显然是不全面的。后退法的明显不足是，一开始把全部自变量引入回归方程，这样计算量很大。如果有些自变量不太重要，一开始就不引入，就可减少一些计算量；再就是一旦某个自变量被剔除，“一棍子就把它打死了”，再也没有机会重新进入回归方程。如果问题涉及的自变量 x , x , x 是完全独立的(或不相关)，那么在取12 ma =a 时，前进法与后退法所建立的回归方程是相同的。然而在实际中很难碰进出到自变量间真正无关的情况，尤其是经济

15、问题中，所研究的绝大部分问题，自变量间都有一定的相关性。这就会使得随着回归方程中变量的增加和减少，某些自变量对回归方程的影响也会发生变化。这是因为自变量间的不同组合，由于它们相关的原因，对因变量y的影响可能大不一样。如果几个自变量的联合效应对y 有重要作用，但是单个自变量对 y 的作用都不显著，那么前进法就不能引入这几个变量，而后退法却可以保留这几个自变量，这是后退法的一个优点。七、逐步回归法逐步回归法的基本思想是有进有出。具体做法是将变量一个一个引入，当每引入一个自变量后，对已选入的变量要进行逐个检验，当原引入的变量由于后面变量的引入而变得不再显著时，要将其删除。引入一个变量或从回归方程中剔除一个变量，为逐步回归的一步，每一步都要进行F检验，以确保每次引入新的变量之前回归方程中包含显著的变量，这个过程反复进行，直到既无显著的自变量选入回归方程，也无不显著自变量从

展开阅读全文

自变量选择与逐步回归

最新文档