在建立多元线性回归方程时

资源描述

《在建立多元线性回归方程时》由会员分享，可在线阅读，更多相关《在建立多元线性回归方程时（28页珍藏版）》请在金锄头文库上搜索。

1、14.3逐步回归在建立多元线性回归方程时，首先遇到的问题是选择哪些因素作为自变量。就以地震预报而论，微震量、地下水位、地下水含氡量、地形变、地温、地磁、地电等等都可能是地震前兆，有的学者认为天上的云，地上的蛐蛐、蚂蚁也可以作为地震预报的因素，假如一股脑都列入地震预报回归方程，可能包括几十项，甚至上百项，使预报方程非常复杂。在多元线性回归方程中的自变量之间可能会相互影响，或者说存在线性相关。有些自变量单独看，可能对因变量有作用，但与其他变量放在一起，其作用可能被其他变量所代替，使之在回归方程中的作用微不足道。比如前面提到的某些地震预报因素，如果作为自变量引入回归方程，就有可能存在线性相关现象。在

2、回归方程中存在线性相关的自变量，有3方面的不利影响：增加整理数据和计算的工作量；由于自由度的减少而使均方误差增加；可能使回归方程不稳定。在不遗漏具有显著作用自变量的前提下，自变量的整体与因变量的关系特别显著，且每个自变量与因变量的关系也都特别显著，自变量之间不存在线性相关，这样的回归方程才是最佳回归方程。上一节算例3的回归方程就不是最佳的。建立最佳回归方程可以有4种方法：全部比较。建立所有可能的自变量组合回归方程，对每个回归方程及回归系数做显著性检验，先选出回归系数都显著的回归方程，然后从中选择估计标准差最小的回归方程。使用这种方法时，自变量越多，计算量越大，比如有10个自变量就需要建立210

3、-1=1023个回归方程，并进行比较，这样的计算量会让一般的计算机吃不消；逐步剔除。先建立一个包括所有可能自变量的回归方程，然后逐个剔除作用不显著的自变量，直到方程中所包括的自变量都有显著作用为止。这种方法的缺点是，先剔除的变量不一定总是不显著的，在剔除别的变量后，其作用有可能变得显著，但整个过程是“只出不进”，出了门就甭想进来，最终有可能漏掉起重要作用的变量；逐步添加。先从一个自变量开始，再将显著变量逐个引入回归方程。这个方法有一个问题是，先期引入的自变量，随着其他变量的引人，其作用可能变得不显著了，但整个过程是“只进不出”，占了坑就不会再被撵出去，最终会引入作用不显著的自变量；逐步回归。可

4、以有效地克服上述三种方法的缺点，具有广泛的应用价值。这一节将介绍如何利用逐步回归建立最佳线性回归方程。14.3.1逐步回归的基本思想根据各个自变量重要性的大小，每次选一个重要自变量进入回归方程。先是在所有可供选择的自变量中选择一个，条件是由其所参与的一元回归方程有最大的回归平方和。然后在未选的自变量中再选择一个，条件是由这两个已选的自变量所组成的二元回归方程有更大的回归平方和。如此继续下去。一般地说，第t步是在未选的自变量中，选一个自变量与其他已经选择的自变量一起所组成t元回归方程，并使该方程有更大的回归平方和。为保证每一个选入回归方程的自变量是真正重要的，应该对每一个进入回归方程的自变量进行

5、显著性检验。不仅要按自变量的贡献大小逐一选出重要自变量，而且还要考虑较早选入回归方程的某些自变量，有可能随着其后另外一些自变量的选入而失去原有的重要性。这样的自变量应及时地从回归方程中剔除，使最终的回归方程只保留重要的自变量。上述思想是“有进有出”的。直到回归方程中的自变量都不能剔除，而又没有新的自变量引入回归方程为止。在逐步回归的计算中，不重要的自变量始终不会进入回归方程，无需解一个可能具有较大阶数的正规方程，计算效率的提高是显然的。更重要的是，当某个自变量与已经选入回归方程的自变量存在线性相关或近似线性相关时，其作用可以由与其相关或近似相关的自变量所代替，这时就不可能引入回归方程，由此可以

6、防止逐步回归计算过程中出现不稳定。14.3.2逐步回归实现步骤1建立正规方程正规方程为s11b1 + s12b2 + . +s1mbm = s1ys21b1 + s22b2 + . +s2mbm = s2y.sm1b1 + sm2b2 + . +smmbm = smy为了使计算有更好的数字效果，可以将上述正规方程修改为r11b*1 + r12b*2 + . +r1mb*m = r1yr21b*1 + r22b*2 + . +r2mb*m = r2y.rm1b*1 + rm2b*2 + . +rmmb*m = rmy式中rij是相关系数，有相关矩阵i,j = 1,2,.,m,y显然rii1。此外

7、，新方程的解bi*与原方程的解bi有如下关系：i = 1,2,.,m相关矩阵（rij）的逆矩阵（C*ij）与离差矩阵（sij）的逆矩阵（Cij）的关系为在逐步回归所出现的sij都可以用rij来代替。当然s*yy已被标准化（s*yy = ryy = 1）,因此新的残差平方和（Q*）、回归平方和（U*）、贡献（V*i）等值都与原值差一个比例因子syy，例如，Q = Q*syy。2自变量的剔除和引入假设已经到了k步，回归方程引进k个自变量，则第k+1步计算内容如下：算出全部贡献V*i(k) = (riy(k)2/rii(k) = Vi*(k+1)其中前一个等号可以理解为回归方程中剔除量xi所损失的贡

8、献，后一个等号为未引入自变量xi一旦引入所增加的贡献；在已引入的自变量中，考虑剔除可能存在的不显著量。这时在已引入的自变量中选出具有最小V*的那一个（比如，对已经选入的i有，V*t(k) = min V*i(k)），计算F值，F = (N k 1)V*t(k)/Q*(k)如果FF（F为临界值，在大样本的情况下，F随k的变化甚微，在逐步计算过程中可以认为F不变），则把xt从回归方程中剔除。如果F F，则考虑从未引入的自变量中选出最显著的量，即未引入量中具有最大V*的那一个（比如，对已经选入的i有，V*t(k+1) = max V*i(k+1)），计算F值，F = (N k 2) V*t(k+1)

9、/(Q*(k) V*t(k+1)如果F F，则把xt引入回归方程，否则逐步计算阶段结束，进入步骤3。消去运算对需要剔除或引进的xt作一次消去运算，分4种情况：当i = t, j t时，rij(k+1) = rtj(k)/rtt(k)当i t, j t时，rij(k+1) = rij(k) rit(k)rtj(k)/rtt(k)当 i = t, j = t时，rij(k+1) = 1/rtt(k)当 i t, j = t时，rij(k+1) = -rit(k)/rtt(k)已经进入回归方程的自变量xi，其回归系数b*i(k+1) = riy(k+1)，可由下式计算到此为止，第k+1步结束，然后再

10、重复上述步骤进行下一步计算。计算的每一步总是先考虑自变量的剔除，仅当不需剔除时才考虑引入。开头几步可能都是引入自变量，其后的某些步可能剔除几个自变量。在既无需剔除，也无法再引入自变量的情况下，逐步计算结束，转入求b0及残差等。3求b0及残差等假定是自变量的平均值，y为因变量的平均值，计算b0使用下面的公式残差的计算公式为14.3.3逐步回归实现说明逐步回归方程的自变量是逐个增加的，选取第k个自变量时，仅要求该自变量与前面已经选入的k-1个自变量配合起来有最小的残差平方和。最终选出的k个重要自变量不见得总是使残差平方和为最小，从理论上说，也许还能找到残差平方和为更小的k个自变量。但大量实际课题的

11、计算结果表明，在绝大多数情况下，这k个自变量就是所有k个自变量组合中具有最小残差平方和的那一个组合。由此可见，逐步回归确实是很有效的算法。在对各自变量贡献的显著性检验中，如果临界值F取得足够小，特别是F = 0，则全部自变量都会被选中。这时逐步回归退化为一般的多元线性回归。但是当自变量之间存在线性相关，以至正规方程出现病态，逐步回归计算将自动放弃一些无用的自变量，避免计算上的困难，这也是逐步回归优越的地方。在使用逐步回归时，被选中的自变量个数与给定的临界值F的大小有关。F取值越小，例如2甚至1，则被选中的自变量个数越多；F取值越大，例如6甚至9，则被选中的自变量个数越少。在观测数据的样本量比较

12、小时，F取值可以相对大一些，这样可以使被选中的自变量个数少一些，回归系数的精度能高一些。在实际运作时不妨给出不同的F值进行比较。对回归分析的结果要进行认真的分析，寻求其物理解释。例如，某产品的质量与温度有关，如果控制不好就会出现废品。但使用工厂观测数据作逐步回归分析，温度却被甩掉了。据此，可以有两种极端结论：回归分析错了；产品与温度无关。其实问题出在：在生产过程中已经对温度进行了严格的控制，温度变化的区间很小，对质量的作用没有表现出来。如果今后仍然如此，温度可以不作为质量因素存在于回归方程。如果想建立新的流水线，或更改工艺流程，这时需要回到实验室，在不断改变温度以及其他条件的情况下重新建立回归

13、方程。14.3.4逐步回归算法1程序组成在程序组成及表现形式方面，与多元线性回归类似。主要改变是在BAS模块modMethod，删除矩阵求逆和求系数等过程，增加了进行逐步回归的过程Strd。在14.3.3中曾多次提到临界值F，Strd将临界值F区分成F1 和F2，前者用于引入，后者用于剔除，分别简记为F1和F2，要求F1F2，否则可能导致上一步刚刚引入的变量在下一步中又被剔除，进进出出，循环不止。在实际应用时，常常使用F1 = F2，为了保险起见，程序自动用F1 + 10-8代替F1。Strd取得F1和F2是通过窗体frmCalculate，见图14-18。图14-18提供参数和显示结果的窗体

14、2程序代码（1）BAS模块modMethod逐步回归Option Explicitxy(1 To n, 1 To m+1)：观测数据，已知，n是观测次数，m是自变量个数F1：指定的F临界值，用于引入，已知F2：指定的F临界值，用于剔出，已知要求F1=F2。如果F1=F2=0，则引入除线性相关外的全部变量F：F检验值，计算结果L：选出的重要变量的个数，计算结果b(0 To m)：回归系数，计算结果Ti(1 To m)：各变量的t检验值，计算结果Public Sub Strd(xy() As Double, F1 As Double, F2 As Double, F As Double, _ L

15、 As Integer, b() As Single, Ti() As Single) Dim I As Integer, J As Integer, K As Integer Dim n As Integer, m As Integer, y As Integer Dim Imax As Integer, Imin As Integer Dim Ry12m As Double, Sy As Double, Syy As Double, V As Double Dim F12 As Double, K12 As Integer Dim Mx(1 To 101) As Double, Vx(1 To 101) As Double, Vyx(1 To 101) As Double Dim R(1 To 101, 1 To 101) As Double, Ri(1 To 101) As Do

展开阅读全文

在建立多元线性回归方程时

最新文档