文档详情

1.2自变量选择与逐步回归ppt课件

hs****ma
实名认证
店铺
PPT
310.50KB
约43页
文档ID:579642766
1.2自变量选择与逐步回归ppt课件_第1页
1/43

第第5章章 自变量选择与逐步回归自变量选择与逐步回归信计学院统计系信计学院统计系 沈菊红沈菊红1 第第5章章 自变量选择与逐步回归自变量选择与逐步回归自自变量量选择对估估计和和预测的影响的影响自自变量量选择的准的准则逐步回逐步回归 •前前进法法 •后退法后退法 •逐步回逐步回归法法2 说说 明明我们在建立回归模型时,首要问题是如何确定回归自我们在建立回归模型时,首要问题是如何确定回归自变量如果遗漏了某些重要的变量,回归方程的效果变量如果遗漏了某些重要的变量,回归方程的效果肯定不会好;如果考虑过多的自变量,在这些变量中,肯定不会好;如果考虑过多的自变量,在这些变量中,某些变量可能和其他变量有很大程度的重叠这样的某些变量可能和其他变量有很大程度的重叠这样的话,会增大计算量,回归方程稳定性也很差,并且直话,会增大计算量,回归方程稳定性也很差,并且直接影响回归方程的应用接影响回归方程的应用3 一一 自变量选择对估计和预测的影响自变量选择对估计和预测的影响1.全模型和选模型全模型和选模型2.设对因变量有影响的因素共有设对因变量有影响的因素共有m个,由个,由因变量因变量y3.和和m个自变量个自变量 构成的回归构成的回归模型为模型为(5.1)称模型称模型(5.1)为全模型。

为全模型如果从所有可供选择的如果从所有可供选择的m个变量中挑选出个变量中挑选出p个,记个,记为为 ,由所选的,由所选的p个自变量组成的回归模个自变量组成的回归模型为型为(5.2)4 相对全模型而言,称相对全模型而言,称(5.2)式为选模型式为选模型 自变量的选择问题可以看成是对一个实际问题自变量的选择问题可以看成是对一个实际问题是用是用(5.1)式全模型还是用式全模型还是用(5.2)式选模型去描述式选模型去描述 模型选择不当会给参数估计和预测带来不良影模型选择不当会给参数估计和预测带来不良影响为了方便,把模型响为了方便,把模型(5.1)式的参数向量式的参数向量 和和 记为记为5 把模型把模型(5.2)式的参数向量式的参数向量 和和 记为记为6 2 自变量选择对预测的影响自变量选择对预测的影响全模型与选模型全模型与选模型全模型正确,误用选模型全模型正确,误用选模型选模型正确,误用全模型选模型正确,误用全模型所有m个变量m个变量中选择p个变量7 全模型正确,误用选模型的情况全模型正确,误用选模型的情况选模型回归系数的选模型回归系数的OLS是全模型相应参是全模型相应参数的有偏估计数的有偏估计选模型的预测有偏选模型的预测有偏8 全模型正确,误用选模型的情况全模型正确,误用选模型的情况选模型的参数估计方差较小选模型的参数估计方差较小选模型的预测残差方差较小选模型的预测残差方差较小9 全模型正确,误用选模型的情况全模型正确,误用选模型的情况在 条件下,选模型预测的均方误差比全模型预测的方差小全模型估计10 2 自变量选择对预测的影响自变量选择对预测的影响全模型正确而全模型正确而误用用选模型的情况模型的情况• 当全模型正确当全模型正确时,而我,而我们舍去了舍去了m-p个自个自变量,量,用剩下的用剩下的p个自个自变量去建立量去建立选模型,参数估模型,参数估计值是是全模型相全模型相应参数的有偏估参数的有偏估计,用其作,用其作预测,,预测值也是有偏的;也是有偏的;• 用用选模型作模型作预测,残差的方差比用全模型去作,残差的方差比用全模型去作预测的方差小;的方差小;• 即使全模型正确,但如果其中有一些自即使全模型正确,但如果其中有一些自变量量对因因变量影响量影响较小或回小或回归系数方差系数方差过大,我大,我们丢掉掉这些些变量后,用量后,用选模型去模型去预测,可以提高,可以提高预测的精度。

的精度11 选模型正确,误用全模型的情况选模型正确,误用全模型的情况全模型的预测值是有偏估计全模型的预测值是有偏估计从预测方差的角度看,选模型的预测方从预测方差的角度看,选模型的预测方差小于全模型的预测方差差小于全模型的预测方差12 从均方预测误差的角度看,选模型的均方从均方预测误差的角度看,选模型的均方 预测误差小于全模型的均方预测误差预测误差小于全模型的均方预测误差13 2 自变量选择对预测的影响自变量选择对预测的影响选模型正确而模型正确而误用全模型的情况用全模型的情况 • 如果如果选模型正确,从无偏性的角度看,模型正确,从无偏性的角度看,选模型的模型的 预测值 是因是因变量新量新值 的无偏估的无偏估计,,而全模型而全模型的的预测值 是是 的有偏估的有偏估计;;• 从从预测方差的角度看,方差的角度看,选模型的模型的预测方差方差小于全小于全模型的模型的预测方差;方差;• 从均方从均方预测误差的角度看,全模型的差的角度看,全模型的预测误差大差大于于选模型的模型的预测误差14 选择自变量的基本指导思想是:少而精选择自变量的基本指导思想是:少而精剔除可有可无的自变量。

以估计量的有剔除可有可无的自变量以估计量的有偏性为代价,用选模型估计的保留变量偏性为代价,用选模型估计的保留变量的回归系数的方差小,对于所预测的因的回归系数的方差小,对于所预测的因变量的方差也小变量的方差也小15 二二 所有子集回归所有子集回归选模型的个数残差平方和最小?复决定系数最大?变量越多越好16 选择回归子集的准则选择回归子集的准则自由度调整复决定系数达到最大;自由度调整复决定系数达到最大; 回归误差项方差估计〔残差均方〕最小:回归误差项方差估计〔残差均方〕最小:17 什么是自由度什么是自由度模型中模型中样本本值可以自由可以自由变动的个数,称的个数,称为自由度自由度自由度自由度 = 样本个数本个数 — 样本数据受本数据受约束束条件条件(方程方程)的个数的个数例如,例如,样本数据个数本数据个数为n,它,它们受受k个方个方程的程的约束〔系数矩束〔系数矩阵秩秩为k),那么,自),那么,自由度由度df = n-k18 举例举例:SST、、SSR、、SSE的自由度的自由度19 对应于平方和分解的自由度的分解SST = SSR + SSE n-1 1 n-2总自由度总自由度dfT 回归自由度回归自由度dfR 残差自由度残差自由度dfE 自由度分解:自由度分解:dfT= dfE +dfR20 选择回归子集的准则选择回归子集的准则w赤池信息量赤池信息量AIC最小:根据极大似然估计原理最小:根据极大似然估计原理w正态经典回归模型的选择正态经典回归模型的选择反映回归方程的拟合精度反映回归方程的拟合精度模型复杂度模型复杂度21 选择回归子集的准则选择回归子集的准则wCP统计量最小统计量最小(mallows,,1964)w从预测角度提出:预测误差最小从预测角度提出:预测误差最小22 三三 逐步回归逐步回归在多元线性回归分析中,并不是所有自变量对因在多元线性回归分析中,并不是所有自变量对因变量有显著的影响。

变量有显著的影响问题:如何挑选出对因变量有显著影响的自变量问题:如何挑选出对因变量有显著影响的自变量?? 变量的所有可能子集构成变量的所有可能子集构成 个回归方程,当个回归方程,当自变量个数较多时,要求出所有可能的回归方程自变量个数较多时,要求出所有可能的回归方程是非常困难的是非常困难的 23 三、三、 逐步回归逐步回归w前进法前进法:少到多少到多w后退法后退法:多到少多到少w逐步回归逐步回归剔除xj 后回归平方和24 前进法前进法:少到多少到多w1.建立建立m个一元线性回归方程,取最大的个一元线性回归方程,取最大的则Xj进入方程一元25 前进法前进法:少到多少到多w2.建立建立m-1个二元线性回归方程,取最大的个二元线性回归方程,取最大的w直到所有未引入方程的自变量直到所有未引入方程的自变量F值均小于值均小于w 则Xj进入方程二元为止26 例题分析例题分析输出结果输出结果5.327 28 从输出结果中看到,前进法依次引入了变量从输出结果中看到,前进法依次引入了变量 ,最优回归模型为,最优回归模型为29 这是全模型的复决定系数表,比较它和选模型的复这是全模型的复决定系数表,比较它和选模型的复决定系数。

决定系数30 后退法后退法(与前进法相反与前进法相反) :多到少:多到少w1.用全部用全部m个变量建立一个回归方程,对个变量建立一个回归方程,对m个个回归系数进行回归系数进行F检验,取最小的检验,取最小的则Xj 剔出方程m元31 后退法:多到少后退法:多到少w2.对剩下的对剩下的m-1个自变量建立回归方程,取最小的个自变量建立回归方程,取最小的w直到方程中所剩余的自变量直到方程中所剩余的自变量F值均大于值均大于w 则Xj进入方程m-1元为止32 例题分析例题分析输出结果输出结果5.4 【例【例5.4】】 对例对例3.1国际旅游外汇收入国际旅游外汇收入y关于第三产业关于第三产业的的12个变量作回归的数据,用后退法做变量选择,取个变量作回归的数据,用后退法做变量选择,取33 34 Coefficients35 由输出结果看到:模型由输出结果看到:模型1是全模型,从模型是全模型,从模型2至模型至模型8依次剔除变量依次剔除变量 ,最优回归子集,最优回归子集模型模型8的回归方程为的回归方程为复决定系数复决定系数 ,而全模型的复决,而全模型的复决定系数定系数 36 逐步回归:有进有出逐步回归:有进有出前进法和后退法的不足〔自变量间相关时):前进法和后退法的不足〔自变量间相关时):前者:只考虑引进,不考虑剔除前者:只考虑引进,不考虑剔除后者:一旦剔除一棍子打死后者:一旦剔除一棍子打死引入一个自变量后,对已选入的自变量逐个检引入一个自变量后,对已选入的自变量逐个检查,保证每次引入前方程只包含显著变量查,保证每次引入前方程只包含显著变量引入自变量的显著性水平低于剔除自变量的显引入自变量的显著性水平低于剔除自变量的显著性水平著性水平 :避免死循环:避免死循环37 逐步回归法逐步回归法逐步回归的基本思想是有进有出。

逐步回归的基本思想是有进有出具体做法是将变量一个一个引入,当每引入一个具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除引入一个变量或从回归方程著时,要将其剔除引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都中剔除一个变量,为逐步回归的一步,每一步都要进行要进行F检验,以确保每次引入新的变量之前回归检验,以确保每次引入新的变量之前回归方程中只包含显著的变量方程中只包含显著的变量38 此过程反复进行,直到即无显著的自变量选入此过程反复进行,直到即无显著的自变量选入回归方程,也无不显著自变量从方程中剔除为回归方程,也无不显著自变量从方程中剔除为止逐步回归法避免了前进法和后退法各自的缺陷,逐步回归法避免了前进法和后退法各自的缺陷,保证了最后所得的回归子集是最优回归子集保证了最后所得的回归子集是最优回归子集39 例题分析例题分析【续例【续例5.4】用逐步回归法作变量选择,取】用逐步回归法作变量选择,取Model SummaryModelRR SquareAdjusted R SquareStd. Error of the Estimate10.7410.5490.533455.92820.8350.6970.675380.44030.8600.7390.710359.33540.8850.7830.749334.04450.9080.8240.789306.83960.9010.8120.783310.91070.8890.7910.768321.507输出结果输出结果5.540 ANOVAModel Sum of SquaresdfMean SquareFSig.1Regression7,329,802.217,329,802.235.2610.000Residual6,028,236.529207,870.22    Total13,358,03930      2Regression9,305,460.224,652,730.132.1470.000Residual4,052,578.428144,734.94    Total13,358,03930      3Regression9,871,760.233,290,586.725.4840.000Residual3,486,278.627129,121.43    Total13,358,03930      4Regression10,456,82042,614,204.923.4280.000Residual2,901,218.926111,585.34    Total13,358,03930      5Regression11,004,290.52,200,858.123.3760.000Residual2,353,748.22594,149.928    Total13,358,03930      6Regression10,844,74542,711,186.328.0470.000Residual2,513,293.42696,665.129    Total13,358,03930      7Regression10,567,12833,522,376.134.0760.000Residual2,790,910.527103,367.06    Total13,358,03930      41 Model Unstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1 (Constant)-209.535124.469  -1.6830.103X76.9071.1630.7415.9380.0002 (Constant)-96.142108.300  -0.8880.382X713.7912.1011.4796.5640.000X4-2.5200.682-0.832-3.6950.0013 (Constant)-174.886108.984  -1.6050.120X711.1522.3511.1964.7440.000X4-2.0340.685-0.672-2.9700.006X1010.7615.1390.2602.0940.0464 (Constant)-228.815104.015  -2.2000.037X78.7862.4170.9423.6350.001X4-3.2610.832-1.077-3.9190.001X1013.8644.9650.3352.7920.010X32.8491.2440.6472.2900.0305 (Constant)-140.625102.304  -1.3750.181X73.9103.0030.4191.3020.205X4-1.9970.927-0.660-2.1540.041X1018.4314.9390.4463.7320.001X35.0901.4731.1573.4550.002X11-7.4423.086-0.551-2.4110.024Coefficients42 续前表续前表(Constant)-127.159103.130  -1.2330.229X4-1.2890.761-0.426-1.6950.102x1022.6503.7760.5485.9980.000x36.3751.1081.4485.7530.000x11-10.1482.312-0.751-4.3980.000(Constant)-117.497106.482  -1.1030.280x1021.4793.8390.5195.5950.000x34.9750.7641.1306.5160.000x11-11.2642.292-0.834-4.9160.000从本例逐步回归的选元过程可以看出逐步回归方法的有进有出从本例逐步回归的选元过程可以看出逐步回归方法的有进有出的思想,在第一步引入的的思想,在第一步引入的 在第六步又被剔除了;同样,在第在第六步又被剔除了;同样,在第二步引入的二步引入的 在第七步被剔除了。

该结果说明自变量间具有相在第七步被剔除了该结果说明自变量间具有相关性;自变量之间的相关性程度严重时称为多重共线性关性;自变量之间的相关性程度严重时称为多重共线性。

下载提示
相似文档
正为您匹配相似的精品文档