《多重线性回归分析》PPT课件

上传人:xian****812 文档编号:288428403 上传时间:2022-05-05 格式:PPT 页数:62 大小:396KB
返回 下载 相关 举报
《多重线性回归分析》PPT课件_第1页
第1页 / 共62页
《多重线性回归分析》PPT课件_第2页
第2页 / 共62页
《多重线性回归分析》PPT课件_第3页
第3页 / 共62页
《多重线性回归分析》PPT课件_第4页
第4页 / 共62页
《多重线性回归分析》PPT课件_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《《多重线性回归分析》PPT课件》由会员分享,可在线阅读,更多相关《《多重线性回归分析》PPT课件(62页珍藏版)》请在金锄头文库上搜索。

1、第十一章第十一章多重线性回归分析多重线性回归分析2内内 容容 基本原理基本原理 方法简介方法简介 分析步骤分析步骤 几点补充几点补充3一、方法简介一、方法简介 1.1 分析目的与方法选择分析目的与方法选择 研究一个因变量与一个自变量间的线性关系时研究一个因变量与一个自变量间的线性关系时 简单线性回归分析简单线性回归分析 研究一个因变量与多个自变量间的线性关系时研究一个因变量与多个自变量间的线性关系时 多重线性回归分析多重线性回归分析4一、方法简介一、方法简介1.2 概念概念 用回归方程用回归方程定量地刻画一个因变量与多个自定量地刻画一个因变量与多个自变量之间的线性依存关系变量之间的线性依存关系

2、,称为多重线性回归分,称为多重线性回归分析(析(multiple linear regression analysis)。)。 自变量是相互独立的连续型变量或分类变量。自变量是相互独立的连续型变量或分类变量。 一、方法简介一、方法简介1.3 数据结构数据结构 表表1 进行多重线性回归分析资料的数据结构进行多重线性回归分析资料的数据结构5编号编号X1X2XkY1X11X12X1kY12X21X22X2kY2:nXn1Xn2XnkYn6二、基本原理二、基本原理 2.1 原理简介原理简介 多重线性回归模型:多重线性回归模型: Y=bb0+bb1X1+bb2X2+bbkXk+ee=bbX+ee 其中,

3、其中,bbj (j=0, 1 , 2 , k)为未知参数,为未知参数,ee为随机误差项。为随机误差项。7二、基本原理二、基本原理 多重线性回归模型中包含多个自变量,多重线性回归模型中包含多个自变量,它们同时对因变量它们同时对因变量Y 发生作用。发生作用。 若要考察一个自变量对若要考察一个自变量对Y 的影响,就必的影响,就必须假设其他自变量保持不变。须假设其他自变量保持不变。 因此,多重线性回归模型中的回归系数因此,多重线性回归模型中的回归系数为为偏回归系数偏回归系数。 它反映的是当模型中的它反映的是当模型中的其他自变量不变其他自变量不变时时,其中,其中一个自变量对因变量一个自变量对因变量Y 的

4、均值的影的均值的影响响。8二、基本原理二、基本原理 2.2 前提条件前提条件 多重线性回归分析要求资料满足线性多重线性回归分析要求资料满足线性(Linear)、独立性独立性(Independence)、正态性、正态性(Normality)和方差和方差齐性齐性(Equal variance),即,即LINE条件条件。 除此之外,还要求多个自变量之间相关性不除此之外,还要求多个自变量之间相关性不要太强。要太强。 9二、基本原理二、基本原理 2.2 前提条件前提条件线性线性指自变量与因变量之间的关系是线性的指自变量与因变量之间的关系是线性的独立性独立性指各观测值之间是相互独立的指各观测值之间是相互独

5、立的正态性正态性指自变量取不同值时,因变量服从正指自变量取不同值时,因变量服从正 态分布态分布方差齐性方差齐性指自变量取不同值时,因变量的方指自变量取不同值时,因变量的方 差相等差相等 10三、分析步骤三、分析步骤1. 基本任务基本任务 求出模型中参数的估计值,对模型和参数进求出模型中参数的估计值,对模型和参数进行假设检验;行假设检验; 对自变量进行共线性诊断,对观测值进行异对自变量进行共线性诊断,对观测值进行异常值诊断;常值诊断; 结合统计学知识和专业知识,对回归方程进结合统计学知识和专业知识,对回归方程进行合理的解释,并加以应用。行合理的解释,并加以应用。 11三、分析步骤三、分析步骤2.

6、 具体步骤具体步骤2.1 回归参数估计回归参数估计 多重线性回归分析的参数估计,常采用最小多重线性回归分析的参数估计,常采用最小二乘法二乘法(OLS)进行。进行。 参数估计值为:参数估计值为:12三、分析步骤三、分析步骤2. 具体步骤具体步骤2.2 模型检验模型检验 根据方差分析的思想,将总的离均差平方和根据方差分析的思想,将总的离均差平方和SS总总分解为回归平方和分解为回归平方和SS回回和残差平方和和残差平方和SS残残两部两部分。分。 SS总总的自由度为的自由度为n-1, SS回回的自由度为的自由度为k, SS残残的自由度为的自由度为n-k-1。SS总总= SS回归回归+ SS残差残差SSS

7、S总总总总( (总平方和总平方和总平方和总平方和) )v v总总总总= =n n-1-1SSSS回归回归回归回归( (回归平方和回归平方和回归平方和回归平方和) )v v回归回归回归回归=1=1SSSS残差残差残差残差( (残差平方和残差平方和残差平方和残差平方和) )v v残差残差残差残差= =n n- -p p-1 -1 v总总= v回归回归+ v残差残差自变量的个数自变量的个数14三、分析步骤三、分析步骤2. 具体步骤具体步骤2.2 模型检验模型检验 模型的显著性检验步骤为:模型的显著性检验步骤为: 第一步,建立检验假设。第一步,建立检验假设。 H0:bb1=bb2= =bbk=0 H1

8、: bb1, b b2, , b bk不同时为不同时为015三、分析步骤三、分析步骤第二步,计算统计量第二步,计算统计量F的值。的值。第三步,确定第三步,确定P值,下统计学结论。值,下统计学结论。 根据检验统计量根据检验统计量F的值和自由度,确定其对的值和自由度,确定其对应的应的P值。若值。若Pa a,则接受,则接受H0,认为回归模型的系,认为回归模型的系数全部为数全部为0;若;若P ta a/2(n-k-1)或或t - ta a/2(n-k-1),则,则Pa a。此。此时,拒绝时,拒绝H0,接受,接受H1,认为该回归系数不等于,认为该回归系数不等于0。反之,则接受反之,则接受H0,认为该回归

9、系数为,认为该回归系数为0。19三、分析步骤三、分析步骤2. 具体步骤具体步骤2.4 变量筛选变量筛选 不是所有的自变量都对因变量的作用都有统不是所有的自变量都对因变量的作用都有统计学意义。计学意义。 故需要找到一个较好的回归方程,使之满足:故需要找到一个较好的回归方程,使之满足:方程内的自变量对回归都有统计学意义,方程外方程内的自变量对回归都有统计学意义,方程外的自变量对回归都无统计学意义。的自变量对回归都无统计学意义。20三、分析步骤三、分析步骤 这就是自变量的选择问题,或称为变量筛选。这就是自变量的选择问题,或称为变量筛选。选择时,选择时, 一要尽可能地一要尽可能地不漏掉不漏掉重要的自变

10、量;重要的自变量; 二要二要尽可能地减少尽可能地减少自变量的个数,保持模型的精简。自变量的个数,保持模型的精简。 就回归方程而言,每个变量均有两种可能性,就回归方程而言,每个变量均有两种可能性,即被选择或被踢除。所以,所有可能的模型有即被选择或被踢除。所以,所有可能的模型有2k个个(k为自变量个数为自变量个数)。 自变量个数较多时,计算量过大。此时,需要自变量个数较多时,计算量过大。此时,需要一定的变量筛选方法。一定的变量筛选方法。 全局择优法全局择优法变量筛选变量筛选 逐步选择法逐步选择法校正决定系数校正决定系数R2选择法选择法Cp选择法选择法前进法前进法 后退法后退法逐步回归法逐步回归法c

11、22三、分析步骤三、分析步骤2.4.1 前进法前进法(FORWARD) 回归方程中变量回归方程中变量从无到有从无到有依次选择一个自变依次选择一个自变量进入回归方程,并根据该变量在回归方程中的量进入回归方程,并根据该变量在回归方程中的型离差平方和型离差平方和(SS2)计算计算F统计量及统计量及P值。值。 当当P小于小于sle (规定的选变量进入方程的临界水规定的选变量进入方程的临界水平平)则该变量入选,否则不能入选。则该变量入选,否则不能入选。 23三、分析步骤三、分析步骤 当回归方程中变量少时某变量不符合入选标当回归方程中变量少时某变量不符合入选标准,但随着回归方程中变量逐次增多时准,但随着回

12、归方程中变量逐次增多时,该变量就该变量就可能符合入选标准;这样直到没有变量可入选为可能符合入选标准;这样直到没有变量可入选为止。止。 具体而言,是从仅含常数项具体而言,是从仅含常数项(即截距项即截距项)的最的最简单模型开始,逐步在模型中添加自变量。简单模型开始,逐步在模型中添加自变量。 24三、分析步骤三、分析步骤 局限性:局限性: sle取值小时,可能没有一个变量能入选;取值小时,可能没有一个变量能入选; sle取值大时,开始选入的变量后来在新条件取值大时,开始选入的变量后来在新条件下不再进行检验,因而不能剔除后来变得无统计下不再进行检验,因而不能剔除后来变得无统计学意义的变量。学意义的变量

13、。 25三、分析步骤三、分析步骤2.4.2 后退法后退法(BACKWARD) 从模型中包含全部自变量开始,计算留在回从模型中包含全部自变量开始,计算留在回归方程中的各个自变量所产生的归方程中的各个自变量所产生的F统计量和统计量和P值,值,当当P值小于值小于sls(规定的从方程中踢除变量的临界水规定的从方程中踢除变量的临界水准准)则将此变量保留在方程中。则将此变量保留在方程中。 否则,从最大的否则,从最大的P值所对应的自变量开始逐一值所对应的自变量开始逐一踢除,直到回归方程中没有变量可以被踢除时为踢除,直到回归方程中没有变量可以被踢除时为止。止。 26三、分析步骤三、分析步骤 局限性:局限性:

14、sls大时,任何一个自变量都不能被踢除;大时,任何一个自变量都不能被踢除; sls小时,开始被踢除的自变量后来在新条件小时,开始被踢除的自变量后来在新条件下即使变得对因变量有较大的贡献了,也不能再下即使变得对因变量有较大的贡献了,也不能再次被选入回归方程并参与检验。次被选入回归方程并参与检验。 27三、分析步骤三、分析步骤2.4.3 逐步回归法逐步回归法(STEPWISE) 此法是前进法和后退法的结合。此法是前进法和后退法的结合。 回归方程中的变量从无到有像前进法那样,回归方程中的变量从无到有像前进法那样,根据根据F统计量和统计量和P值大小按值大小按sle水平决定该自变量是水平决定该自变量是否

15、入选。否入选。 28三、分析步骤三、分析步骤 当回归方程选入自变量后,又像后退法那样,当回归方程选入自变量后,又像后退法那样,根据根据F统计量和统计量和P值按值按sls水平踢除无统计学意义的水平踢除无统计学意义的各自变量,依次类推。各自变量,依次类推。 这样直到没有自变量可入选,也没有自变量这样直到没有自变量可入选,也没有自变量可被踢除或入选的自变量就是刚被剔除的自变量可被踢除或入选的自变量就是刚被剔除的自变量时,则停止逐步筛选过程。时,则停止逐步筛选过程。 29三、分析步骤三、分析步骤2.4.3 逐步回归法逐步回归法 逐步回归法逐步回归法有无符合纳入有无符合纳入标准的新变量标准的新变量纳入新

16、变量纳入新变量有无符合排除有无符合排除标准的变量标准的变量踢除踢除完成完成无无有有无无有有30三、分析步骤三、分析步骤 逐步回归法比前进法和后退法都能更好地选出变逐步回归法比前进法和后退法都能更好地选出变量构造模型,但它也有局限性:量构造模型,但它也有局限性: 其一,当有其一,当有m个变量入选后,选第个变量入选后,选第m1个变个变量时,对它来说,前量时,对它来说,前m个变量不一定是最佳组合;个变量不一定是最佳组合; 其二,选入或踢除自变量仅以其二,选入或踢除自变量仅以F值和值和P值作标值作标准,完全没考虑其它标准。准,完全没考虑其它标准。 31三、分析步骤三、分析步骤2.4.4 变量筛选方法的选择变量筛选方法的选择 究竟哪一种筛选变量的方法最好?这个问题究竟哪一种筛选变量的方法最好?这个问题没有绝对的定论。没有绝对的定论。 一般来说,逐步回归法和最优回归子集法较一般来说,逐步回归法和最优回归子集法较好。对于一个给定的资料,可好。对于一个给定的资料,可试用多种变量筛选试用多种变量筛选的方法的方法,结合以下几条判断原则,从中选择最佳,结合以下几条判断原则,从中选择最佳者。者。32三、分析步

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号