《多重线性回归PPT课件》由会员分享,可在线阅读,更多相关《多重线性回归PPT课件(59页珍藏版)》请在金锄头文库上搜索。
1、主要内容主要内容1 多重线性回归模型简介多重线性回归模型简介2 回归系数的估计回归系数的估计3 多重回归的假设检验多重回归的假设检验4 评价回归方程的标准评价回归方程的标准5 自变量的筛选自变量的筛选6 多重线性回归的应用及其注意事项多重线性回归的应用及其注意事项 1某地某地13岁男童身高、体重、肺活量的实测数据岁男童身高、体重、肺活量的实测数据2问题身高、体重与肺活量有无线性关系?身高、体重与肺活量有无线性关系?用身高和体重预测肺活量有多高的精度?用身高和体重预测肺活量有多高的精度?单独用身高、或体重是否也能达到同样效果单独用身高、或体重是否也能达到同样效果?身高的贡献大,还是体重的贡献大?
2、身高的贡献大,还是体重的贡献大?3一、多重线性回归模型一、多重线性回归模型多重线性回归数学模型:多重线性回归数学模型:Y为因变量的实际观测值为因变量的实际观测值X1、X2、Xm为为m个自变量个自变量 为常数项为常数项 为总体偏回归系数为总体偏回归系数 为残差,为残差,Y的变化中不能用现有自变量解释的部分的变化中不能用现有自变量解释的部分4多重线性回归方程多重线性回归方程 b0为截距(intercept),又称常数(constant), 表示各自变量均为0时y的估计值 bj称为样本偏回归系数(partial regression coefficient), 表示在其他自变量固定不变的情况下,自变
3、量xj每改变一个单位时单独引起因变量y的平均改变量。 称为 y 的估计值或预测值(predicted value) 5举例根据某地根据某地29名名13岁男童的身高岁男童的身高x1(cm),体重,体重x2(kg)和肺活量和肺活量y(L)建立的回归方程为:建立的回归方程为: 当x1=150,x2=32时, 表示对所有身高为表示对所有身高为150cm,体重为,体重为32kg的的13岁男岁男童,估计平均肺活量为童,估计平均肺活量为1.9168(L)。6二、回归系数的估计最小二乘法最小二乘法(least square, LS)基本思想基本思想残差平方和残差平方和(sum of squares for r
4、esiduals)最小最小 7用偏导数方法可得出下列正规方程组8求解正规方程组得偏回归系数9标准化偏回归系数标准化偏回归系数(standardized partial regression coefficient) 无量纲, 越大说明相应的自变量xj 对y的贡献越大10例例20-1 总胆固醇和甘油三酯对空腹血糖的影响11三、多重回归的假设检验回归方程(模型)的检验回归方程(模型)的检验偏回归系数的检验偏回归系数的检验12模型检验模型检验方差分析法方差分析法确定系数法确定系数法13方差分析法方差分析法 变异分解1.总变异:2.引进回归以后的变异(剩余): 3.回归的贡献,回归平方和:14回归方程
5、检验的方差分析表 15检验步骤检验步骤1.建立假设,确定检验水准2.计算F值3.确定P值,得出结论16确定系数法 (coefficient of determination) 确定系数17R2可用于检验多元回归方程 H0:2=0;H1:20。检验统计量为:18 偏回归系数的假设检验偏回归系数的假设检验t检验检验H0: j =0;H1: j 0。19偏回归平方和法偏回归平方和法 偏回归平方和:是指将某自变量xj从回归方程中删除后所引起的回归平方和减少的量。20例例20-1 总胆固醇和甘油三酯对空腹血糖的影响模型检验结果21偏回归系数的偏回归系数的t检验结果检验结果22偏回归平方和法的检验结果偏回
6、归平方和法的检验结果F0.05,(1,37)=4.1123评价回归方程的标准评价回归方程的标准复相关系数复相关系数校正复相关系数校正复相关系数剩余标准差剩余标准差24复相关系数复相关系数(multiple correlation coefficient) 0R1R反映的是因变量与所有自变量的总的相关关系,当方程中自变量个数增加时,R总是增加的。当只有一个因变量y与一个自变量x时,R就等于y与x的简单相关系数之绝对值:R= | ryx |。根据R的大小判断方程的优劣时,结论总是自变量最多的方程最好,用R衡量方程的优劣是有缺陷的。25校正复相关系数Rad当有统计学意义的变量进入方程中,可使Rad增
7、加,而当无统计学意义的变量增加到方程中时, Rad反而减少。 Rad是衡量方程优劣的重要指标26 剩余标准差 剩余标准差 小则估计值与实测值接近,反之则估计值与实测值相差较大,它是反映回归方程精度的指标27自变量的筛选全面分析法前进法后退法逐步回归法28全面分析法(最优子集法)从所有可能的变量组合的回归方程中挑选最优者,即把所有包含1个、2个、直至全部k个自变量的回归方程都计算出来( ),挑选剩余标准差最小的。29前进法的基本思想选定一个标准。开始方程中没有自变量(常数项除外)按自变量对y的贡献大小由大到小依次挑选进入方程。每选入一个变量进入方程,则重新计算方程外各自变量对y的贡献。直到方程外
8、变量均达不到入选标准,没有自变量可被引入方程为止。30图示:前进法 计算lij、方程外的变量分别进入方程,计算SS回增加量增加最大者为XKXK进入方程显著对XK进行检验不显著结束31前进法Y,X1X2 X3 X4 X5第一步 建立5个方程 Y与x1 P1=0.015 Y与x2 P2=0.003 Y与x3 P3=0.026 Y与x4 P4=0.223 Y与x5 P5=0.665选入X2 方程中有一个变量32前进法第二步 建立4个方程 Y与X2,x1 P1=0.023 Y与x2 ,x3 P2=0.005 Y与x2 , x4 P3=0.223 Y与x2 , x5 P4=0.635选入X3 方程中有二
9、个变量 x2 ,x3 33前进法第三步 建立3个方程 Y与X2,X3,x1 P1=0.023 Y与X2,X3, x4 P2=0.000 Y与X2,X3, x5 P3=0.535选入X4 方程中有三个变量 X2,X3, x434前进法前进法考虑在剩余的考虑在剩余的X1、X5选入。选入。若若P有小于有小于0.05,继续考虑选入。,继续考虑选入。依次循环,直到方程外也选不入,计依次循环,直到方程外也选不入,计算停止,此时的方程为前进法的最优算停止,此时的方程为前进法的最优方程。方程。35后退法的基本思想选定一个标准开始所有变量均在方程中按自变量对y的贡献大小由小到大依次剔除变量。每剔除一个变量,则重
10、新计算方程内各自变量对y的贡献。直到方程内变量均达到入选标准,没有自变量可被剔除为止。36图示:后退法 变量全部进变量全部进入方程入方程方程内的变量分别剔方程内的变量分别剔除,计算除,计算SS回回减少量减少量,减少量最小者为,减少量最小者为Xk剔除剔除Xk显著显著对对XK进行检验进行检验不显著不显著不剔除不剔除Xk,结束结束37后退法Y,X1X2 X3 X4 X5第一步第一步 建立建立1个方程个方程 Y与与X1 ,X2,X3,X4 ,X5 38后退法第二步第二步 建立建立5个方程个方程(考虑剔除)(考虑剔除) Y与与X1 ,X2,X3,X4 无无X5所损失所损失 P1=0.723 Y与与X1
11、,X2,X3,X5 无无X4所损失所损失 P2=0.005 Y与与X1 ,X2,X4 ,X5 无无X3所损失所损失 P3=0.123 Y与与X1 ,X3,X4 ,X5 无无X2所损失所损失 P4=0.035Y与与X2,X3,X4 ,X5 无无X1所损失所损失 P4=0.53539后退法第三步第三步 建立建立4个方程个方程(考虑剔除)(考虑剔除) Y与与X1 ,X2,X3 无无X4所损失所损失 P1=0.003 Y与与X1 ,X2,X4 无无X3所损失所损失 P2=0.005 Y与与X1 ,X3,X4 无无X2所损失所损失 P4=0.035 Y与与X2,X3,X4 无无X1所损失所损失 P4=0
12、.53540后退法第四步 建立3个方程(考虑剔除) Y与X2,X3 无X4所损失 P1=0.003 Y与X2,X4 无X3所损失 P2=0.002 Y与X3,X4 无X2所损失 P3=0.00541后退法后退法若若P都小于都小于0.05,不能剔除,直到方程,不能剔除,直到方程内剔不出,计算停止,此时的方程为内剔不出,计算停止,此时的方程为后退法的最优方程。后退法的最优方程。42逐步回归将自变量逐个地引入方程,引入的条件是该自变量的偏回归平方和在未选入的自变量中是最大的,并F检验具有显著意义。另一方面,每引入一个新变量,要对先前选入方程的自变量逐个进行F检验,将偏回归平方和最小且无显著性的自变量
13、剔出方程,直到方程外的自变量不能再引入,方程内的自变量不能再剔除。43图示:逐步回归过程 计算计算lij、方程外的变量分别进方程外的变量分别进入方程,计算入方程,计算SS回回增增加量增加最大者为加量增加最大者为XKXK进入方程进入方程步数步数2方程内的变量分别剔方程内的变量分别剔除,计算除,计算SS回回减少量减少量,减少量最小者为,减少量最小者为XS对对XS检验检验剔除剔除XS显著显著不显著不显著显著显著对对XK进行检验进行检验不显著不显著结束结束是是否否44前进法逐步回归Y,X1X2 X3 X4 X5第一步第一步 建立建立5个方程个方程 Y与与x1 P1=0.015 Y与与x2 P2=0.0
14、03 Y与与x3 P3=0.026 Y与与x4 P4=0.223 Y与与x5 P5=0.665选入选入X2 方程中有一个变量方程中有一个变量45前进法逐步回归第二步第二步 建立建立4个方程个方程 Y与与X2,x1 P1=0.023 Y与与x2 ,x3 P2=0.005 Y与与x2 , x4 P3=0.223 Y与与x2 , x5 P4=0.635选入选入X3 方程中有二个变量方程中有二个变量 x2 ,x3 46前进法逐步回归第三步第三步 建立建立3个方程个方程 Y与与X2,X3,x1 P1=0.023 Y与与X2,X3, x4 p2=0.000 Y与与X2,X3, x5 p3=0.535选入选
15、入X4 方程中有三个变量方程中有三个变量 X2,X3, x447前进法逐步回归第四步第四步 建立建立3个方程个方程(考虑剔除)(考虑剔除) Y与与X2,X3 无无X4所损失所损失 P1=0.003 Y与与X2,X4 无无X3所损失所损失 P2=0.002 Y与与X3,X4 无无X2所损失所损失 P3=0.25048前进法逐步回归此时此时P3大于大于0.05,则剔除变量则剔除变量X2,然后,然后考虑在剩余的考虑在剩余的X1、X5选入。选入。若若P都小于都小于0.05,继续考虑选入。继续考虑选入。依次循环,直到方程内剔不出,方程依次循环,直到方程内剔不出,方程外也选不入,计算停止,此时的方程外也选
16、不入,计算停止,此时的方程为前进法的最优方程。为前进法的最优方程。49后退法逐步回归开开始始时时全全部部因因素素都都引引入入模模型型,然然后后分分别别剔剔除除各各因因素素,比比较较值值最最大大者者,经经检检验验,如如没没有有显显著著性性,首首先先剔剔除除。再再分分别别考考虑虑剔剔除除还还在在模模型型内内的的各各因因素素,如如果果值值最最大大者者经经检检验验,没没有有显显著著性性,再再剔剔除除。直直到到模模型型内内的的因因素素均均不不能能剔剔除除为为止止。再再考考虑虑模模型型外外的的各各因因素素,分分别别引引入入模模型型,经经检检验验,具具有有显显著著性性者者再再引引入入。直直到到模模型型内内的
17、的因因素素都都具具有有显显著著性性,都都不不能能剔剔除除,而而模模型型外外的的因因素素都都不不具具有有显显著著性性,不能引入,则得到最后的模型。不能引入,则得到最后的模型。50后退法逐步回归Y,X1X2 X3 X4 X5第一步第一步 建立建立1个方程个方程 Y与与X1 ,X2,X3,X4 ,X5 51后退法逐步回归第二步第二步 建立建立5个方程个方程(考虑剔除)(考虑剔除) Y与与X1 ,X2,X3,X4 无无X5所损失所损失 P1=0.723 Y与与X1 ,X2,X3,X5 无无X4所损失所损失 P2=0.005 Y与与X1 ,X2,X4 ,X5 无无X3所损失所损失 P3=0.123 Y与
18、与X1 ,X3,X4 ,X5 无无X2所损失所损失 P4=0.035Y与与X2,X3,X4 ,X5 无无X1所损失所损失 P4=0.53552后退法逐步回归第三步第三步 建立建立4个方程个方程(考虑剔除)(考虑剔除) Y与与X1 ,X2,X3 无无X4所损失所损失 P1=0.003 Y与与X1 ,X2,X4 无无X3所损失所损失 P2=0.005 Y与与X1 ,X3,X4 无无X2所损失所损失 P4=0.035 Y与与X2,X3,X4 无无X1所损失所损失 P4=0.53553后退法逐步回归第四步第四步 建立建立3个方程个方程(考虑剔除)(考虑剔除) Y与与X2,X3 无无X4所损失所损失 P
19、1=0.003 Y与与X2,X4 无无X3所损失所损失 P2=0.002 Y与与X3,X4 无无X2所损失所损失 P3=0.00554后退法逐步回归若若P都小于都小于0.05,不能剔除,则考虑考不能剔除,则考虑考虑选入变量。若有虑选入变量。若有P大于大于0.05,则继续则继续剔除,然后选入。剔除,然后选入。依次循环,直到方程内剔不出,方程依次循环,直到方程内剔不出,方程外也选不入,计算停止,此时的方程外也选不入,计算停止,此时的方程为后退法的最优方程。为后退法的最优方程。55方法的比较欲求到最优方程,应用最优子集法。但计算工作欲求到最优方程,应用最优子集法。但计算工作量太大。量太大。前进法能得
20、到哪个因素的单个作用大,有时漏掉前进法能得到哪个因素的单个作用大,有时漏掉单个作用小,而交互作用大的变量。单个作用小,而交互作用大的变量。后退法能得不到哪个因素的单个作用大,不会漏后退法能得不到哪个因素的单个作用大,不会漏掉单个作用小,而交互作用大的变量。当变量间掉单个作用小,而交互作用大的变量。当变量间关联性强时,有时可能得不到方程。关联性强时,有时可能得不到方程。56分类变量数值化1.两分类2.多分类57多重线性回归的应用1. 研究多个因素对某变量(指标)的影响,要求这些因素与该变量的关系是线性的。2. 用多重线性回归来实现控制一些混杂因素,如校正基线、年龄和性别等。但本法只是一种简单的线性校正混杂因素方法。58多重线性回归的注意事项1. 用逐步回归分析或最优子集分析,其最终模型中的自变量可以认为与应变量相关。但未引入模但未引入模型的变量不能轻易地认为与应变量无关型的变量不能轻易地认为与应变量无关,因为很可能它们与应变量的相关性较弱或与其它自变量相关,以致未能作为主要的影响因素模型。2. 对于实验性研究的统计分析,一般不应作逐步回归。3. 如果用多重线性回归寻找最佳预测模型,则应作残差分析,即考察各个自变量与残差之间是否存在明显的趋势变化。59