(精品课件)医学统计学12.多元线性回归分析

上传人:汽*** 文档编号:571636200 上传时间:2024-08-11 格式:PPT 页数:54 大小:240.50KB
返回 下载 相关 举报
(精品课件)医学统计学12.多元线性回归分析_第1页
第1页 / 共54页
(精品课件)医学统计学12.多元线性回归分析_第2页
第2页 / 共54页
(精品课件)医学统计学12.多元线性回归分析_第3页
第3页 / 共54页
(精品课件)医学统计学12.多元线性回归分析_第4页
第4页 / 共54页
(精品课件)医学统计学12.多元线性回归分析_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《(精品课件)医学统计学12.多元线性回归分析》由会员分享,可在线阅读,更多相关《(精品课件)医学统计学12.多元线性回归分析(54页珍藏版)》请在金锄头文库上搜索。

1、多元线性回归分析多元线性回归分析温医公卫学院黄陈平温医公卫学院黄陈平例例15-1 27名糖尿病人的血清总胆固名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表白、空腹血糖的测量值列于表15-2中,试中,试分析哪些指标能影响血糖水平,并建立血分析哪些指标能影响血糖水平,并建立血糖与这些指标的回归关系。糖与这些指标的回归关系。 多元线性回归分析多元线性回归分析一、一、多元线性回归方程的概念多元线性回归方程的概念二、二、多元线性回归分析步骤多元线性回归分析步骤三、三、标准化偏回归系数标准化偏回归系数四、四、自变量的筛选自变量的筛选

2、五、五、回归方程的总体评价回归方程的总体评价六、六、多元线性回归的应用多元线性回归的应用七、七、应用多元线性回归分析时需注意的事项应用多元线性回归分析时需注意的事项 b0为回归方程的常数项;为回归方程的常数项; p为自变量的个数;为自变量的个数; b1、b2、bp为偏回归系数为偏回归系数Partial regression coefficient 意义:如意义:如 b1 表示在表示在X2、X3 Xp固定条件下,固定条件下,X1 每增减一个单位对每增减一个单位对Y的效应的效应Y增减增减 b 个单位。个单位。表达式:表达式:一一. 多元线性回归方程的概念多元线性回归方程的概念二二. 多元回归分析步

3、骤多元回归分析步骤1用各变量的数据建立回归方程;用各变量的数据建立回归方程;由上表由上表 得到如下多元线性回归方程:得到如下多元线性回归方程:多元线性回归方程也是按最小二乘法原那么获得,即:多元线性回归方程也是按最小二乘法原那么获得,即:2对总的方程进行假设检验对总的方程进行假设检验结果无显著性结果无显著性 1说明所观察的自变量与应变量不存在线性回说明所观察的自变量与应变量不存在线性回归关系;归关系; 2也可能由于样本例数过少;也可能由于样本例数过少;结果有显著性结果有显著性 说明至少有一个自变量与应变量之间存在线性回说明至少有一个自变量与应变量之间存在线性回归关系。归关系。3当总的方程有显著

4、性意义时当总的方程有显著性意义时应对每个自变量的偏回归系数再进行假设检验,应对每个自变量的偏回归系数再进行假设检验,假设某个自变量的偏回归系数无显著性,那么应把该假设某个自变量的偏回归系数无显著性,那么应把该变量剔除,重新建立不包含该变量的多元回归方程。变量剔除,重新建立不包含该变量的多元回归方程。 对新建立的多元回归方程及偏回归系数按上述对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意程序进行检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。义为止。最后得到最优方程。上例资料多元回归方程上例资料多元回归方程1的偏回归系数检验结果如下的偏回归

5、系数检验结果如下:有上表可知,有上表可知,X1被剔除。被剔除。注意:注意:注意:注意:通常每次只剔除关系最弱而且通常每次只剔除关系最弱而且P 的的一个因素一个因素。重新建立不包含剔除因素的回归方程重新建立不包含剔除因素的回归方程对新建立的回归方程进行检验对新建立的回归方程进行检验检验结果有显著性意义检验结果有显著性意义对新方程的偏回归系数进行检验对新方程的偏回归系数进行检验检验结果有意义,因此回归方程保存因素检验结果有意义,因此回归方程保存因素X2、X3 、X4 最后获得回归方程为:最后获得回归方程为:三三. 标准化偏回归系数标准化偏回归系数定义:定义: 消除测量单位影响后的偏回归系数。消除测

6、量单位影响后的偏回归系数。意义:意义: 在许多情况下需要比较各自变量对因在许多情况下需要比较各自变量对因变量的相对奉献大小。但由于各自变量的测变量的相对奉献大小。但由于各自变量的测量单位不同,单从各偏回归系数的绝对值大量单位不同,单从各偏回归系数的绝对值大小来评价是不妥的,必须对各偏回归系数进小来评价是不妥的,必须对各偏回归系数进行标准化处理,即消除测量单位的影响后,行标准化处理,即消除测量单位的影响后,才能进行比较。才能进行比较。举举 例例例例 y = 14 + 4X 是是17岁儿童以年龄岁儿童以年龄X(岁岁)估估计体重计体重Y(市斤市斤)的回归方程。假设体重单位由的回归方程。假设体重单位由

7、市斤换成公斤,那么回归系数是否发生改变市斤换成公斤,那么回归系数是否发生改变?假设年龄单位为月?假设年龄单位为月?标准偏回归系数计算标准偏回归系数计算 bj = bj Sj / SY bj为为X的偏回归系数的偏回归系数; Sj为自变量的标准差为自变量的标准差; SY 为因变量的标准差为因变量的标准差; 假设将各变量先经标准状态化处理后,再进行多元回假设将各变量先经标准状态化处理后,再进行多元回归,那么所得到的偏回归系数即为标准偏回归系数。归,那么所得到的偏回归系数即为标准偏回归系数。 上例资料,上例资料,X2 、 X3与与 X4 对血糖有影响,但其对血糖有影响,但其对血糖的相对作用大小如何?对

8、血糖的相对作用大小如何?比较三个标准偏回归系数比较三个标准偏回归系数倍倍糖化血红蛋白对血糖的影响强度约为甘油三脂的倍。糖化血红蛋白对血糖的影响强度约为甘油三脂的倍。四四. 自变量的筛选自变量的筛选1向前筛选法向前筛选法Forward selection2向后剔除法向后剔除法Backward elimination3逐步法逐步法Stepwise1向前筛选法向前筛选法Forward selection 事先给定一个入选标准通常事先给定一个入选标准通常 ,然后根据各因素偏回归平方和从大到小,然后根据各因素偏回归平方和从大到小,依次逐个引入回归方程至无显著性自变依次逐个引入回归方程至无显著性自变量可以

9、入选为止,因素一旦入选便始终量可以入选为止,因素一旦入选便始终保存在方程中而不被剔除。保存在方程中而不被剔除。优缺点优缺点:可自动去除高度相关的自变量,但后续变量:可自动去除高度相关的自变量,但后续变量引入会使得方程中已存在的变量重要性发生改变。引入会使得方程中已存在的变量重要性发生改变。因变量与各自变量相关系数大小因变量与各自变量相关系数大小向前筛选法,向前筛选法, 向前筛选法,向前筛选法, 为什么总胆固醇会从有意义因素变为无意义?为什么总胆固醇会从有意义因素变为无意义? 首先建立全部自变量的全回归方程,给定首先建立全部自变量的全回归方程,给定剔除标准通常剔除标准通常 ,根据各因素偏回归平方

10、,根据各因素偏回归平方从小到大,依次逐个将无显著性的自变量从回从小到大,依次逐个将无显著性的自变量从回归方程中剔除。归方程中剔除。2向后剔除法向后剔除法Backward elimination优缺点:方程不会保存无意义自变量,但可能存在共优缺点:方程不会保存无意义自变量,但可能存在共线性问题。线性问题。向后筛选法,向后筛选法, 3逐步法逐步法Stepwise给出入选标准通常给出入选标准通常 1和和 剔除标准剔除标准 通常通常2,每次选入一个在方程外且最具统计学意义的,每次选入一个在方程外且最具统计学意义的自变量后,就对原在方程中的自变量做剔除检验,这自变量后,就对原在方程中的自变量做剔除检验,

11、这个过程逐步进行,直到没有统计意义的自变量可以入个过程逐步进行,直到没有统计意义的自变量可以入选,也没有无统计学意义的自变量保存在方程中为止。选,也没有无统计学意义的自变量保存在方程中为止。实际工作中,多采用逐步法。实际工作中,多采用逐步法。逐步法逐步法入选标准入选标准 1和和 剔除标准剔除标准 2逐步法逐步法入选标准入选标准 1和和 剔除标准剔除标准 2五、回归方程的总体评价五、回归方程的总体评价以决定系数以决定系数R2越大越优,但由于越大越优,但由于R2是随自是随自变量的增加而增大,因此,在相近的情况下,以包含变量的增加而增大,因此,在相近的情况下,以包含的自变量少者为优,也可用校正决定系

12、数的自变量少者为优,也可用校正决定系数 R2a 作作为评价标准。为评价标准。 R2a不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。 校正决定系数的计算:校正决定系数的计算:P 为方程中包含的自变量个数。为方程中包含的自变量个数。六、多元线性回归的应用六、多元线性回归的应用q影响因素多因素分析影响因素多因素分析q1多因素的筛选;多因素的筛选;q 1哪些是主要因素?哪些是主要因素?q 2各因素的相对作用大小?各因素的相对作用大小?q2混杂因素的控制。混杂因素的控制。q 如对混杂因素控制的前提下比较某指标。如对混杂因素控制的前提下比较某指标。q估计和预测估计和预测q 由于考虑到多个

13、因素,可以显著提高估计和预由于考虑到多个因素,可以显著提高估计和预测的精度。测的精度。q统计控制统计控制 七七. 应用多元线性回归分析时需注意的事项应用多元线性回归分析时需注意的事项1资料要求:资料要求: 应变量应变量Y为连续变量,服从正态分布。为连续变量,服从正态分布。 自变量自变量X可为连续或分类变量。可为连续或分类变量。 Y与与X1、X2、Xm之间具有线性关系。之间具有线性关系。 残差残差e服从服从0, 2正态分布。正态分布。指观察值与估计值之差。指观察值与估计值之差。 七七. 应用多元线性回归分析时需注意的事项应用多元线性回归分析时需注意的事项2做预报时,只能在自变量做预报时,只能在自

14、变量X的观察值范围内进行;的观察值范围内进行; 例如:建立儿童期体外表积例如:建立儿童期体外表积Y与身高与身高X1、体重、体重X2的线性回归方程,但不能利用该方程来推算某一的线性回归方程,但不能利用该方程来推算某一身高、体重的成人的体外表积。身高、体重的成人的体外表积。 七七. 应用多元线性回归分析时需注意的事项应用多元线性回归分析时需注意的事项3注意资料的特异点;注意资料的特异点; 5观测值重新量化问题。观测值重新量化问题。4样本含量样本含量 一般应使样本含量是自变量数的一般应使样本含量是自变量数的510倍。倍。6自变量筛选过程中引入和剔除变量时检验的水自变量筛选过程中引入和剔除变量时检验的

15、水准确定准确定 1引入变量检验的水准小于剔除变量时检验的水引入变量检验的水准小于剔除变量时检验的水准准 2通常引入变量检验的水准为,剔除变量时,但通常引入变量检验的水准为,剔除变量时,但不绝对。不绝对。7自变量的联合作用分析自变量的联合作用分析 假设要考虑假设要考虑X1、X2对应变量对应变量 y 的联合作用,可设的联合作用,可设置一个新变量置一个新变量X3= X1X2 上例中,如考虑胰岛素上例中,如考虑胰岛素 X3 与糖化血红蛋白与糖化血红蛋白 X4 存在交互作用,那么设置新变量存在交互作用,那么设置新变量X5= X3X4 经检验后,有意义,得:经检验后,有意义,得:8自变量的共线性自变量的共

16、线性 当自变量之间存在较强的相关关系时,称之为共当自变量之间存在较强的相关关系时,称之为共线性,对一组存在共线性的自变量进行多元回归分析线性,对一组存在共线性的自变量进行多元回归分析时,偏回归系数的估计值容易失真。时,偏回归系数的估计值容易失真。共线性问题的诊断共线性问题的诊断1自变量间的相关系数:的变量,共线性问题严重。自变量间的相关系数:的变量,共线性问题严重。2容忍度:即以每个自变量作为因变量对其他自变量容忍度:即以每个自变量作为因变量对其他自变量进行回归分析得到的残差比例进行回归分析得到的残差比例SS残差残差/SS总变异,总变异,如小于,那么共线性问题严重。如小于,那么共线性问题严重。

17、3方差膨胀因子方差膨胀因子VIF:实际上是容忍度的倒数,:实际上是容忍度的倒数, VIF越大,那么共线性问题越严重。越大,那么共线性问题越严重。因变量与各自变量相关系数大小因变量与各自变量相关系数大小9结果分析结果分析1因变量的变异可由自变量解释的比例因变量的变异可由自变量解释的比例R2 即即R2 = SS回回 / SS总总 2正确分析入选方程的自变量与因变量之间的关系正确分析入选方程的自变量与因变量之间的关系3正确分析未入选方程的自变量与因变量之间的关系正确分析未入选方程的自变量与因变量之间的关系10残差分析残差分析 指观察值与估计值之差。指观察值与估计值之差。在正常情况下在正常情况下ei服

18、从均值为服从均值为0的正态分布。的正态分布。对上例资料建立的回归方程作残差图分析对上例资料建立的回归方程作残差图分析第二节第二节 多元线性相关多元线性相关资料要求:资料要求:Y与与p个自变量个自变量X都服从正态分布。都服从正态分布。1. 复相关系数多元相关系数复相关系数多元相关系数 R 即:即: 表示表示p个自变量共同对应变量的个自变量共同对应变量的相关密切程度相关密切程度。 R 波动范围在波动范围在 01 之间,它与之间,它与r 值不同,没有负值。值不同,没有负值。R值越接近值越接近 1,相关越密切。,相关越密切。 R值随引入回归方程内的值随引入回归方程内的自变量个数增加而增大。自变量个数增

19、加而增大。确定系数确定系数(R2) 即即R2 = SS回回 / SS总总 , 回归变异占总变回归变异占总变异的比值异的比值. 它说明由于引入有显著性相关的自变量,它说明由于引入有显著性相关的自变量,使总平方和减少的局部。使总平方和减少的局部。2. 校正复相关系数校正复相关系数Ra和校正确定系数和校正确定系数 R2a 复相关系数随方程中变量数的增加而增大,即复相关系数随方程中变量数的增加而增大,即使无显著性的变量进入方程,其值亦增加。校正复使无显著性的变量进入方程,其值亦增加。校正复相关系数和校正确定系数就是针对这一现象提出的相关系数和校正确定系数就是针对这一现象提出的一种校正,当方程中增加无显著性变量时,校正复一种校正,当方程中增加无显著性变量时,校正复相关系数和校正确定系数就会减少。相关系数和校正确定系数就会减少。3. 偏相关系数偏相关系数 rjy 它表示在其它自变量固定的条件下,某自变量与应变它表示在其它自变量固定的条件下,某自变量与应变量之间的量之间的相关密切程度和方向相关密切程度和方向。 其值也波动在其值也波动在 -11 之间。之间。 上例资料偏相关系数的计算:上例资料偏相关系数的计算:THE END对混杂因素控制的前提下比较某指标对混杂因素控制的前提下比较某指标建立回归方程:建立回归方程:扣除年龄影响后,两组胆固醇水平有差异。扣除年龄影响后,两组胆固醇水平有差异。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 幼儿/小学教育 > 幼儿教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号