医学统计学 多重线性回归分析

上传人:hs****ma 文档编号:570975442 上传时间:2024-08-07 格式:PPT 页数:81 大小:2.79MB
返回 下载 相关 举报
医学统计学 多重线性回归分析_第1页
第1页 / 共81页
医学统计学 多重线性回归分析_第2页
第2页 / 共81页
医学统计学 多重线性回归分析_第3页
第3页 / 共81页
医学统计学 多重线性回归分析_第4页
第4页 / 共81页
医学统计学 多重线性回归分析_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《医学统计学 多重线性回归分析》由会员分享,可在线阅读,更多相关《医学统计学 多重线性回归分析(81页珍藏版)》请在金锄头文库上搜索。

1、13 多重线性回归分析身高:不仅受到遗传因素的影响,而且还受到营身高:不仅受到遗传因素的影响,而且还受到营养状况、体育锻炼情况、居住环境因素的作用;养状况、体育锻炼情况、居住环境因素的作用;血压:除了与年龄有关外,还与家族史、饮食习血压:除了与年龄有关外,还与家族史、饮食习惯、劳动强度等因素有关;惯、劳动强度等因素有关;生存质量:受生理、心理、社会关系、环境等多生存质量:受生理、心理、社会关系、环境等多生存质量:受生理、心理、社会关系、环境等多生存质量:受生理、心理、社会关系、环境等多因素的影响。因素的影响。因素的影响。因素的影响。生物医学研究领域中生物医学研究领域中多因素相互作用现象多因素相

2、互作用现象非常普遍非常普遍多重线性回归分析多重线性回归分析从一组样本数据出发,确定变量之间的回归关系式;从一组样本数据出发,确定变量之间的回归关系式;对这些关系式的可信程度进行各种统计检验,并从影对这些关系式的可信程度进行各种统计检验,并从影 响因变量的诸多变量中找出具有统计学意义的变量;响因变量的诸多变量中找出具有统计学意义的变量;利用所求的关系式,根据一个或几个变量的取值来预利用所求的关系式,根据一个或几个变量的取值来预 测或控制另一个特定变量的取值,并给出这种预测或测或控制另一个特定变量的取值,并给出这种预测或 控制的精确程度。控制的精确程度。回归分析的主要目的:回归分析的主要目的: 就

3、是研究固定自变量就是研究固定自变量X的情况下,因变量的情况下,因变量Y的总的总体均数与体均数与X之间的回归关系;即:之间的回归关系;即:多重线性回归分析多重线性回归分析 概概 述述 。 13.2 13.2 多重线性回归模型多重线性回归模型 。多重线性回归模型的拟合实例多重线性回归模型的拟合实例多重线性回归模型的假设检验多重线性回归模型的假设检验13.3 13.3 多重线性回归的应用及本卷须知多重线性回归的应用及本卷须知13.4 13.4 多重线性回归的结果报告多重线性回归的结果报告13.1 概 述 例例13.1 研究有关糖尿病患者体内脂联素水平的影响因研究有关糖尿病患者体内脂联素水平的影响因素

4、,某医师测定了素,某医师测定了30名患者的体重指数名患者的体重指数BMI、病程、瘦素、病程、瘦素、空腹血糖及脂联素水平,数据如表所示。空腹血糖及脂联素水平,数据如表所示。 资料类型:定量资料资料类型:定量资料目的:目的:了解脂联素水平与了解脂联素水平与BMI、病程、瘦素、病程、瘦素、空腹血糖等因素空腹血糖等因素的依存关系的依存关系;即即多个自变量与多个自变量与一个因变量的关系一个因变量的关系。【案例解析案例解析】多重线性回归多重线性回归多重线性回归分析多重线性回归分析 muttiple linear regression :研究的是多个自变量如何直接影响一个因变量。研究的是多个自变量如何直接影

5、响一个因变量。即用回归方程的方式定量地描述一个因变量即用回归方程的方式定量地描述一个因变量Y 和多个和多个自变量自变量X1、 X2、 X3、 、Xn 之间之间 的线性依存关系的线性依存关系。11.1.2 根本概念根本概念多元线性回归多元线性回归 multivariate linear regression:涉及多个因变量、反响变量时称:涉及多个因变量、反响变量时称。分分类类一元一元 线性回归:仅涉及线性回归:仅涉及1个因变量、反响变量。个因变量、反响变量。简单线性回归的两个变量:简单线性回归的两个变量:反响变量反响变量 response variable或或 因变量因变量dependent v

6、ariable :是按某种规律变化的随机变量,是被估计的:是按某种规律变化的随机变量,是被估计的被预测的变量。用被预测的变量。用“Y表示。表示。解释变量解释变量explanatory variable或自变量或自变量 independent variable 或预测因子或预测因子 predictor :可看作影响因素,是能独立自由变化的变量,是:可看作影响因素,是能独立自由变化的变量,是“Y所依存的变量,常用所依存的变量,常用“X表示,可是随机变量,表示,可是随机变量,也可是人为控制或选择的变量。也可是人为控制或选择的变量。假设假设 Y 随随X1、X2、Xm的改变而改变的改变而改变:13.2

7、多重线性回归模型拟答复以下问题:拟答复以下问题:nBMI、病程、瘦素、空腹血糖、病程、瘦素、空腹血糖4因素是否都对因素是否都对脂联素脂联素水平水平有影响?有影响?n如何定量地描述这种影响?如何定量地描述这种影响?n哪个因素对哪个因素对脂联素水平脂联素水平的影响最大?哪个因素影响的影响最大?哪个因素影响的最小?的最小?n如何利用这些影响因素去预测如何利用这些影响因素去预测脂联素水平脂联素水平?如何预?如何预测?效果如何?测?效果如何?n如果想在控制如果想在控制BMI、病程、瘦素、病程、瘦素的条件下,如何定量的条件下,如何定量地描述地描述脂联素水平脂联素水平与与空腹血糖空腹血糖的关系?的关系?多重

8、线性回归多重线性回归回归模型回归模型根本目的:用根本目的:用 1 个以上的自变量个以上的自变量X,它们的数据来估计,它们的数据来估计反响变量反响变量Y,即脂联素水平及其变异性的统,即脂联素水平及其变异性的统计学分析方法。计学分析方法。数模:数模: 0:截距参数,是常数项。:截距参数,是常数项。 i:变量:变量Xj的总体偏回归系数的总体偏回归系数(partial regression coefficient) 表示在其它自变量固定不变的情况下,表示在其它自变量固定不变的情况下,Xj每增加或减少每增加或减少一个计量单位,反响变量一个计量单位,反响变量Y的平均变化的平均变化 i 个单位,或说所个单位

9、,或说所引起应变量引起应变量Y的平均改变量为的平均改变量为i个单位。个单位。如何定量地描述两者的关系:如何定量地描述两者的关系:为了估计模型中的未知参数,需要从总体中随为了估计模型中的未知参数,需要从总体中随机抽取一个样本,从而求得机抽取一个样本,从而求得样本回归方程样本回归方程: b0:截距参数,常数项;是总体参数:截距参数,常数项;是总体参数0 的估计值。的估计值。 bi:变量:变量Xj的偏回归系数的偏回归系数(partial regression coefficient),是,是总体参数总体参数i 的估计值的估计值 表示在方程中其它自变量固定不变的情况下,表示在方程中其它自变量固定不变的

10、情况下,Xj每增加或每增加或减少一个计量单位,反响变量减少一个计量单位,反响变量Y的平均变化的平均变化 bi 个单位。个单位。回归系数的标准化:回归系数的标准化:问题:对糖尿病患者体内脂联素水平,哪个因素作用的问题:对糖尿病患者体内脂联素水平,哪个因素作用的 大一点,大一点, 哪个小一些?哪个小一些?2.求求标准化偏回归系数标准化偏回归系数: 用标准化的数据进行回归模型的拟合,算出它的方程,用标准化的数据进行回归模型的拟合,算出它的方程,此时所获得的偏回归系数此时所获得的偏回归系数b,叫叫。1.自变量数据的标准化:自变量数据的标准化:b无单位,可用来比较各个自变量对反响变量的奉献大小无单位,可

11、用来比较各个自变量对反响变量的奉献大小n未标准化的回归系数偏回归系数:用来构建回归未标准化的回归系数偏回归系数:用来构建回归方程,即方程中各自变量的斜率。方程,即方程中各自变量的斜率。n标准化的回归系数:用于综合评价各解释变量对因变标准化的回归系数:用于综合评价各解释变量对因变量量Y的奉献大小,标准化的回归系数越大,说明的奉献大小,标准化的回归系数越大,说明X对对Y 的影响幅度越大。的影响幅度越大。比较:比较:多重线性回归分析的根本步骤:多重线性回归分析的根本步骤: 估计参数:估计参数:0、 1、 2、 P回归方程回归方程的假设检验的假设检验回归方程的统计应用回归方程的统计应用最小二乘法最小二

12、乘法F 检验检验回归系数回归系数 的假设检验的假设检验列出回归方程列出回归方程t 检验检验回归参数的估计:回归参数的估计: 最小二乘估计最小二乘估计 least square estimation两个自变量时,回两个自变量时,回归平面示意图归平面示意图v用最小二乘法拟合直线,使得用最小二乘法拟合直线,使得反应变量观测值反应变量观测值Yi与与回归回归方程求得估计值方程求得估计值 之间的之间的残差残差(样本点到直线的垂直距离(样本点到直线的垂直距离)平方和平方和达到最小。达到最小。 所以,拟合所以,拟合X1、X2 、X3 、X4关于脂联素水平的多重关于脂联素水平的多重线性回归方程,得:线性回归方程

13、,得: 还需要解决的三个问题:还需要解决的三个问题:n就总体而言,这种回归关系是否存在?即总体回归方程就总体而言,这种回归关系是否存在?即总体回归方程是否成立?是否成立?n回归方程的效果如何?也即这四个变量能解释反响变量回归方程的效果如何?也即这四个变量能解释反响变量Y的百分比是多少?的百分比是多少?n四个自变量是否对反响变量四个自变量是否对反响变量Y的影响都有意义?的影响都有意义? 统计推断统计推断假设检验假设检验假设检验假设检验回归方程的假设检验回归方程的假设检验model test:回归系数的假设检验:回归系数的假设检验:目的:检验求得的回归方程在总体中是目的:检验求得的回归方程在总体中

14、是否成立,即是否至少有一个否成立,即是否至少有一个i 0;方法:单因素方差分析。方法:单因素方差分析。目的:即检验各个偏回归体系数目的:即检验各个偏回归体系数i是是否为否为0;方法:方法:t 检验。检验。统计推断:统计推断:回归方程的假设检验:回归方程的假设检验:总的来说,假设该回归方程成立,那么这些回归系总的来说,假设该回归方程成立,那么这些回归系数里面至少有一个不为数里面至少有一个不为0,只要有一个不为,只要有一个不为0,这个,这个方程来说总的就是成立的。方程来说总的就是成立的。H0:1=2=3=i=0H1:至少有一个:至少有一个 i 0SS总总= SS回归回归+ SS残差残差SSSS总总

15、总总( (总平方和总平方和总平方和总平方和) )v v总总总总= =n n-1-1SSSS回归回归回归回归( (回归平方和回归平方和回归平方和回归平方和) )v v回归回归回归回归=1=1SSSS残差残差残差残差( (残差平方和残差平方和残差平方和残差平方和) )v v残差残差残差残差= =n n- -p p-1 -1 v总总= v回归回归+ v残差残差1. 回归模型的假设检验回归模型的假设检验方差分析方差分析自变量的个数自变量的个数变异的分解:变异的分解:变异的种类变异的种类 产生原因产生原因解释解释SS总总:Y的离均差平方和的离均差平方和没有利用没有利用X1、X2等等的信息时,的信息时,Y

16、 观察值观察值的变异的变异 反映因变量反映因变量Y 的总变异的总变异SS回归回归: (回归平方和)(回归平方和) 当自变量当自变量X1、X2等引入等引入 模型后所引起模型后所引起的变异的变异反映在反映在Y的总变异中,的总变异中,可可用用Y与与X的线性关系解释的的线性关系解释的那部分变异那部分变异。SS回归回归越大,越大,说明回归效果越好。说明回归效果越好。SS残差残差: (残差平方和)(残差平方和)总变异中无法用总变异中无法用X1、X2等和等和Y的回归关的回归关系解释的那部分变异系解释的那部分变异反应自变量反应自变量X以外因素对以外因素对Y的变异的影响的变异的影响。表示考虑。表示考虑回归之后,

17、回归之后,Y的随机误差。的随机误差。回归方程假设检验的根本思想:回归方程假设检验的根本思想:如果总体中自变量如果总体中自变量X1、X2等对因变量等对因变量Y没有奉献,没有奉献,那么由样本所得的回归均方与残差均方应相近;那么由样本所得的回归均方与残差均方应相近;反之,如果总体中自变量反之,如果总体中自变量X1、X2等对因变量等对因变量Y有有奉献,回归平方和反响的就不仅仅是随机误差,奉献,回归平方和反响的就不仅仅是随机误差, 即即回归均方必然要远大于残差均方;回归均方必然要远大于残差均方;依此,可计算检验统计量依此,可计算检验统计量F值作出判断。值作出判断。问:所求得的回归方程在总体中是否成立?问

18、:所求得的回归方程在总体中是否成立?均方:均方:MS=SS/v回归均方:回归均方:MS回归回归=SS回归回归/v回归回归残差均方:残差均方: MS残差残差=SS残差残差/v残差残差检验统计量:检验统计量:查查F界值表界值表P468,确定单侧临界值,确定单侧临界值Fa(v回归回归, v残残差差),求概率值求概率值 P,下结论,下结论1. 建立假设,确定检验水准建立假设,确定检验水准 H0 : 1=2=3=i=0 ; H1 :至少有一个:至少有一个 i 0。 =0.05 单侧单侧 检验过程:检验过程:查查F 界值表界值表P469:a ,v回归回归=4、 v残差残差=n-p-1=25得:得:F(p,

19、 n-p-1)= F(4,25) =3. 确定确定P值,作出推断结论:值,作出推断结论: 由于由于F,那么,那么P,故拒绝,故拒绝H0,接受,接受H1,可认为在,可认为在a =0.05 的显著水平上,所建立的回归方程总体来说是有意的显著水平上,所建立的回归方程总体来说是有意义的。义的。2. 计算检验统计量计算检验统计量F值:值:变异来源变异来源SSdfMSFP总变异总变异2425.30129回归模型回归模型1773.3434443.33617.0000.0001残差残差651.9582526.078表表13-2 13-2 检验回归方程整体意义的方差分析表检验回归方程整体意义的方差分析表对各个回

20、归系数进行假设检验对各个回归系数进行假设检验 问题:问题:通过假设检验方程总的来说成立,通过假设检验方程总的来说成立,1.即至少有即至少有1个个i 不为不为0,但到底哪些为,但到底哪些为0,哪些不为,哪些不为0?2.再者,即使总体回归系数为零,也可能得到样本再者,即使总体回归系数为零,也可能得到样本 偏回归系数不为偏回归系数不为0的情况。的情况。方法:方法:t 检验检验1. 建立假设,确定检验水准建立假设,确定检验水准 H0 : i=0 ; H1 : i 0。 =2. 计算检验统计量计算检验统计量t 值:值:第第i个偏回归系数的标准误,个偏回归系数的标准误,指回归系数的变异程度指回归系数的变异

21、程度回归系数的假设检验回归系数的假设检验3. 确定确定P值,作出推断结论:值,作出推断结论: 由表由表13-3可以看出,可以看出,BMI、病程和空腹血糖对脂联素的、病程和空腹血糖对脂联素的影响无统计学意义,影响无统计学意义,P ,而瘦素的影响有统计学意义,而瘦素的影响有统计学意义P 。回归方程的解释回归方程的解释: 这四个因素对糖尿病患者体内脂联素水平的这四个因素对糖尿病患者体内脂联素水平的影响有多大?影响有多大? 1. 确定系数确定系数/决定系数决定系数coefficient of determination ,R2 2. 调整确定系数调整确定系数adjust coefficient of

22、determination, Rad2 3. 复相关系数复相关系数multiple correlation coefficient,R 4. 调整复相关系数调整复相关系数adjust coefficient of determination, Rad1. 确定系数确定系数coefficient of determination,R2或决或决定系数:回归平方和与总平方和之比。定系数:回归平方和与总平方和之比。反映了一组自变量反映了一组自变量X对回归效果的奉献,即对回归效果的奉献,即Y 的总变的总变异中回归关系所能解释的百分比异中回归关系所能解释的百分比variance account formu

23、la, VAF;反映了回归模型的拟合效果,可作为反响拟合优度反映了回归模型的拟合效果,可作为反响拟合优度goodness of fit的指标。的指标。此题:此题:2.复相关系数复相关系数 multiple correlation coefficient,R 定义:为确定系数定义:为确定系数R2的算术平方根。的算术平方根。 反映了随机变量反映了随机变量Y与一组自变量与一组自变量X对对X1 , X2 , ,Xp 之间的线性相关程度,即之间的线性相关程度,即Y 和该组自变量的密切程度。和该组自变量的密切程度。此题:此题:3. 调整确定系数调整确定系数adjust coefficient of det

24、ermination, Rad2 优点:同时考虑了自变量的个数,和自变量的作用;优点:同时考虑了自变量的个数,和自变量的作用;如果自变量的个数增多了,但它的作用又不是很大,那如果自变量的个数增多了,但它的作用又不是很大,那么么Rad2要减小,这就可以帮助决定有没必要引入这个要减小,这就可以帮助决定有没必要引入这个变量变量 。此题:此题:自变量筛选:自变量筛选:收集资料时,涉收集资料时,涉及的自变量很多及的自变量很多n有些可能存在较大的测量误差;有些可能存在较大的测量误差;利用自变量筛选的准那么和方法,产生利用自变量筛选的准那么和方法,产生“最优变最优变量子集,从而建立预测效果的最优模型。量子集

25、,从而建立预测效果的最优模型。n有些自变量对反响变量无影响或影有些自变量对反响变量无影响或影响甚微;响甚微;n有的变量可能与其它的自变量存在有的变量可能与其它的自变量存在高度的相关性高度的相关性共线性共线性自变量筛选的统计学标准:自变量筛选的统计学标准:残差均方缩小或调整确定系数增大。残差均方缩小或调整确定系数增大。残差平方和残差平方和 SS残差残差 缩缩小或确定系数小或确定系数 R2 增大。增大。C CP P统计量缩小统计量缩小自变量筛选的常用方法:自变量筛选的常用方法: 后退法后退法backward regression 前前进进法法 forward regression 逐步法逐步法 s

26、tepwise regression 最优子集回归法最优子集回归法optimun subsets regression【电脑实现电脑实现】SPSS1.数据录入数据录入多重线性回归分析:多重线性回归分析:2. SPSS过程过程【Method】自变量的选入方法自变量的选入方法Enter强行进入法强行进入法Stepwise逐步法逐步法Remove强制剔除法强制剔除法Backward向后法向后法Forward向前法向前法 自变量筛选方法的选择:自变量筛选方法的选择:【Statistics 】Regression Coefficients:回归系数:回归系数Estimate:非标准化及标准化回归系数:非

27、标准化及标准化回归系数、标准误,、标准误,及其显著性检验结果及其显著性检验结果t值和值和P值。值。Confidence intervals:非标准化回归系数的非标准化回归系数的95%可可信区间。信区间。Model fit:模型拟合优度检验,给出复相关系数:模型拟合优度检验,给出复相关系数R,决定系数,决定系数R2,调整,调整R2及方差分析结果及方差分析结果 R squared change:每剔出或引入一个自变量所引:每剔出或引入一个自变量所引趋同的趋同的R2的变化量及相应的的变化量及相应的F值和值和P值。值。Descriptives:输出每个变量的均数、标准差,样:输出每个变量的均数、标准差

28、,样本容量,相关系数及单侧检验本容量,相关系数及单侧检验P值的矩阵。值的矩阵。 Part and partial correlations:简单相关系数及偏相简单相关系数及偏相关系数。关系数。Collinearity diagnostics:输出共线性诊断的统计:输出共线性诊断的统计量。量。Residuals:用于选择输出残差诊断的信息:用于选择输出残差诊断的信息All cases:给出所有观察单位的残差、标准化残差:给出所有观察单位的残差、标准化残差和预测值。和预测值。3. 结果及结果输出:结果及结果输出: 决定系数越大,说明构建的回归方程越好。 STEPWISE:逐步回归方程的决定系数:逐

29、步回归方程的决定系数 STEPWISE:逐步回归方程的方差分析表:逐步回归方程的方差分析表 STEPWISE:逐步回归方程的参数估计:逐步回归方程的参数估计未标准化的未标准化的 回归系数及标准误回归系数及标准误回归系数回归系数的的t t检验检验标准化的标准化的回归系数回归系数(4) Entered:强行进入回归方程的参数估计:强行进入回归方程的参数估计 回归方程的解释回归方程的解释: 根据根据SPSS输出结果,可以认为瘦素和体重指数是输出结果,可以认为瘦素和体重指数是影响糖尿病患者脂联素水平的主要因素,瘦素增加影响糖尿病患者脂联素水平的主要因素,瘦素增加1ng/ml,估计脂联素水平平均降低,体

30、重指数升高,估计脂联素水平平均降低,体重指数升高1kg/m2,估计,估计脂联素水平平均降低脂联素水平平均降低 。13.3 多重线性回归应用及本卷须知多重线性回归在生物医学中的应用多重线性回归在生物医学中的应用:u定量描述一个反响变量与多个解释变量之间定量描述一个反响变量与多个解释变量之间 的线性依存关系;的线性依存关系;u筛选危险因素;筛选危险因素;u通过较易测量的因素估计不易测量的因素;通过较易测量的因素估计不易测量的因素;u通过解释变量预测反响变量。通过解释变量预测反响变量。u通过反响变量控制解释变量。通过反响变量控制解释变量。多重线性回归分析的本卷须知:多重线性回归分析的本卷须知: 1.

31、 前提条件和残差分析前提条件和残差分析模型假设诊断模型假设诊断2. 多重共线性的问题多重共线性的问题3. 哑变量的设置哑变量的设置4.交互作用交互作用11.3.2 线性回归分析的前题条件:线性回归分析的前题条件: 线性线性linear) 独立性独立性independent) 正态性正态性 (normal) 等方差性等方差性equal variance)线性回归分析的前题条件线性回归分析的前题条件l i n enormal正态性正态性equal variance等方差性等方差性反响变量反响变量Y 的的总体平均值与总体平均值与自变量组合之自变量组合之间呈线性关系间呈线性关系在一定范围内任在一定范围

32、内任意给定各个值,意给定各个值,那么反响变量那么反响变量服从正态分布服从正态分布在一定范围内,在一定范围内,对应于不同对应于不同X值,值,Y总体变异保持总体变异保持不变不变linear线性线性independent独立性独立性指任意两指任意两个观察值个观察值互相独立互相独立1. 线性和方差齐性:线性和方差齐性:残差散点图残差散点图 residual plot模型假设诊断:模型假设诊断:LINE散点均匀分布在以散点均匀分布在以0 0为中心,与横轴平为中心,与横轴平行的带状区域内,可以认为根本满足线行的带状区域内,可以认为根本满足线性和方差齐性的假定条件。性和方差齐性的假定条件。散点呈现曲线趋势,

33、提示散点呈现曲线趋势,提示资料不满足线性的假定。资料不满足线性的假定。散点随预测值的变化散点随预测值的变化而变化,提示资料不而变化,提示资料不满足方差齐性的假定。满足方差齐性的假定。散点随预测值的变化而变化散点随预测值的变化而变化且呈曲线趋势,提示资料不且呈曲线趋势,提示资料不满足线性和方差齐性的假定。满足线性和方差齐性的假定。SPSS电脑实现电脑实现3. 线性和方差齐性检验结果线性和方差齐性检验结果残差散点图:残差散点图: 散点均匀分布在以散点均匀分布在以0为中心,与横轴平行的带状区域为中心,与横轴平行的带状区域内,可认为根本满足线性和方差齐性的假定条件。内,可认为根本满足线性和方差齐性的假

34、定条件。2.正态性:正态性:残差图残差图residual plot 或或正态概率图正态概率图提示残差满提示残差满足正态分布足正态分布3. 独立性:独立性: 应用应用残差图残差图 或或Durbin-Watson统计量统计量判断判断 Durbin-Watson统计量的取值一般在统计量的取值一般在0-4之之间,如果残差之间相互独立,那么取值在间,如果残差之间相互独立,那么取值在2左右,左右,如果取值接近如果取值接近0或或4,那么提示不满足独立性。,那么提示不满足独立性。SPSS电脑实现电脑实现3. 独立性检验:独立性检验: 假设残差之间相互独立,那么取值在假设残差之间相互独立,那么取值在2左右。左右

35、。如果资料不满足如果资料不满足LINE的前提条件:的前提条件: 1. 不满足线性条件不满足线性条件 修改模型或采用曲线拟合;修改模型或采用曲线拟合;2. 不满足正态性、方差齐性条件不满足正态性、方差齐性条件 变量变换:包括对数变换、平方根变换、变量变换:包括对数变换、平方根变换、倒数变换等;倒数变换等;3. 不满足方差齐性:不满足方差齐性: 采用其它方法估计偏回归系数。采用其它方法估计偏回归系数。多重共线性多重共线性在进行多重线性回归分析时,除了要满足在进行多重线性回归分析时,除了要满足LINE 外,外,还要求各变量之间不能存在共线性,即各变量之间还要求各变量之间不能存在共线性,即各变量之间要

36、相互独立。为此,需要进行共线性诊断;要相互独立。为此,需要进行共线性诊断;当自变量均为随机变量时,假设它们之间高度相关,当自变量均为随机变量时,假设它们之间高度相关,那么称变量间存在多重共线性那么称变量间存在多重共线性(multicollinearity);自变量之间不存在多重共;自变量之间不存在多重共线性,即称其互相独立。线性,即称其互相独立。例例13-2 研究胎儿受精龄研究胎儿受精龄Y/周与胎儿身长周与胎儿身长X1/cm、头围、头围 X2/cm,体重,体重X3/g之间的依存关系。之间的依存关系。显然,此处的显然,此处的3个解释变量个解释变量X1、X2、X3 之间存在着之间存在着高度的共线性

37、,高度的共线性, X1、X2、X3 两项对两项对Y 的过分奉献的过分奉献只能用只能用X2 项的负系数抵消,造成其专业意义无法解项的负系数抵消,造成其专业意义无法解释而出现悖论。释而出现悖论。相关系数相关系数 Correlation容忍度容忍度 Torelance方差膨胀因子方差膨胀因子 VIF条件数条件数 Condition index方差比例方差比例Variance proportions, VP 方差相关矩阵方差相关矩阵Variance Matrix可用来判断变量可用来判断变量之间的独立性、之间的独立性、或说多重共线性或说多重共线性如果两个自变量之间的相关系数超过,那么会带来共如果两个自变

38、量之间的相关系数超过,那么会带来共线性问题,如果在以下,一般不会出现多大问题。线性问题,如果在以下,一般不会出现多大问题。共线性诊断1.两个自变量之间的相关系数2.容忍度容忍度 Tolerance /方差膨胀因子 VIF经验说明:经验说明:VIF大于大于5或或10时,存在严重的共线性;一般时,存在严重的共线性;一般要求要求Tolerance必须大于,或必须大于,或 VIF必须小于必须小于10。容忍度容忍度 =1/VIF 当模型诊断发现了共线性,应如何处理?当模型诊断发现了共线性,应如何处理?删除变量:根据偏相关系数大小,去掉其中一个对因删除变量:根据偏相关系数大小,去掉其中一个对因变量影响最小

39、的自变量,或根据方差比例变量影响最小的自变量,或根据方差比例VP)的的大小,去掉大小,去掉VP值大的自变量,重新作共线性检查,值大的自变量,重新作共线性检查,直至多重共线性不存在为止;直至多重共线性不存在为止;采用主成分回归方法。采用主成分回归方法。哑变量的设置哑变量的设置 这种将这种将k个多项无序分类转化为个多项无序分类转化为k-1个二分类变量的个二分类变量的过程叫分类变量的哑变量化,主要用在多重线性回归过程叫分类变量的哑变量化,主要用在多重线性回归分析和分析和Logistic 回归分析中。回归分析中。血型血型变量变量X1X2X3A100B010AB001O000参考类参考类 /参考变量参考

40、变量13.4 结果报告例例11-1 结果报告结果报告 为研究脂联素水平为研究脂联素水平Y与体重指数与体重指数X1、病程、病程 X2、瘦素、瘦素X3、空腹血糖空腹血糖 X4 的关系,采用的关系,采用逐步回归逐步回归的方法建立了一个多重的方法建立了一个多重回归方程。回归方程。主要结果如下表示:主要结果如下表示: 结果提示:变量脂联素水平结果提示:变量脂联素水平Y与受到自变量体与受到自变量体重指数重指数X1 、瘦素、瘦素 X3 的影响的影响F , P0.001;从标准回归系数可知,从标准回归系数可知, X3对对Y的影响最大,其次的影响最大,其次是是X1;从;从 R2=0.731 可知,可知,2个自变

41、量可以解释结个自变量可以解释结果变量变异的果变量变异的73.1%,也说明模型的拟合效果较,也说明模型的拟合效果较好。好。小小 结结多重线性回归用于研究一个反响变量与多个自变量之多重线性回归用于研究一个反响变量与多个自变量之间的线性依存关系,常用于筛选危险因素、控制混杂间的线性依存关系,常用于筛选危险因素、控制混杂因素、分析交互作用、预测和控制等。因素、分析交互作用、预测和控制等。其前提条件是其前提条件是LINE,常常用残差分析的方法考察资料,常常用残差分析的方法考察资料是否满足这是否满足这4个条件;如不满足,可尝试变量变换,或个条件;如不满足,可尝试变量变换,或更换回归方程。更换回归方程。其估

42、计方程参数依据的是最小二乘法原那么。其估计方程参数依据的是最小二乘法原那么。偏回归系数的含义是当其他自变量的取值固定时,自偏回归系数的含义是当其他自变量的取值固定时,自变量每改变一个单位,反响变量的平均改变的单位数。变量每改变一个单位,反响变量的平均改变的单位数。原始偏回归系数用于构建回归方程,标准化偏回归系原始偏回归系数用于构建回归方程,标准化偏回归系数用于比较自变量对反响变量的奉献大小。数用于比较自变量对反响变量的奉献大小。确定系数和调整确定系数用于说明模型中自变量解释确定系数和调整确定系数用于说明模型中自变量解释变量的百分比,可用来评价方程拟合效果的好坏。变量的百分比,可用来评价方程拟合

43、效果的好坏。复相关系数可用来说明某一个变量与多个变量的线性复相关系数可用来说明某一个变量与多个变量的线性相关程度。相关程度。变量筛选的目的是使议程尽量保存对回归奉献较大的变量筛选的目的是使议程尽量保存对回归奉献较大的重要变量而排除对回归奉献小的变量,以期用尽量重要变量而排除对回归奉献小的变量,以期用尽量简洁的模型到达尽可能高的估计精度。简洁的模型到达尽可能高的估计精度。当自变量存在较强的相关性的时候,回归模型会出现当自变量存在较强的相关性的时候,回归模型会出现多重共线性的现象,使得模型参数估计不稳定或不多重共线性的现象,使得模型参数估计不稳定或不易解释。易解释。案案 例例 讨讨 论论 预测人体

44、吸入氧气的效率。为了解和预测人体吸入氧气的效率,某人收集了31名中年男性的健康调查资料。一共调查了7个指标,分别是吸氧效率Y,%、年龄X1,岁 、体重X2,kg 、跑所需时间X3,min、休息时的心跳频率X4,次/min、跑步时的心跳频率X5,次/min 和最高心跳频率X6,次/min 。试用多重线性回归方法建立预测人体吸氧效率的模型。 该研究员采用后退法对自变量进行筛选,最后该研究员采用后退法对自变量进行筛选,最后得到结果如下表示。得到结果如下表示。 对模型进行方差分析的结果认为模型有统计对模型进行方差分析的结果认为模型有统计学意义学意义P,确定系数的数值也说明模型拟,确定系数的数值也说明模

45、型拟合的效果较好。考查各个自变量的偏回归系数,合的效果较好。考查各个自变量的偏回归系数,研究者发现,研究者发现, X6 的偏回归系数符号为正,认为的偏回归系数符号为正,认为最高心跳频率越大,人的吸氧效率就越高,这与最高心跳频率越大,人的吸氧效率就越高,这与专业结论相反。专业结论相反。 提问:出现这种悖论的原因是什么呢?提问:出现这种悖论的原因是什么呢?案例分析案例分析 : 先分析各个自变量之间的简单相关系数先分析各个自变量之间的简单相关系数r,结果发现,结果发现 X5和和X6存在有较强的相关存在有较强的相关r,P,对回归模型进行共线性诊断,结果发现,对回归模型进行共线性诊断,结果发现自变量自变

46、量X5的容忍度为,方差膨胀因子等于,的容忍度为,方差膨胀因子等于,自变量自变量X6的容忍度为,方差膨胀因子等于,的容忍度为,方差膨胀因子等于,说明自变量之间存在多重共线性,所以出现说明自变量之间存在多重共线性,所以出现了与专业结论相反的现象。了与专业结论相反的现象。正确做法:正确做法: 在这里,可以把自变量在这里,可以把自变量X6从模型中删除以从模型中删除以消除多重共线性的影响,应重新建立多重线消除多重共线性的影响,应重新建立多重线性回归方程。最好多用几种筛选自变量的方性回归方程。最好多用几种筛选自变量的方法如前进法、后退法、逐步回归分析、最法如前进法、后退法、逐步回归分析、最优回归子集法等筛选自变量,结合专业知优回归子集法等筛选自变量,结合专业知识和统计学知识,综合分析和比较,从而得识和统计学知识,综合分析和比较,从而得到比较优的多重回归方程。到比较优的多重回归方程。思考题:思考题:1. 多重线性回归的步骤是什么?怎样用多重线性回归的步骤是什么?怎样用SPSS实现实现多重回归?多重回归?2. 多重线性回归中偏回归系数的含义是什么?多重线性回归中偏回归系数的含义是什么?3. 多重线性回归的前提条件是什么?如何判断资多重线性回归的前提条件是什么?如何判断资料是否满足这些条件,如不满足时的处理方法有料是否满足这些条件,如不满足时的处理方法有哪些?哪些?THANK YOU!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 幼儿/小学教育 > 幼儿教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号