医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关课件

上传人:新** 文档编号:590392989 上传时间:2024-09-14 格式:PPT 页数:128 大小:1.52MB
返回 下载 相关 举报
医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关课件_第1页
第1页 / 共128页
医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关课件_第2页
第2页 / 共128页
医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关课件_第3页
第3页 / 共128页
医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关课件_第4页
第4页 / 共128页
医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关课件_第5页
第5页 / 共128页
点击查看更多>>
资源描述

《医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关课件》由会员分享,可在线阅读,更多相关《医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关课件(128页珍藏版)》请在金锄头文库上搜索。

1、多重线性回归与相关王海俊王海俊北京大学公共卫生学院北京大学公共卫生学院医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关主要内容主要内容第一节第一节 偏相关偏相关第二节第二节 多元线性回归多元线性回归医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关n医学上,许多现象之间都有相互联系,例如:身高与体重、父亲身高与儿子身高、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。n在这些有关系的现象中,它们之间联系的程度和性质也各不相同。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关n关系:可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现

2、象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关 相关就是用于研究和解释两个变量之间相关就是用于研究和解释两个变量之间相互相互关系的。关系的。 医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关复习:复习: 直线相关直线相关Linear Correlation一、相关的类型一、相关的类型二、相关系数二、相关系数三、相关系数的假设检验三、相关系数的假设检验医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关n为了研究父亲与成年儿子为了研究父亲与成年儿子身高之间的关系,卡尔身高之间的关系,卡尔

3、.皮尔逊测量了皮尔逊测量了1078对父子对父子的身高。把的身高。把1078对数字表对数字表示在坐标上,如图。示在坐标上,如图。n它的形状象一块橄榄状的它的形状象一块橄榄状的云,中间的点密集,边沿云,中间的点密集,边沿的点稀少,其主要部分是的点稀少,其主要部分是一个椭圆。一个椭圆。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关一、相关的类型一、相关的类型正相关 负相关 完全正相关 完全负相关 零相关 医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关二、相关系数二、相关系数 样本的相关系数用r (correlation coefficient) 相关系数r的值在-1和1之间。

4、正相关时,r值在0和1之间,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,此时一个变量增加,另一个变量将减少。 r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关n一个产科医师发现孕妇尿中一个产科医师发现孕妇尿中雌三醇含量雌三醇含量与产儿的与产儿的体重体重有关。有关。n于是设想,通过测量待产妇尿中雌三醇含量,可于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。以预测产儿体重,以便对低出生体重进行预防。因此收集了因此收集了31例待产妇例待产妇24小时的

5、尿,测量其中的小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。雌三醇含量,同时记录产儿的体重。n问尿中雌三醇含量与产儿体重之间问尿中雌三醇含量与产儿体重之间相关系数相关系数是多是多少?是正相关还是负相关?少?是正相关还是负相关?n分析问题:总体分析问题:总体-样本、样本、 目的、变量、关系目的、变量、关系 医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关编号(1)尿雌三醇mg/24h(2产儿体重kg(3)编号(1)尿雌三醇mg/24h(2)产儿体重kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.4

6、6162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2 待产妇尿雌三醇含量与产儿体重关系待产妇尿雌三醇含量与产儿体重关系 医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关SPSS计算程序1.做散点图:GRAPHS-SCATTERT-SIMPLE-DEFINE2. 相关分析: ANALYZE-CORRELATION BIVARIATE -VARIABLES医

7、学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间呈正相关,相关系数是0.61。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关根据资料类型选择不同的方法计算根据资料类型选择不同的方法计算r Pearson: 连续变量,双变量正态分布资料连续变量,双变量正态分布资料Kendall: 资料不服从双变量正态分布或资料不服从双变量正态分布或 总体分布未知,等级资料。总体分布未知,等级资料。Spearman:等级

8、资料:等级资料医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关问题:我们能否得出结论:待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是0.61?为什么?医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关三、相关系数的假设检验三、相关系数的假设检验 n上例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体总体中的一个样本一个样本,由此得到的相关系数会存在抽样误差。n因为,总体相关系数( )为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。n这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变

9、量之间确实存在相关关系。 医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关对相关系数的假设检验,常用t检验,选用统计量t的计算公式如下: =n-2 医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关 H0 : =0 H1 : 0 =0.05 r=0.61, n=31, 代入公式t=n-2=31-2=29 t=4.14查t值表,t0.05(29)=2.045,查t值表,t0.05(29) =2.045,上述计算t=4.142.045,由t所推断的P值小于0.05按=0.05水准拒绝?,接受?认为待产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。 医学北京大学医学部医学统

10、计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关另外的例子:n识字数,鞋大小n游泳票与冰激凌销售量 需要排除其它变量的干扰!医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关例例题题:已已知知某某地地29名名13岁岁男男童童身身高高X1(cm)、体体重重X2(kg)和和肺肺活活量量Y(ml), 请请计计算算身身高高与肺活量,体重与肺活量的相关关系。与肺活量,体重与肺活量的相关关系。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关1、身高与肺活量的简单相关系数、身高与肺活量的简单相关系数医学北京大学医学部医学统计学进阶1第1讲多重线性

11、回归与相关2、体重与肺活量的简单相关系数、体重与肺活量的简单相关系数医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关3、身高与体重的简单相关系数、身高与体重的简单相关系数医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关第一节第一节 偏相关偏相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关一、概念一、概念 当有多个变量存在时,为了研究任何两当有多个变量存在时,为了研究任何两个变量之间的关系,而使与这两个变量有联系个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控制了其它一个或的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的

12、相关性。多个变量的影响下,计算两个变量的相关性。二、偏相关系数二、偏相关系数 偏相关系数是用来衡量任何两个变量之间偏相关系数是用来衡量任何两个变量之间的关系的大小。的关系的大小。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关当控制一个变量时,偏相关系数的计算公式: 当控制多个变量时,偏相关系数的计算公式较为复杂,此处省略。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关Analyze-Correlation-Partial把分析变量选入把分析变量选入 Variable 框框把控制变量选入把控制变量选入 Controlling for 框框点击点击 Options点击点击

13、Statistics:选择:选择 Mean and standard deviation Zero-order correlation Continue OK三、三、SPSS操作步骤操作步骤医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关结结 果:果:医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关身高与肺活量的偏相关系数身高与肺活量的偏相关系数(体重为控(体重为控制变量)制变量)P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for. X2 (体重)(体重) Y(肺活量)(肺活

14、量) X1(身高)(身高)Y (肺活量)(肺活量) 1.0000 .098 ( 0) ( 26) P= . P= .619X1 (身高)(身高) .098 1.0000 ( 26) ( 0) P= .619 P= .医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for. X1(身高)(身高) Y(肺活量)(肺活量) X2(体重)(体重)Y 1.0000 .569 ( 0) ( 26) P= . P= .002X2 .569 1.0000 (

15、 26) ( 0) P= .002 P= .肺活量与体重的偏相关系数肺活量与体重的偏相关系数(身高作(身高作为控制变量)为控制变量)医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关 n在待产妇尿中雌三醇含量和产儿体重之间的关系中,知道了二者之间成正相关。n那么,如果我们知道了一位待产妇的尿雌三醇含量,能推断出产儿的体重吗?或产儿的体重可能在什么范围内呢?n这要用直线回归的方法来解决。 医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关一、回归方程一、回归方程二、回归系数二、回归系数三、回归系数的假设检验三、回归系数的假设检验四、直线回归的应用四、直线回归的应用复习:复习: 直

16、线回归直线回归Linear Regression医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关n知知道道了了两两个个变变量量之之间间有有直直线线相相关关关关系系,并并且且一一个个变变量量的的变变化化会会引引起起另另一一个个变变量量的的变变化化,这这时时,如如果果它它们们之之间间存存在在准准确确、严严格格的的关关系系,它它们们的的变变化化可可用用函函数数方方程程来来表表示示,叫叫它它们们是是函函数数关关系系,它它们们之之间间的的关关系系式式叫叫函数方程函数方程。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关n但但在在实实际际生生活活当当中中,由由于于其其它它因因素素的的干

17、干扰扰,许许多多双双变变量量之之间间的的关关系系并并不不是是严严格格的的函函数数关关系系,不不能能用用函函数数方方程程反反映映,为为了了区区别别于于两两变变量量间间的的函函数数方方程程,我我们们称称这这种种关关系系式式为为直线回归方程直线回归方程,这种关系为直线回归,这种关系为直线回归. .医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关直线回归就是用来描述一个变量如何依赖依赖于另一个变量。其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回直线回归方程归方程。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关一、回归方程n简单直线回归简单直线回归

18、(linear regression)是用来描述一是用来描述一个变量依赖于另一个变量的线性关系。个变量依赖于另一个变量的线性关系。这里两变量的地位是不同的,其中这里两变量的地位是不同的,其中X为自为自变量,可随机变动亦可人为取值;而变量,可随机变动亦可人为取值;而Y被被视为依赖于视为依赖于X而变化的因变量。而变化的因变量。 医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关a称为截距称为截距(intercept),表示,表示X取值为取值为0时时Y的的平均水平。平均水平。b称为回归系数称为回归系数(regression coefficient)或直或直线的斜率线的斜率(slope),表示

19、,表示X每变化一个单位时,每变化一个单位时,Y平均改变平均改变b个单位。个单位。nb0时,随时,随X的增大而增大;的增大而增大;nb0时,随时,随X的增大而减小;的增大而减小;nb=0时,直线与时,直线与X轴平行,轴平行,Y与与X无直线关系无直线关系 医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关二、回归系数n在数理统计中,用最小二乘法的原理可求出在数理统计中,用最小二乘法的原理可求出a a、b b的计算公式。求解的计算公式。求解a a和和b b实际上就是怎样实际上就是怎样”找到一条直线使所有数据点与它的平均距找到一条直线使所有数据点与它的平均距离离“最近最近”。 医学北京大学医学

20、部医学统计学进阶1第1讲多重线性回归与相关这就是我们求得的二者关系的回归方程这就是我们求得的二者关系的回归方程从公式可求得: 根据上例的数据,求待产妇尿中雌三醇含量与产儿体重之间的回归方程。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关SPSS程序nANALYZE-REGRESSIONLINEAR医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关回归直线的描绘回归直线的描绘 n 根据求得的回归方程,可以在自变量X的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。n回归直线一定经过(0,a )

21、,( )。n这两点可以用来核对图线绘制是否正确。 医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关=2.15+0.061X是否一定能说明雌三醇与产儿体重之是否一定能说明雌三醇与产儿体重之间存在回归关系?间存在回归关系? 医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关三、回归系数的假设检验n与直线相关一样,直线回归方程也是从样与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在抽样误差本资料计算而得的,同样也存在抽样误差问题。所以,需要对样本的回归系数问题。所以,需要对样本的回归系数b进行进行假设检验,以

22、判断假设检验,以判断b是否从回归系数为零的是否从回归系数为零的总体中抽得。总体中抽得。n总体的回归系数一般用总体的回归系数一般用表示。表示。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关回归系数的检验方法有两种:回归系数的检验方法有两种:(1) 方差分析方差分析(2) t检验检验两种方法是等价的。两种方法是等价的。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关(1) 方差分析方差分析医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关因变量Y的变异的分解Y的分解:的分解:移项:移项:考虑全部样本:考虑全部样本:上式用符号表示:上式用符号表示:SS总总称为称为Y的总

23、离均差平方和的总离均差平方和SS回回称为回归平方和称为回归平方和SS残残称为残差平方和或剩余平方和称为残差平方和或剩余平方和医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关 不考虑回归时,不考虑回归时,Y的总变异的总变异SS总总全部视为随全部视为随机误差;而回归以后,回归的贡献使得随机机误差;而回归以后,回归的贡献使得随机误差减小为误差减小为SS剩剩。如果两变量间总体回归关。如果两变量间总体回归关系确实存在,回归的贡献就应当大于随机误系确实存在,回归的贡献就应当大于随机误差;大到何种程度时可以认为具有统计意义,差;大到何种程度时可以认为具有统计意义,可计算如下的可计算如下的F统计量:

24、统计量:医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关自由度分别是:自由度分别是:回回1,残残n-2 MS回回与与MS残残分别称为回归均方和残差均方。分别称为回归均方和残差均方。求得求得F值后查值后查F界值表得到界值表得到P值,最后按所取值,最后按所取 水水准作出总体回归关系是否成立的推断结论。准作出总体回归关系是否成立的推断结论。 医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关(2)t检验:nH0:=0nH1:0n =0.05统计量t的计算公式为:自由度自由度 =n-2医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关例1:nH0:=0nH1:0n =0.05

25、自由度自由度 =31-2=29,查,查t界值表,界值表,t0.05(29)=2.045, P0.05,按按 =0.05检验水准,拒绝检验水准,拒绝H0,接受,接受 H1,认,认为待产妇为待产妇24小时尿中雌三醇含量与产儿体重之间存小时尿中雌三醇含量与产儿体重之间存在直线回归关系。在直线回归关系。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关n对于一元线性回归来说,方差分析与对于一元线性回归来说,方差分析与t检检验是完全等价的,且有关系式:验是完全等价的,且有关系式:医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关利用SPSS实现直线回归:nSPSS操作步骤:操作步骤:An

26、alyze - Regression - Linear dependent: 因变量因变量 independent: 自变量自变量 method: 可选择可选择 enter forward backward stepwise点击点击statistics: 出现若干统计选项可供选择出现若干统计选项可供选择ContinueOK医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重

27、线性回归与相关四、直线回归的应用1. 描述两变量之间的依存关系描述两变量之间的依存关系 通过回归系数的假设检验通过回归系数的假设检验,若认为两变量若认为两变量之间存在直线回归关系之间存在直线回归关系,则可用直线回归则可用直线回归来描述。来描述。2. 利用回归方程进行预测利用回归方程进行预测 把自变量代入回归方程,对因变量进行估把自变量代入回归方程,对因变量进行估计,并可求出因变量的波动范围。计,并可求出因变量的波动范围。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关3.利用回归方程进行统计控制利用回归方程进行统计控制 利用回归方程进行逆估计,即要求因变量利用回归方程进行逆估计,即要

28、求因变量y的容许取值范围,逆向估计的容许取值范围,逆向估计X的取值范围。的取值范围。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关五、应用直线相关与回归的注意事项五、应用直线相关与回归的注意事项医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关(一)注意事项1.考虑实际意义考虑实际意义 进行相关回归分析要有实际意义,不可把进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来做相关回毫无关系的两个事物或现象用来做相关回归分析。归分析。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关2. 相关关系相关关系 相关关系不一定是因果关系,也可能是伴相关关系不一定

29、是因果关系,也可能是伴随关系,并不能证明事物间有内在联系。随关系,并不能证明事物间有内在联系。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关3. 利用散点图利用散点图 对于性质不明确的两组数据,可先做散点对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行程度、是正相关还是负相关,然后再进行相关回归分析。相关回归分析。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关4. 变量范围变量范围 相关分析和回归方程仅适用于样本的原始相关分析和回归方程仅适用于样本的原始数据范围之内,超出了这

30、个范围,我们不数据范围之内,超出了这个范围,我们不能得出两变量的相关关系和回归关系。能得出两变量的相关关系和回归关系。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关(二)相关与回归的区别1. 意义意义n相关反映两变量的相互关系,即在两个变相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。变化,是一种双向变化的关系。n回归是反映两个变量的依存关系,一个变回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一量的改变会引起另一个变量的变化,是一种单向的关系。种单向的关系。医学北京大学

31、医学部医学统计学进阶1第1讲多重线性回归与相关2. 应用应用 研究两个变量的相互关系用相关分析。研研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。究两个变量的依存关系用回归分析。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关3. 性质性质 相关是对两个变量之间的关系进行描述,相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。系的性质是什么,是正相关还是负相关。 回归是对两个变量做定量描述,研究两个回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预变

32、量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。测出另一个变量值,可以得到定量结果。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关4. 相关系数相关系数r与回归系数与回归系数b r与与b的绝对值反映的意义不同。的绝对值反映的意义不同。 r的绝对值越大,散点图中的点越趋向于一的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关条直线,表明两变量的关系越密切,相关程度越高。程度越高。 b的绝对值越大,回归直线越陡,说明当的绝对值越大,回归直线越陡,说明当X变化一个单位时,变化一个单位时,Y的平均变化就越大。反的平均变化就越大。反之也是一样。之也

33、是一样。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关(三)相关与回归的联系1. 关系关系 能进行回归分析的变量之间存在相关关系。能进行回归分析的变量之间存在相关关系。所以,对于两组新数据(两个变量)可先所以,对于两组新数据(两个变量)可先做散点图,求出它们的相关系数,对于确做散点图,求出它们的相关系数,对于确有相关关系的变量再进行回归分析,求出有相关关系的变量再进行回归分析,求出回归方程。回归方程。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关2. 相关系数相关系数r与回归系数与回归系数b r与与b的符号一致。的符号一致。r为正时,为正时,b也为正,表也为正,表示两变

34、量是正相关,是同向变化。示两变量是正相关,是同向变化。r为负时,为负时,b也为负,表示两变量是负相关,是反向变也为负,表示两变量是负相关,是反向变化。化。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关nr与与b的假设检验结果一致。对同一资料,的假设检验结果一致。对同一资料,可以证明可以证明r与与b假设检验的统计量假设检验的统计量t值的大小值的大小相等,因而结果总是相同的。相等,因而结果总是相同的。n由于对由于对r进行假设检验的统计量进行假设检验的统计量t值计算公式值计算公式比较简便,而且还可以直接查表。所以,比较简便,而且还可以直接查表。所以,可用可用r的显著检验代替的显著检验代替

35、b的显著性检验。的显著性检验。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关第二节 多重(多元)线性回归 在在医医学学研研究究中中,影影响响某某个个结结局局指指标标的的因因素素常常常常有有很很多多个个,特特别别对对于于慢慢性性非非传传染染性性疾疾病更是如此,例如心血管疾病、肿瘤等。病更是如此,例如心血管疾病、肿瘤等。 多多重重线线性性回回归归分分析析可可以以用用来来发发现现影影响响某某个个结结局局变变量量的的多多个个因因素素,并并有有可可能能建建立立有有效效的预测模型。的预测模型。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关一、多重线性回归模型 多重线性回归模型可视为

36、简单直线模型多重线性回归模型可视为简单直线模型的直接推广。简单的说,只有一个自变量的直接推广。简单的说,只有一个自变量的线性模型为简单直线回归模型,具有两的线性模型为简单直线回归模型,具有两个以上自变量的线性模型即为多重线性回个以上自变量的线性模型即为多重线性回归模型。归模型。 这里提及的回归模型中,都只有一个因这里提及的回归模型中,都只有一个因变量。变量。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关总体回归模型:总体回归模型: 0 0为常数项,为常数项,1 1 , , ,m m 称为称为总体偏回归系数。总体偏回归系数。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关样

37、本回归模型:样本回归模型:偏回归系数偏回归系数: b0为常数项,为常数项,b1,b2,bm为样本偏回归系数。为样本偏回归系数。 偏回归系数表示在其它所有自变量固定不变的情况下,偏回归系数表示在其它所有自变量固定不变的情况下,某一个自变量变化一个单位时引起因变量某一个自变量变化一个单位时引起因变量y变化的平均大变化的平均大小。小。 残差残差e:y 的变化中不能为自变量所解释的部分。的变化中不能为自变量所解释的部分。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关线性回归的适用条件:线性回归的适用条件:1.L:线性:线性自变量自变量x与应变量与应变量y之间存在线性之间存在线性关系;关系;

38、2.I:独立性:独立性y值相互独立,在模型中则要求值相互独立,在模型中则要求残差相互独立,不存在自相关;残差相互独立,不存在自相关; 3.N:正态性:正态性随机误差(即残差)随机误差(即残差)e服从均服从均值为零,方差为值为零,方差为 的正态分布;的正态分布;4. E:等方差:等方差 对于所有的自变量对于所有的自变量x,残差,残差e的方差齐。的方差齐。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关数据类型要求 因变量必须是数值型变量(连续变量)。因变量必须是数值型变量(连续变量)。 自自变变量量既既可可以以是是数数值值型型变变量量,也也可可以以是是分分类类型型变变量量。但但如如果果

39、是是多多分分类类变变量量,则则不不能能直直接接进进入入回回归方程,而要先进行哑变量设置(略)。归方程,而要先进行哑变量设置(略)。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关例例2. 某某研研究究者者测测量量了了29名名儿儿童童血血液液中中血血红红蛋蛋白白(g)、钙钙(g)、镁镁(g) 、铁铁(g) 、锰锰(g) 、铜铜(g)的的含含量量。试试以以血血红红蛋蛋白白为因变量,其它为自变量,建立回归模型。为因变量,其它为自变量,建立回归模型。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关 做回归分析的第一步通常是做

40、散点图,做回归分析的第一步通常是做散点图,以发现因变量与自变量之间是否大致存在以发现因变量与自变量之间是否大致存在直线关系。如有明显的曲线关系,则不能直线关系。如有明显的曲线关系,则不能直接做线性回归模型。直接做线性回归模型。 另外,散点图还有助于发现异常点。另外,散点图还有助于发现异常点。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关采用最小二乘法(采用最小二乘法(LSLS)估计回归系数)估计回归系数b b即要求残差平方和:即要求残差平方和:达到最小值。达到最小值。

41、 求解过程需要进行矩阵运算,并要借助计算机完成。求解过程需要进行矩阵运算,并要借助计算机完成。二、回归系数的估计医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关或写成:或写成: Y=XB+E如矩如矩阵XX的逆存在,的逆存在,则回回归系数矩系数矩阵B=(XX)-1XY所有样本点数据代入模型后可写成如下矩阵形式:所有样本点数据代入模型后可写成如下矩阵形式:医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关SPSS回归分析输出结果医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关1.对整个方程的检验:对整个方程的检验

42、:H0: 1 2 m 02.对单个回归系数或常数项的检验:对单个回归系数或常数项的检验:H0: i 0 三、方程的显著性检验:三、方程的显著性检验:医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关对整个方程的检验: H0: 回归系数全为零回归系数全为零 1=2=m=0 H1: 回归系数不全为零回归系数不全为零 0.05FMSreg/MSE26.306自由度自由度 dfreg5, dfe23, Pt20.023 df2=23 p=0.982t38.079 df3=23 p0.001t50.672 df5=23 p=0.508只有铁的偏回归系数有意义。医学北京大学医学部医学统计学进阶1第

43、1讲多重线性回归与相关四、筛选有影响的自变量四、筛选有影响的自变量选择标准:对各自变量的偏回归平方和进行选择标准:对各自变量的偏回归平方和进行检验,检验,F值大于预先设定的值大于预先设定的F,则将此变,则将此变量选入或保留在方程内。量选入或保留在方程内。偏回归平方和:将某个变量引入方程后所引偏回归平方和:将某个变量引入方程后所引起的回归平方和增加的部分;或者,将某起的回归平方和增加的部分;或者,将某个变量剔除方程后所引起的回归平方和减个变量剔除方程后所引起的回归平方和减少的部分。少的部分。例如:将本例中钙剔除后,回归平方和从例如:将本例中钙剔除后,回归平方和从113.26 变为变为109.94

44、,则钙的偏回归平方,则钙的偏回归平方和为和为113.26-109.943.32医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关自变量的选择方法自变量的选择方法1. 强行进入法(强行进入法(Enter):为默认选择项,定):为默认选择项,定义的全部自变量均引入方程。义的全部自变量均引入方程。2. 后退法(后退法(Backward):):先建立一个包含全先建立一个包含全部自变量的回归方程,然后每次剔除一个部自变量的回归方程,然后每次剔除一个偏回归平方和最小且无统计学意义的自变偏回归平方和最小且无统计学意义的自变量,直到不能剔除为止。量,直到不能剔除为止。医学北京大学医学部医学统计学进阶1

45、第1讲多重线性回归与相关3. 前进法(前进法(Forward):回归方程由一个自变量开):回归方程由一个自变量开始,每次引入一个偏回归平方和最大,且具有始,每次引入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到无统计统计学意义的自变量,由少到多,直到无统计学意义的自变量被引入为止。学意义的自变量被引入为止。4. 逐步法(逐步法(Stepwise):它是前进法和后退法的):它是前进法和后退法的结合。结合。5. 消去法(消去法(Remove):建立回归方程时,根据设):建立回归方程时,根据设定的条件剔除部分自变量。定的条件剔除部分自变量。医学北京大学医学部医学统计学进阶1第1讲多重

46、线性回归与相关选用后退法选用后退法医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关钙保留下来的钙保留下来的原因:后退法原因:后退法的默认剔除标的默认剔除标准是准是0.1医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关最终回归模型: 以血红蛋白含量作为因变量y,钙、镁、铁、锰、铜的含量作为自变量进行多元线性回归分析,变量筛选方法为后退法(backward),剔除标准为p0.1()。最后结果只有钙和铁保留在方程中。其中x1代表钙,x3代表铁(方程和偏回归系数的检验略)医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关两个自变量与因变量的拟合面示意图医学北京大学医学部医学

47、统计学进阶1第1讲多重线性回归与相关注意:自变量的选择不是一个单独的数学问注意:自变量的选择不是一个单独的数学问题,可以放心地交给计算机自动完成,而题,可以放心地交给计算机自动完成,而必须结合专业知识,综合考察。必须结合专业知识,综合考察。1.对因变量确实有影响的,应当选入。对因变量确实有影响的,应当选入。2.不同筛选方法结果不一致时要谨慎,重点不同筛选方法结果不一致时要谨慎,重点考虑共线性的问题。考虑共线性的问题。3.所做出的模型不能视为所做出的模型不能视为“最佳最佳”模型,而模型,而应视为应视为“局部最优局部最优”模型,因为所纳入分模型,因为所纳入分析的自变量中常常不能包括全部的影响因析的

48、自变量中常常不能包括全部的影响因素,甚至是很重要的因素。素,甚至是很重要的因素。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关五、标准化偏回归系数五、标准化偏回归系数 由于各自变量量纲(测量单位)不同,各偏由于各自变量量纲(测量单位)不同,各偏由于各自变量量纲(测量单位)不同,各偏由于各自变量量纲(测量单位)不同,各偏回归系数之间不能直接比较。回归系数之间不能直接比较。回归系数之间不能直接比较。回归系数之间不能直接比较。 标准化偏回归系数消除了量纲的影响,可以标准化偏回归系数消除了量纲的影响,可以标准化偏回归系数消除了量纲的影响,可以标准化偏回归系数消除了量纲的影响,可以用来直接比

49、较各自变量对因变量作用的大小。用来直接比较各自变量对因变量作用的大小。用来直接比较各自变量对因变量作用的大小。用来直接比较各自变量对因变量作用的大小。 标准化偏回归系数的标准化偏回归系数的标准化偏回归系数的标准化偏回归系数的计算方法:计算方法:计算方法:计算方法: 其中,其中,其中,其中,s sy y代表因变量的代表因变量的代表因变量的代表因变量的标准差,标准差,标准差,标准差,s si i代表不同自变代表不同自变代表不同自变代表不同自变量的标准差。量的标准差。量的标准差。量的标准差。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关 从本例来看,钙和铁的偏回归系数的从本例来看,钙和铁

50、的偏回归系数的绝对值差不多,但铁的标准化偏回归系数绝对值差不多,但铁的标准化偏回归系数确要大得多,表示铁对血红蛋白的作用比确要大得多,表示铁对血红蛋白的作用比钙要大。钙要大。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关六、回归模型的优良性评价(拟和六、回归模型的优良性评价(拟和效果)效果)1.决定系数决定系数R2:0R21 决定系数反映决定系数反映Y的全部变异中能够被回的全部变异中能够被回归方程中的全部自变量所解释的比例。归方程中的全部自变量所解释的比例。R21, 越接近于越接近于1,说明模型拟和得越好。,说明模型拟和得越好。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与

51、相关2.复相关系数复相关系数R:0R1 复相关系数描述了因变量复相关系数描述了因变量y与方程中与方程中m个个自变量的总体相关系数。自变量的总体相关系数。R越接近于越接近于1,说明,说明因变量与自变量的关系越密切,模型拟和得因变量与自变量的关系越密切,模型拟和得越好。越好。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关3.校正决定系数校正决定系数R2adj: R和和R2有有一一个个缺缺陷陷,随随着着自自变变量量个个数数的的增增加加,R2总总是是增增加加,造造成成变变量量数数目目越越多多,则则拟拟和和效效果果越越优优良良的的错错觉觉。为为解解决决这这一一问问题题,可可采采用用校校正正决

52、决定定系系数。数。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关3.校正决定系数校正决定系数R2adj: MS代表均方,用离均差平方和代表均方,用离均差平方和SS除以自由度得到除以自由度得到(详见方差分析):(详见方差分析): MS残残SS残残/(n-m-1) MS总总SS总总/(n-1) 校正决定系数校正决定系数消除了自变量的个数以及样本量的大消除了自变量的个数以及样本量的大小对决定系数的影响小对决定系数的影响。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关 本例显示,自变量个数最多的模型本例显示,自变量个数最

53、多的模型1的的复相关系数和决定系数最大,而最后一个模复相关系数和决定系数最大,而最后一个模型(最优模型)的校正决定系数最大。型(最优模型)的校正决定系数最大。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关七、残差分析七、残差分析 残差分析常用于检验回归模型是否符合残差分析常用于检验回归模型是否符合适用条件(如独立性、正态性、方差齐性)适用条件(如独立性、正态性、方差齐性),发现异常点(强影响点)。,发现异常点(强影响点)。 一般所说的残差(一般所说的残差(residual)是指拟和)是指拟和残差,指因变量的实测值与回归方程预测残差,指因变量的实测值与回归方程预测值之差:值之差:医学

54、北京大学医学部医学统计学进阶1第1讲多重线性回归与相关 由于残差有单位,不适合相互比较,可由于残差有单位,不适合相互比较,可用标准化残差(用标准化残差(Standardized residual)和学生氏残差(和学生氏残差(Studentized residual)。)。这两个残差都经过了标准化变换,去除了这两个残差都经过了标准化变换,去除了单位。单位。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关1.独立性检查 独立性是指不同观察对象之间的独立性是指不同观察对象之间的y值相互值相互独立,没有联系。在模型中,则是要求残差独立,没有联系。在模型中,则是要求残差间相互独立,不存在自相关

55、。间相互独立,不存在自相关。 分析方法:分析方法:Durbin-Watson(D)残差序)残差序列相关性检验。列相关性检验。0D4D2时,残差与自变量相互独立时,残差与自变量相互独立符合独立性的推荐取值范围:符合独立性的推荐取值范围:1D3医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关2. 正态性检查 残差的正态性是回归模型的假设条件,残差的正态性是回归模型的假设条件,在样本量比较大时可以适当放宽。在样本量比较大时可以适当放宽。 检查方法:标准化或学生氏残差的直方检查

56、方法:标准化或学生氏残差的直方图和残差的累积概率图(图和残差的累积概率图(P-P图)。图)。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关3. 残差的等方差性 回归模型中的等方差性,比正态性要重要。回归模型中的等方差性,比正态性要重要。 绘制残差图检查等方差性:绘制残差图检查等方差性: 以以y的预测值为横坐标,学生氏的预测值为横坐标,学生氏/标准化标准化残差为纵坐标做散点图,如果残差在零水残差为纵坐标做散点图,

57、如果残差在零水平上下均匀分布,没有某种趋势存在,可平上下均匀分布,没有某种趋势存在,可认为残差方差齐。认为残差方差齐。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关 1 2 3 4 y残差210-102残差210-102 1 2 3 4 y残差210-102 1 2 3 4 y方差齐方差齐方差不齐方差不齐自变量与因自变量与因变量可能不变量可能不是直线关系是直线关系医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关4.发现强影响点 远离多数数据的点可能成为强影响点。远离多数数据的点可能成为强影响点。 强影响点包括强影响

58、点包括y方向远离的异常点和方向远离的异常点和x方向方向远离的高杠杆点。远离的高杠杆点。发现方法:发现方法:1.y与与x的散点图的散点图2.残差诊断(略)残差诊断(略)医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关八、共线性诊断八、共线性诊断 共线性(共线性(collinearity)是指回归模型中的)是指回归模型中的自变量之间存在着比较明显的线性相关关系。自变量之间存在着比较明显的线性相关关系。 共线性对回归模型有很大的危害性:共线性对回归模型有很大的危害性:1.回归模型不可靠,不同的变量选择方法得出的回归模型不可靠,不同的变量选择方法得出的结果不一致。结果不一致。2.偏回归系数的

59、估计值远离经验值,甚至符号相偏回归系数的估计值远离经验值,甚至符号相反。反。3.专业上明确有影响的因素不能纳入方程。专业上明确有影响的因素不能纳入方程。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关共线性诊断的方法:共线性诊断的方法:第一类方法:基于复相关系数:第一类方法:基于复相关系数: 1.容忍度:容忍度: 以其中一个以其中一个xi为因变量,其它为因变量,其它x为自变量做回为自变量做回归,获得复相关系数归,获得复相关系数Ri, 容忍度容忍度 TOL1-R2i容忍度小则说明共线性强。容忍度小则说明共线性强。 TOL0.2 或或5 或或 10 说明存在严重的共线性。说明存在严重的共

60、线性。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关第二类:基于特征根的方法第二类:基于特征根的方法 计算自变量的相关系数阵的特征根,如果有计算自变量的相关系数阵的特征根,如果有接近于零的特征根,则说明有共线性。接近于零的特征根,则说明有共线性。 3.条件指数:条件指数: 条件指数(最大特征根条件指数(最大特征根/最小特征根)最小特征根)1/2 条件指数的值越大说明自变量间共线性的可条件指数的值越大说明自变量间共线性的可能性越大。能性越大。 0条件指数数条件指数数10 认为没有共线性;认为没有共线性; 10条件指数数条件指数数30 认为有严重共线性。认为有严重共线性。医学北京大学医

61、学部医学统计学进阶1第1讲多重线性回归与相关医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关共线性问题的解决1.可尝试增大样本量;可尝试增大样本量;2.根据专业知识,去除专业上认为不重要,根据专业知识,去除专业上认为不重要,但带来较强共线性的变量;但带来较强共线性的变量;3.进行主成分进行主成分/因子分析,将多个共线性强的因子分析,将多个共线性强的自变量综合成少量新的因子(新变量);自变量综合成少量新的因子(新变量);4.进行岭回归分析,或通径分析。进行岭回归分析,或通径分析。医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关谢谢 谢谢 Thanks医学北京大学医学部医学统计学进阶1第1讲多重线性回归与相关

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号