线性相关与回归(简单线性相关与回归、多重线性回归、spearman等级相关)

资源描述

《线性相关与回归(简单线性相关与回归、多重线性回归、spearman等级相关)》由会员分享，可在线阅读，更多相关《线性相关与回归(简单线性相关与回归、多重线性回归、spearman等级相关)（62页珍藏版）》请在金锄头文库上搜索。

1、SPSS软件在医学科研中的应用,何平平,北大医学部流行病与卫生统计学系 Tel：82801619,线性相关与回归,（一）直线回归（linear regression）,1.定义：用直线方程表达X（自变量，independent variable；解释变量，explanatory variable；预测变量，predictor variable ）和Y （因变量，dependent variable；响应变量，response variable；结局变量，outcome variable ）之间的数量关系。,一、简单线性相关与回归,：是Y（实测值）的预测值（predicted value），是直

2、线上点的纵坐标。对于每一个X值，根据直线回归方程都可以计算出相应的Y预测值。,（具体计算过程参见卫生统计学第4版）。,2.b和a的意义,a：是回归直线在Y轴上的截距，即X0时Y的预测值。 b：是回归直线的斜率，又称为回归系数。表示当X改变一个单位时，Y的预测值平均改变|b|个单位。,3.b和a的估计,最小二乘方法（the method of least squares）:各实测点到直线的纵向距离的平方和最小。,4.b的假设检验： b为样本回归系数，由于抽样误差，实际工作中b一般都不为0。要判断直线回归方程是否成立，需要检验总体回归系数是否为0。,只有当0时，才能认为直线回归方程成立（具有统计

3、学意义）。,H0：=0 H1：0,5.直线回归方程的置信区间估计,(1)总体回归系数的95置信区间估计,(2) Y的均数的95置信区间估计当XX0时，以95的概率估计Y的均数的置信区间为,(3)个体Y值的95容许区间估计当XX0时，以95的概率估计个体Y值的波动范围为,1.定义描述具有直线关系的两个变量之间的相互关系。,（二）直线相关（linear correlation）,r：相关系数，correlation coefficient,用来衡量有直线关系的两个变量之间相关的密切程度和方向。-1r1 r0，正相关；r=1为完全正相关 r 0，负相关；r=-1为完全负相关 |r|越大，两变量

4、相关越密切（前提：r有统计学意义）,2.相关类型,正相关：0r1,负相关-1r0,零相关 r =0,2.相关类型,r为样本相关系数，由于抽样误差，实际工作中r一般都不为0。要判断两变量之间是否存在相关性，需要检验总体相关系数是否为0。,只有当0时，才能根据|r|的大小判断相关的密切程度。,3.r的假设检验,H0：=0 H1： 0,4.相关与回归的区别和联系,（1）相关与回归的意义不同相关表达两个变量之间相互关系的密切程度和方向。回归表达两个变量之间的数量关系，已知X值可以预测Y值。从散点图上，散点围绕回归直线的分布越密集，则两变量相关系数越大；回归直线的斜率越大，则回归系数越大。（2）r与

5、b的符号一致同正同负。,（3）r与b的假设检验等价,（4）可以用回归解释相关,r2称为决定系数（coefficient of determination）, 其越接近于1，回归直线拟和的效果越好。,4.相关与回归的区别和联系,例1 为研究中年女性体重指数和收缩压的关系，随机测量了16名40岁以上的女性的体重指数和收缩压（见数据文件p237.sav）。变量说明：X:体重指数；Y:收缩压（mmHg）。,1.绘制散点图,散点图显示：收缩压与体重指数之间有线性相关趋势，因此可以进一步做直线回归与相关,例2：由于改革开放政策，深圳特区中外来人口大幅度增加，为了考察特区中外来人口对本地经济发展的贡献

6、，深圳特区统计局收集了所属的宝安县在1987年末18个镇的人口与工农业总产值数据（见数据文件reg.sav）。此处把工农业总产值当作因变量（W），而把外地及本地人口数当作两个自变量（Z1，Z2）。,二、多重线性回归分析,（有关统计方法的原理及计算参见孙尚拱，医学多变量统计与统计软件，北京医科大学出版社，2000）,数据文件reg.sav,1.如何估计自变量与因变量之间的相互关系？（估计回归方程） 2.哪些自变量对因变量有影响？（影响因素分析） 3.哪一个自变量对因变量的影响更重要？（自变量的相对重要性分析） 4.如何用自变量预测因变量？（预测分析）,（一）多重回归分析的任务,（二）多重回归分析

7、的适用条件,1.自变量与因变量之间存在线性关系 2.残差的正态性 3.残差的等方差性 4.剔除强影响点（突出点，outliers） 5.自变量之间不应存在共线性 6.独立性,关于独立性：所有的观测值是相互独立的。如果受试对象仅被随机观测一次，那么一般都会满足独立性的假定。但是出现下列三种情况时，观测值不是相互独立的：时间序列、重复测量等情况。 SPSS软件在“Linear Regression：Statistics”对话框中，提供了Durbin-Watson统计量d，以检验自相关系数是否为0。当d值接近于2，则残差之间是不相关的。,1.如何估计自变量与因变量之间的相互关系？（估计回归方程）,

8、其中y为实测值，为预测值（predicted value）,估计模型中系数的方法：最小二乘方法（Least Square，LS），即残差平方和最小。,b1， b2 bm称为偏回归系数（partial regression coefficient）：当固定其他变量时，xm每增加一个单位，y的增加值都是bm。,（一）多重回归分析的任务,模型拟和的优良性指标,R：复相关系数，反映了Y与M个自变量的总体相关系数； R2：决定系数（R Square） R2c：调整决定系数（Adjusted R square ），是对决定系数的修正，是更客观的指标。,这些指标越接近于1，说明回归模型拟合越好。除了上

9、述指标，还有残差标准误s，残差标准差越小，说明回归模型拟合越好。,2.哪些自变量对因变量有影响？（影响因素分析）,对回归模型的统计检验,当P0.05,则认为此回归模型有显著性。,对自变量的统计检验,当P0.05,则认为此自变量对因变量有影响。,自变量的筛选,实际应用中，通常从专业知识出发，建立一个简约（parsimonious）的回归模型，即用尽可能少的自变量拟合模型。常用方法： 1.前进法（Forward）：逐步增加变量到模型中（由少到多），对已经进入的变量不再剔除；SPSS中默认的选入自变量的检验水准为0.05。 2.后退法（Backward）：从模型中逐步剔除变量（由多到少），对已经剔

10、除的变量不再进入；SPSS中默认的剔除自变量的检验水准为0.10。 3.逐步法（Stepwise）：结合了前进法和后退法，变量边进入边剔除。,3.哪一个自变量对因变量的影响更重要？（自变量的相对重要性分析）,当自变量的量纲相同时，衡量自变量相对重要性的指标：偏回归系数；若偏回归系数的绝对值越大，则相应自变量对因变量的影响就越大。,当自变量的量纲不同时，衡量自变量相对重要性的指标：标准化偏回归系数（Standardized regression coefficient）、偏相关系数（Partial Correlation）和部分相关系数（Part Correlation）。上述指标的绝对值越

11、大，则相应自变量对因变量的影响就越大。,标准化偏回归系数：对自变量、因变量作标准化处理后计算的回归系数。偏相关系数：因变量与自变量均扣除其他自变量影响之后，二者之间的相关系数。与简单相关系数（Pearson相关系数）不同；例如：考察因变量Y与自变量X1 、X2的多元回归分析，Y与X1的偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1的简单相关系数为忽略X2影响后的Y与X1的相关性。部分相关系数：自变量扣除其他自变量影响之后，因变量与自变量之间的相关系数。与偏相关系数不同，部分相关系数中因变量未扣除其他自变量的影响。,4.如何用自变量预测因变量？（预测分析）,当自变量取某个数值时，y

12、的预测值为,Y的均数的95置信区间,个体Y值的95容许区间预测分析时，（x10，x20 xm0）应该在样本的自变量取值范围内。,1.自变量与因变量之间存在线性关系,通过绘制y与每个自变量的偏相关散点图，可以判断y与自变量之间是否存在线性关系。,2.残差的正态性通过绘制标准化残差的直方图以及正态概率图（P-P图），可以判断y是否服从正态分布。此条件可以放宽，只要不是严重偏离正态即可。,3.残差的等方差性,通过绘制标准化残差与预测值的散点图，若标准化残差在零水平线上下波动，无明显的规律性，则可以判断y满足等方差的假定。,（二）多重回归分析的适用条件,通过标准化残差（Standardized R

13、esiduals）、学生氏残差（Studentlized Residuals）来判断强影响点。当指标的绝对值大于3时，可以认为样本存在强影响点。删除强影响点应该慎重，需要结合专业知识。以下两种情况可以考虑删除强影响点：1.强影响点是由于数据记录错误造成的；2.强影响点来自不同的总体。,4.剔除强影响点（Influential cases；或称为突出点，outliers）,5.自变量之间不应存在共线性（Collinear）,当一个（或几个）自变量可以由其他自变量线性表示时，称该自变量与其他自变量间存在共线性关系。常见于：1.一个变量是由其他变量派生出来的，如：BMI由身高和体重计算得出；2

14、.一个变量与其他变量存在很强的相关性。当自变量之间存在共线性时，会使回归系数的估计不确定、预测值的精度降低以及对y有影响的重要自变量不能选入模型。,共线性诊断方法： 1.TOL（容许度，Tolerance）法：TOL越接近零，共线性越大。 2.VIF（方差膨胀因子，Variance Inflation Factor，VIF ）法：VIF越大，共线性越大。 3.特征根（Eigenvalue）法：如果自变量相关矩阵的特征根近似于零，则自变量之间存在共线性。 4.CI（条件指数，Condition Index）法：CI越大，共线性越大。当自变量之间存在共线性时，可以剔除某个自变量或者采用岭回归

15、分析（Ridge Regression Analysis）。,1. 数据预处理：根据经济学专业知识，需要先对Z1、Z2、W作对数变换，分别记为X1、X2、Y。,（三）多重线性回归：实例分析,2.多重回归分析,Statistics对话框,Plots对话框,Save对话框,从简单相关系数可见：Y与X1、X2存在较强相关性，X1、X2存在中等相关性。,3.输出结果解释,此模型的复相关系数为0.857，调整决定系数为0.699，反映此模型拟和较好；模型经统计学检验，F=20.738，P0.05，说明此多元回归模型有显著性。,经统计学检验，X1与X2均有显著性，因此回归模型为；根据偏回归系数的大小，可

16、以认为X2对Y的影响比X1大。,共线性诊断：两个自变量之间不存在共线性。,因为标准化残差、学生化残差的绝对值小于3，所以从统计学上认为样本不存在强影响点。,直方图及P-P图,从残差直方图及P-P图可见：残差正态性不太好，可能与样本量太小有关。,通过绘制y与X1的偏相关散点图，可以判断y与X1之间存在线性关系。,通过绘制y与X2的偏相关散点图，可以判断y与X1之间存在线性关系。,检查残差的等方差性：,由图可见：残差满足等方差性。,重要提示：经典的多元线性回归：自变量和因变量均为连续变量。多元线性回归分析允许自变量为分类变量，但当自变量为多分类变量时，需要以“哑变量（dummy variables）”的方式引入模型。如：某个自变量为“文化程度”：1=文盲，2=小学，3=中学，4=大学及以上。若以“大学及以上”为参照，关心文盲、小学、中学分别与大学及以上的比较，则进行回归分析时，此自变量须用3个哑变量表达：x1: 1=文盲，0=其他；x2: 1=小学，0=其他；x3: 1=中学，0=其他。,三

展开阅读全文