线性相关与回归(简单线性相关与回归、多重线性回归、spearman等级相关)

上传人:第*** 文档编号:61711293 上传时间:2018-12-10 格式:PPT 页数:62 大小:988.01KB
返回 下载 相关 举报
线性相关与回归(简单线性相关与回归、多重线性回归、spearman等级相关)_第1页
第1页 / 共62页
线性相关与回归(简单线性相关与回归、多重线性回归、spearman等级相关)_第2页
第2页 / 共62页
线性相关与回归(简单线性相关与回归、多重线性回归、spearman等级相关)_第3页
第3页 / 共62页
线性相关与回归(简单线性相关与回归、多重线性回归、spearman等级相关)_第4页
第4页 / 共62页
线性相关与回归(简单线性相关与回归、多重线性回归、spearman等级相关)_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《线性相关与回归(简单线性相关与回归、多重线性回归、spearman等级相关)》由会员分享,可在线阅读,更多相关《线性相关与回归(简单线性相关与回归、多重线性回归、spearman等级相关)(62页珍藏版)》请在金锄头文库上搜索。

1、SPSS软件在医学科研中的应用,何平平,北大医学部流行病与卫生统计学系 Tel:82801619,线性相关与回归,(一)直线回归(linear regression),1.定义:用直线方程表达X(自变量,independent variable;解释变量,explanatory variable;预测变量,predictor variable )和Y (因变量,dependent variable;响应变量,response variable;结局变量,outcome variable )之间的数量关系。,一、简单线性相关与回归,:是Y(实测值)的预测值(predicted value),是直

2、线上点的纵坐标。对于每一个X值,根据直线回归方程都可以计算出相应的Y预测值。,(具体计算过程参见卫生统计学第4版)。,2.b和a的意义,a:是回归直线在Y轴上的截距,即X0时Y的预测值。 b:是回归直线的斜率,又称为回归系数。 表示当X改变一个单位时,Y的预测值平均改变|b|个单位。,3.b和a的估计,最小二乘方法(the method of least squares):各实测点到直线的纵向距离的平方和最小。,4.b的假设检验: b为样本回归系数,由于抽样误差,实际工作中b一般都不为0。要判断直线回归方程是否成立,需要检验总体回归系数是否为0。,只有当0时,才能认为直线回归方程成立(具有统计

3、学意义)。,H0:=0 H1:0,5.直线回归方程的置信区间估计,(1)总体回归系数的95置信区间估计,(2) Y的均数的95置信区间估计 当XX0时,以95的概率估计Y的均数的置信区间为,(3)个体Y值的95容许区间估计 当XX0时,以95的概率估计个体Y值的波动范围为,1.定义 描述具有直线关系的两个变量之间的相互关系。,(二)直线相关(linear correlation),r:相关系数,correlation coefficient,用来衡量有直线关系的两个变量之间相关的密切程度和方向。-1r1 r0,正相关;r=1为完全正相关 r 0,负相关;r=-1为完全负相关 |r|越大,两变量

4、相关越密切(前提:r有统计学意义),2.相关类型,正相关:0r1,负相关-1r0,零相关 r =0,2.相关类型,r为样本相关系数,由于抽样误差,实际工作中r一般都不为0。要判断两变量之间是否存在相关性,需要检验总体相关系数是否为0。,只有当0时,才能根据|r|的大小判断相关的密切程度。,3.r的假设检验,H0:=0 H1: 0,4.相关与回归的区别和联系,(1)相关与回归的意义不同 相关表达两个变量之间相互关系的密切程度和方向。回归表达两个变量之间的数量关系,已知X值可以预测Y值。从散点图上,散点围绕回归直线的分布越密集,则两变量相关系数越大;回归直线的斜率越大,则回归系数越大。 (2)r与

5、b的符号一致 同正同负。,(3)r与b的假设检验等价,(4) 可以用回归解释相关,r2称为决定系数(coefficient of determination), 其越接近于1,回归直线拟和的效果越好。,4.相关与回归的区别和联系,例1 为研究中年女性体重指数和收缩压的关系,随机测量了16名40岁以上的女性的体重指数和收缩压(见数据文件p237.sav)。 变量说明:X:体重指数;Y:收缩压(mmHg)。,1.绘制散点图,散点图显示:收缩压与体重指数之间有线性相关趋势,因此可以进一步做直线回归与相关,例2:由于改革开放政策,深圳特区中外来人口大幅度增加,为了考察特区中外来人口对本地经济发展的贡献

6、,深圳特区统计局收集了所属的宝安县在1987年末18个镇的人口与工农业总产值数据(见数据文件reg.sav)。此处把工农业总产值当作因变量(W),而把外地及本地人口数当作两个自变量(Z1,Z2)。,二、多重线性回归分析,(有关统计方法的原理及计算参见孙尚拱,医学多变量统计与统计软件,北京医科大学出版社,2000),数据文件reg.sav,1.如何估计自变量与因变量之间的相互关系?(估计回归方程) 2.哪些自变量对因变量有影响?(影响因素分析) 3.哪一个自变量对因变量的影响更重要?(自变量的相对重要性分析) 4.如何用自变量预测因变量?(预测分析),(一)多重回归分析的任务,(二)多重回归分析

7、的适用条件,1.自变量与因变量之间存在线性关系 2.残差的正态性 3.残差的等方差性 4.剔除强影响点(突出点,outliers) 5.自变量之间不应存在共线性 6.独立性,关于独立性: 所有的观测值是相互独立的。如果受试对象仅被随机观测一次,那么一般都会满足独立性的假定。但是出现下列三种情况时,观测值不是相互独立的:时间序列、重复测量等情况。 SPSS软件在“Linear Regression:Statistics”对话框中,提供了Durbin-Watson统计量d,以检验自相关系数是否为0。当d值接近于2,则残差之间是不相关的。,1.如何估计自变量与因变量之间的相互关系?(估计回归方程),

8、其中y为实测值, 为预测值(predicted value),估计模型中系数的方法:最小二乘方法(Least Square,LS),即残差平方和最小。,b1, b2 bm称为偏回归系数(partial regression coefficient) :当固定其他变量时,xm每增加一个单位,y的增加值都是bm。,(一)多重回归分析的任务,模型拟和的优良性指标,R:复相关系数,反映了Y与M个自变量的总体相关系数; R2:决定系数(R Square) R2c:调整决定系数(Adjusted R square ),是对决定系数的修正,是更客观的指标。,这些指标越接近于1,说明回归模型拟合越好。 除了上

9、述指标,还有残差标准误s,残差标准差越小,说明回归模型拟合越好。,2.哪些自变量对因变量有影响?(影响因素分析),对回归模型的统计检验,当P0.05,则认为此回归模型有显著性。,对自变量的统计检验,当P0.05,则认为此自变量对因变量有影响。,自变量的筛选,实际应用中,通常从专业知识出发,建立一个简约(parsimonious)的回归模型,即用尽可能少的自变量拟合模型。 常用方法: 1.前进法(Forward):逐步增加变量到模型中(由少到多),对已经进入的变量不再剔除;SPSS中默认的选入自变量的检验水准为0.05。 2.后退法(Backward):从模型中逐步剔除变量(由多到少),对已经剔

10、除的变量不再进入;SPSS中默认的剔除自变量的检验水准为0.10。 3.逐步法(Stepwise):结合了前进法和后退法,变量边进入边剔除。,3.哪一个自变量对因变量的影响更重要?(自变量的相对重要性分析),当自变量的量纲相同时,衡量自变量相对重要性的指标: 偏回归系数;若偏回归系数的绝对值越大,则相应自变量对因变量的影响就越大。,当自变量的量纲不同时,衡量自变量相对重要性的指标: 标准化偏回归系数(Standardized regression coefficient)、偏相关系数(Partial Correlation)和部分相关系数(Part Correlation)。上述指标的绝对值越

11、大,则相应自变量对因变量的影响就越大。,标准化偏回归系数:对自变量、因变量作标准化处理后计算的回归系数。 偏相关系数:因变量与自变量均扣除其他自变量影响之后,二者之间的相关系数。与简单相关系数(Pearson相关系数)不同;例如:考察因变量Y与自变量X1 、X2的多元回归分析,Y与X1的偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1的简单相关系数为忽略X2影响后的Y与X1的相关性。 部分相关系数:自变量扣除其他自变量影响之后,因变量与自变量之间的相关系数。与偏相关系数不同,部分相关系数中因变量未扣除其他自变量的影响。,4.如何用自变量预测因变量?(预测分析),当自变量取某个数值时,y

12、的预测值为,Y的均数的95置信区间,个体Y值的95容许区间 预测分析时,(x10,x20 xm0)应该在样本的自变量取值范围内。,1.自变量与因变量之间存在线性关系,通过绘制y与每个自变量的偏相关散点图,可以判断y与自变量之间是否存在线性关系。,2.残差的正态性 通过绘制标准化残差的直方图以及正态概率图(P-P图),可以判断y是否服从正态分布。此条件可以放宽,只要不是严重偏离正态即可。,3.残差的等方差性,通过绘制标准化残差与预测值的散点图,若标准化残差在零水平线上下波动,无明显的规律性,则可以判断y满足等方差的假定。,(二)多重回归分析的适用条件,通过标准化残差(Standardized R

13、esiduals)、学生氏残差(Studentlized Residuals)来判断强影响点 。当指标的绝对值大于3时,可以认为样本存在强影响点。 删除强影响点应该慎重,需要结合专业知识。以下两种情况可以考虑删除强影响点:1.强影响点是由于数据记录错误造成的;2.强影响点来自不同的总体。,4.剔除强影响点(Influential cases;或称为突出点,outliers),5.自变量之间不应存在共线性(Collinear),当一个(或几个)自变量可以由其他自变量线性表示时,称该自变量与其他自变量间存在共线性关系。常见于:1.一个变量是由其他变量派生出来的,如:BMI由身高和体重计算得出 ;2

14、.一个变量与其他变量存在很强的相关性。 当自变量之间存在共线性时,会使回归系数的估计不确定、预测值的精度降低以及对y有影响的重要自变量不能选入模型 。,共线性诊断方法: 1.TOL(容许度,Tolerance)法:TOL越接近零,共线性越大。 2.VIF(方差膨胀因子,Variance Inflation Factor,VIF )法:VIF越大,共线性越大。 3.特征根(Eigenvalue)法:如果自变量相关矩阵的特征根近似于零,则自变量之间存在共线性。 4.CI(条件指数,Condition Index)法:CI越大,共线性越大。 当自变量之间存在共线性时,可以剔除某个自变量或者采用岭回归

15、分析(Ridge Regression Analysis)。,1. 数据预处理:根据经济学专业知识,需要先对Z1、Z2、W作对数变换,分别记为X1、X2、Y。,(三)多重线性回归:实例分析,2.多重回归分析,Statistics对话框,Plots对话框,Save对话框,从简单相关系数可见:Y与X1、X2存在较强相关性,X1、X2存在中等相关性。,3.输出结果解释,此模型的复相关系数为0.857,调整决定系数为0.699,反映此模型拟和较好;模型经统计学检验,F=20.738,P0.05,说明此多元回归模型有显著性。,经统计学检验,X1与X2均有显著性,因此回归模型为 ;根据偏回归系数的大小,可

16、以认为X2对Y的影响比X1大。,共线性诊断:两个自变量之间不存在共线性。,因为标准化残差、学生化残差的绝对值小于3,所以从统计学上认为样本不存在强影响点。,直方图及P-P图,从残差直方图及P-P图可见:残差正态性不太好,可能与样本量太小有关。,通过绘制y与X1的偏相关散点图,可以判断y与X1之间存在线性关系。,通过绘制y与X2的偏相关散点图,可以判断y与X1之间存在线性关系。,检查残差的等方差性:,由图可见:残差满足等方差性。,重要提示: 经典的多元线性回归:自变量和因变量均为连续变量。多元线性回归分析允许自变量为分类变量,但当自变量为多分类变量时,需要以“哑变量(dummy variables)”的方式引入模型。 如:某个自变量为“文化程度”:1=文盲,2=小学,3=中学,4=大学及以上。若以“大学及以上”为参照,关心文盲、小学、中学分别与大学及以上的比较,则进行回归分析时,此自变量须用3个哑变量表达:x1: 1=文盲,0=其他;x2: 1=小学,0=其他;x3: 1=中学,0=其他。,三

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号