医学统计(11)

上传人:今*** 文档编号:110852032 上传时间:2019-10-31 格式:PPT 页数:127 大小:1.87MB
返回 下载 相关 举报
医学统计(11)_第1页
第1页 / 共127页
医学统计(11)_第2页
第2页 / 共127页
医学统计(11)_第3页
第3页 / 共127页
医学统计(11)_第4页
第4页 / 共127页
医学统计(11)_第5页
第5页 / 共127页
点击查看更多>>
资源描述

《医学统计(11)》由会员分享,可在线阅读,更多相关《医学统计(11)(127页珍藏版)》请在金锄头文库上搜索。

1、医学统计(11) 多重线性回归 logistic回归,季聪华 2012.12.13,回归分析的分类,多个因变量 (y1,y2,yk),一个因变量 y,多重线性回归 logistic回归,多重线性回归 logistic回归,直线回归(linear regression)又称简单线性回归(simple linear regression),是描述两变量的线性依存关系,它的任务就是找出一条最能描述变量间非确定性关系的一条直线,此直线为回归直线,相应的方程为直线回归方程。,直线回归的概念,如果某一个变量随着另一个变量的变化而变化,并且它们的变化在直角坐标系中呈直线趋势,那么就可以用一个直线回归方程来定

2、量地描述它们之间的数量关系,这就是直线回归分析。 直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变量而变化的,因此分别称为反应变量(dependent variable)和自变量(independent variable),习惯上分别用Y和X来表示。,两种变量,自变量 (independent variable) 应变量 (dependent variable),两种关系,函数关系函数方程: 回归关系回归方程:,x , y 呈 确定性关系,x , y 呈非 确定性关系,直线回归是分析两变量间线性依存变化的数量的关系,多元(多重)线性回归,在医学研究中常常会遇到一个应变量与多个自变量

3、间的关系问题。 某种流行病的发生受温度、湿度、气压等多个气象因素影响。 人的体重受身高、胸围等因素影响 人的心率与年龄、体重、肺活量等多个因素有关。 多个因素与应变量间线性依存关系的统计方法,采用多重线性回归。,多元线性回归分析数据格式,多元线性回归模型,一般形式为: Y=01X1 2X2 mXm ,0 :常数项,又称为截距。 1,2,m:偏回归系数,表示在其它自变量保持不变时,Xi(i=1,2,m)每改变一个单位时,应变量Y的平均变化量。 :残差,是指去除m个自变量对Y的影响后的随机误差。,多元线性回归模型的应用条件:,1.线性趋势:Y与Xi间具有线性关系。 2.独立性:应变量Y的取值相互独

4、立。 3.正态性:对任意一组自变量取值,因变量Y服从正态分布。 4.方差齐性:对任意一组自变量取值,因变量y的方差相同。,多元线性回归的分析步骤:,1.根据样本数据求得模型参数的估计值,得到应变量与自变量数量关系的表达式:,2.对回归方程及各自变量作假设检验,并对方程的拟和效果及各自变量的作用大小作出评价.,14,多元线性回归方程的建立:,模型参数的估计: (最小二乘法,使残差平方和最小),多重线性回归方程的检验 整体回归效应的检验方差分析法,决定系数R2,R2在0-1之间,说明自变量能够解释Y变化的百分比。 R为复相关系数,可用来度量应变量Y与多个自变量间的线性相关程度。,偏回归系数的t检验

5、,【例1】观察30名儿童血中血红蛋白、钙、镁、铁的含量。试研究血红蛋白与微量元素的关系?,1.求多重线性回归方程,2.对回归方程进行检验,3.计算决定系数,4.偏回归系数检验,SPSS软件操作,第1步:定义变量,第2步:输入原始数据,第3步:线性回归(1),选择分析 回归 线性(L),第3步:线性回归(2),将X1-3和Y分别移入自变量和因变量,方法选择进入,结果解读:回归方程的方差分析,第3步:线性回归(3),结果解读:全部自变量的偏回归系数,第3步:线性回归(4),X2的t检验结果没有统计学意义,第3步:线性回归(2),将X1-3和Y分别移入自变量和因变量,方法选择逐步,第3步:线性回归(

6、5),将X1-3和Y分别移入自变量和因变量,方法选择逐步,第3步: 线性回归(6),设置选项 设置进入、删除的概率。,第3步: 线性回归(7),结果解读:逐步回归指标进入的过程,第3步: 线性回归(8),结果解读:复相关系数和决定系数,第3步: 线性回归(9),结果解读:回归模型的方差分析,第3步: 线性回归(10),结果解读:回归方程: 血红蛋白=1.129+0.031*血铁-0.043*血钙,自变量选择的常用算法,2、删除法(Remove): 根据设定的条件直接剔除部分自变量。,1、进入法(Enter): 预先选定的自变量全部进入回归模型,这是系统默认方式。,3、向前引入法(Forward

7、): 自变量由少到多一个一个引入回归方程,将与因变量的相关系数最大的第一个自变量选入方程并进行检验,如果F值Fa ,拒绝H0 ;将其余的变量中与因变量的相关系数最大的第二个自变量选入方程,当F值Fa ,拒绝H0 ;如此下去,不断引入新的自变量,直到不能拒绝H0,再没有变量被引入为止。,4、向后剔除法(Backward): 自变量由多到少一个一个从回归方程中剔除,首先,对预先选定自变量全部进行回归,然后把对因变量影响不显著的自变量从方程中剔除并进行检验,如果F值Fa ,接受H0 ,一个一个剔除对因变量不显著的自变量,直到再不能剔除为止。,5、逐步引入剔除法(Stepwise): 向前引入法与向后

8、剔除法的结合。,【例2】27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表中,试建立血糖与其它几项指标关系的多元线性回归方程。,。,SPSS软件操作,第1步:定义变量,第2步:输入原始数据,第3步:线性回归(1),选择分析 回归 线性(L),第3步:线性回归(2),将X1-3和Y分别移入自变量和因变量,方法选择逐步,第3步:线性回归(2),将X1-4和Y分别移入自变量和因变量,方法选择逐步,第3步: 线性回归(3),设置选项 设置进入、删除的概率。,第3步: 线性回归(4),结果解读:逐步回归指标进入的过程,第3步: 线性回归(5),结果解读:复相关系数和

9、决定系数,第3步: 线性回归(6),结果解读:回归模型的方差分析结果,第3步: 线性回归(7),结果解读:回归方程: y=1.310+0.732*X4+0.678*X1,多元线性回归的应用,1.影响因素分析:通过自变量对应变量有无影响的分析,从而分析出影响因素及其重要程度,2.估计与预测:实际工作中某些指标是难以测定的,此时可通过建立这些指标与另一些容易测量指标的多重线性回归模型,用易测指标估计难测指标。,心脏表面积(Y)=b0+b1心脏横径(X1)+ b2心脏纵径(X2)+ b3心脏宽径(X3) 新生儿体重(Y)=b0+b1胎儿孕龄(X1)+ b2 胎儿头径(X2)+ b3胎儿胸径(X3)+

10、 b4胎儿腹径(X4),3.统计控制:,利用回归方程进行逆估计,确定Y后控制X 。 采用射频治疗仪治疗脑肿瘤: 脑皮质毁损半径(Y) =b0+b1射频温度(X1)+ b2照射时间(X2),多元线性回归应用的注意事项,1.指标的数量化 应变量Y为连续变量 自变量X可为连续、有序分类或无序分类变量 (1)连续变量:X (2)有序分类变量: 1 轻 X=2 中 3 重,(3)无序分类变量 自变量为二分类变量: 自变量为多分类变量:假定有n类,则用n1个取值为0或1的哑变量来表示这些类别。,X=,0 男,1 女,2.样本含量: n至少是X个数m的510倍 3.关于逐步回归: 不要盲目信任,结合专业知识

11、。 4.多重共线性: 指自变量之间存在较强的线性关系,提示可能存在多重共线性的情况: 整个模型的检验结果为P。 专业上认为应该有统计学意义的自变量检验结果却无统计学意义。 自变量的偏回归系数取值大小甚至符号明显与实际情况相违背,难以解释。 增加或删除一个自变量或一条记录,自变量回归系数发生较大变化。,消除共线性的方法: 剔除、定义新变量、逐步回归,多重线性回归 logistic回归,logistic回归(logistic regression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。,在医学研究中,常需要分析疾病与各种危险因素间

12、的定量关系,同时为了能真实反映暴露因素与观察结果间的关系,需要控制混杂因素的影响。常用的分析方法有: (1)Mantel-Haenszel分层分析:适用于样本量大、分析因素较少的情况。当分层较多时,由于要求各格子中例数不能太少,所需样本较大,往往难以做到;当混杂因素较多时,分层数也呈几何倍数增长,这将导致部分层中某个格子的频数为零,无法利用其信息。 (2)线性回归分析:由于因变量是分类变量,不能满足其正态性要求;有些自变量对因变量的影响并非线性。 (3)logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研究某个二分类(或无序及有序多分类)目标变量与有关因素的关系。,logis

13、tic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。,队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比

14、较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露情况。,RR(相对危险度relative risk):表示暴露组与非暴露组发病率(或死亡率)的比值。也称为危险比(risk ratio)。反映了暴露与疾病发生的关联强度。 RR表明暴露组发病或死亡的危险是非暴露组的多少倍。,病例对照研究(case-control studies):一种由果及因的回顾性研究,先按疾病状态确定调查对象,分为病例(case)和对照(control)两组,然后利用已有的记录、或采用询问、填写调查表等方

15、式,了解其发病前的暴露情况,并进行比较,推测疾病与暴露间的关系。,相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能计算发病率,只能计算比值比OR值。OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。,OR1,说明 该因素是疾病的危险性增加,为危险因素;OR1,说明 该因素是疾病的危险性减小,为保护因素;,病例对照研究的类型,(一)病例与对照不匹配-非条件logistic回归 在设计所规定的病例和对照人群中,分别抽取一定量的研究对象,一般对照应等于或多于病例数,此外无其他任何限制。,(二)病例与

16、对照匹配-条件logistic回归 匹配或称配比(matching),即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。,(二)病例与对照匹配-条件logistic回归 1、成组匹配(category matching):匹配的因素所占的比例,在对照组和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组也是如此。 2、个体匹配(individual matching):以病例和对照的个体为单位进行匹配叫个体匹配。1:1匹配又叫配对(pair matching), 1:2, ,1:m匹配时称为匹配。 匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混杂因子,否则不应匹配。 (三)巢式病例对照研究 也称为队列内的病例对照研究,是将队列研究和病例对照研究相结合的方法。,logistic回归的应用,1. 流行病学危险因素分析

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号