统计学_logistic回归分析报告

上传人:xmg****18 文档编号:116884069 上传时间:2019-11-17 格式:PPT 页数:60 大小:1.06MB
返回 下载 相关 举报
统计学_logistic回归分析报告_第1页
第1页 / 共60页
统计学_logistic回归分析报告_第2页
第2页 / 共60页
统计学_logistic回归分析报告_第3页
第3页 / 共60页
统计学_logistic回归分析报告_第4页
第4页 / 共60页
统计学_logistic回归分析报告_第5页
第5页 / 共60页
点击查看更多>>
资源描述

《统计学_logistic回归分析报告》由会员分享,可在线阅读,更多相关《统计学_logistic回归分析报告(60页珍藏版)》请在金锄头文库上搜索。

1、第十六章 logistic回归分析 logistic回归为概率型非线性回归 模型,是研究分类观察结果(y)与 一些影响因素(x)之间关系的一种 多变量分析方法 问题提出: 医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何? 因素(X) 疾病结果(Y) x1,x2,x3XK 发生 Y=1 不发生 Y=0 例:暴露因素 冠心病结果 高血压史(x1):有 或无 有 或 无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无 研究问题可否用多元线性回归方法? 1.多元线性回归方法要求 Y 的取值为计量 的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线 性关系。 3.

2、多元线性回归结果 不能回答“发生与 否” logistic回归方法补充多元线性回归的不足 Logistic回归方法 该法研究是 当 y 取某值(如y=1)发生的概率(p)与 某暴露因素(x)的关系。 P(概率)的取值波动01范围。 基本原理:用一组观察数据拟合Logistic模型 ,揭示若干个x与一个因变量取值的关系,反映 y 对x的依存关系。 一、基本概念 1.变量的取值 logistic回归要求应变量(Y)取值为分类变量( 两分类或多个分类) 自变量(Xi)称为危险因素或暴露因素,可为连续 变量、等级变量、分类变量。 可有m个自变量X1, X2, Xm 2.两值因变量的logistic回归

3、模型方程 一个自变量与Y关系的回归模型 如:y:发生=1,未发生=0 x 有=1无=0, 记为p(y=1/x)表示某暴露因素状态下,结 果y=1的概率(P)模型。 或 模型描述了应变量p与x的关系 P概率 1 0.5 Z值 0123-1-2-3 图16-1 Logistic回归函数的几何图形 为正值,x越 大,结果y=1发 生的可能性(p )越大。 几个logistic回归模型方程 logistic回归模型方程的线性表达 对logistic回归模型的概率(p)做logit变 换, 截距(常数)回归系数 Y(-至+) 线性 关系 方程如下:方程如下: 在有多个危险因素(Xi)时 多个变量的log

4、istic回归模型方程的线性表达 : 或 2.模型中参数的意义 0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。 的含义:某危险因素,暴露水平变化时,即 Xi=1与Xi=0相比,发生某结果(如发病)优势比 的对数值。 P1(y=1/x=1)的概率 P0(y=1/x=0)的概率 危险因素 Y x= 1 x= 0 发病=1 30(a) 10( b) 不发病=0 70(c) 90(d) a+c b+d 危险因素 Y x= 1 x= 0 发病=1 p1 p0 不发病=0 1-p1 1-p0 有暴露因素人群中发病的比例 反映了在其他变量固定后,X=1与x=0相比 发生Y事

5、件的对数优势比。 回归系数与OR X与Y的关联 =0,OR=1, 无关 0,OR1 , 有关,危险因素 0,OR1, 有关,保护因子 事件发生率很小,ORRR。 多元回归模型的的 概念 二、 Logistic回归模型 Logistic回归的分类 二分类 多分类 条件Logistic回归 非条件Logistic回归 Logit变换 也称对数单位转换 logit P= 流行病学概念: 设P表示暴露因素X时个体发病的概率 ,则发病的概率P与未发病的概率1-P 之比为优势(odds), logit P就是 odds的对数值。 Logistic回归模型 Logistic回归的logit模型 Logist

6、ic回归模型 三、参数估计 最大似然估计法 (Maximum likehood estimate) 似然函数:L=Pi 对对数似然函数: lnL=(ln P)=ln P1+ln P2+ln Pn 非线线性迭代方法 Newton-Raphson法 四、参数检验 似然比检验(likehood ratio test) 通过比较包含与不包含某一个或 几个待检验观察因素的两个模型的对 数似然函数变化来进行,其统计量为G (又称Deviance)。 G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由 度为待检验因素个数的分布。 比分检验(score test) 以未包含某个或几个变量的模型

7、为基础 ,保留模型中参数的估计值,并假设新增 加的参数为零,计算似然函数的一价偏导 数(又称有效比分)及信息距阵,两者相 乘便得比分检验的统计量S 。样本量较大 时, S近似服从自由度为待检验因素个 数的分布。 Wald检验( wald test) 即广义的t检验,统计量为u u服从正态分布,即为标准正态离差。 Logistic回归系数的区间估计 上述三种方法中,似然比检验 最可靠,比分检验一般与它相一致 ,但两者均要求较大的计算量;而 Wald检验未考虑各因素间的综合 作用,在因素间有共线性时结果不 如其它两者可靠。 五、回归系数的意义 单纯从数学上讲,与多元线性 回归分析中回归系数的解释并

8、无不 同,亦即bi表示xi改变一个单位时, logit P的平均变化量。 流行病学中的一些基本概念: 相对危险度(relative risk): RR=P1/P2 比数 Odds=P/(1-P) 比数比 OR=P/(1-P)/P/(1-P) 在患病率较小情况下,ORRR Logistic回归中的常数项(b0)表示, 在不接触任何潜在危险保护因素条 件下,效应指标发生与不发生事件的 概率之比的对数值。 Logistic回归中的回归系数( bi )表示 ,某一因素改变一个单位时,效应指 标发生与不发生事件的概率之比的对 数变化值,即OR的对数值。 Logistic回归系数的意义 分析因素xi为二分

9、类变量时,存在(暴 露)xi ,不存在(未暴露)xi ,则Logistic回归中xi的系数bi就是暴露 与非暴露优势比的对数值即 OR=exp(bi)=e (bi) 分析因素xi为多分类变量时,为方便起 见,常用1,2,k分别表示k个不 同的类别。进行Logistic回归分析前需 将该变量转换成k-1个指示变量或哑变 量(design/dummy variable),这样指 示变量都是一个二分变量,每一个指 示变量均有一个估计系数,即回归系 数,其解释同前。 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或 最大等级作参考组,并按等级顺序依次取为 0,1,2,。

10、此时, e(bi) 表示xi增加一个等 级时的优势比, e(k* bi)表示xi增加k个等级时 的优势比。如果每个等级的作用不相同,则 应按多分类资料处理。 分析因素xi为连续性变量时, e(bi)表示xi增加 一个计量单位时的优势比。 多因素Logistic回归分析时, 对回归系数的解释都是指在其它 所有自变量固定的情况下的优势 比。存在因素间交互作用时, Logistic回归系数的解释变得更 为复杂,应特别小心。 根据Wald检验,可知Logistic回归 系数bi服从u分布。因此其可信区间为 进而,优势比e(bi)的可信区间为 六、 Logistic回归分析方法 基本思想同线性回归分析。

11、 从所用的方法看,有强迫法、前进法、 后退法和逐步法。在这些方法中,筛选变量 的过程与线性回归过程的完全一样。但其中 所用的统计量不再是线性回归分析中的F统计 量,而是以上介绍的参数检验方法中的三种 统计量之一。 为计算方便,通常向前选取 变量用似然比或比分检验,而向 后剔除变量常用Wald检验。 七、条件Logistic回归 对配对/比调查资料,应该用条件 Logistic回归分析。 对于配比资料,第i个配比组 可以建立一个Logistic回归: 假设自变量在各配比组中对结果变量 的作用是相同的,即自变量的回归系 数与配比组无关。 配比设计的Logistic回归模型 其中不含常数项。 可以看

12、出此回归模型与非条件Logistic 回归模型十分相似,只不过这里的参数 估计是根据条件概率得到的,因此称为 条件Logistic回归模型。 条件Logistic回归的回归系数检验与分 析,和非条件Logistic回归完全相同。 八、logistic回归的应用 1.疾病(某结果)的危险因素分析和筛选 用回归模型中的回归系数(i)和OR说明 危险因素与疾病的关系。 适用的资料: 前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。 三类研究计算的logistic 回归模型的意义是一致。仅常 数项不同。(证明略) 2.校正混杂因素,对疗效做评价 在临床研究和疗效的评价,组间某些因素构成 不一

13、致干扰疗效分析,通过该法可控制非处 理因素,正确评价疗效。 3.预测与判别 预测个体在某因素存在条件下,发生某事件( 发病)的概率,为进一步治疗提供依据。 输精管切除术与动脉粥样硬化疾病的研究 1问题的描述 (1)输精管切除术是否与动脉粥样硬化疾病 有关? (2)如果存在联系,与其他已知的危险因素 相比,输精管切除术的相对重要性有多大 ? (3)哪些男性亚群在输精管切除术以后发生 动脉粥样硬化疾病的可能性特别大? 九、logistic回归的应用举例 研究目的 (1)一般目的 确定输精管切除术与其后因 动脉粥样硬化疾病而住院之间是否有因果 联系;如果有,则确定输精管切除术与患 动脉粥样硬化性疾病

14、的危险性是否因观察 对象具有其他冠心病危险因素,如吸烟、 高血压和高胆固醇等而增强。 (2)特殊目的 A估计输精管切除术及其男性动脉粥样硬化 性疾病危险因素的相对危险度(使用单变 量分析方法); B估计输精管切除术对动脉粥样硬化性疾病 独立的作用(利用条件Logistic回归模型) ; C检测输精管切除术导致动脉粥样硬化性疾 病的可能期限; D检测在输精管切除术、吸烟和高血压之间 可能的协同作用。 研究变量 (1)按照世界卫生组织标准来诊断动脉粥样 硬化性疾病; (2)病人特征:年龄,出生日期,宗教,教 育,职业,家庭史,婚姻状况。 (3)生育史:存活子女的数量与性别,妻子 的生育情况。 (4

15、)生活方式:吸烟习惯,饮酒量,饮食习 惯,食盐量,喝咖啡量,体力活动。 (5)医学史:有无可能导致不育的疾病或手 术、高血压、糖尿病或高胆固醇血症。 研究设计 抽样: 以完全随机抽样方式确定样本。样 本量大小的计算是基于事先确定显著性水平 、把握度和打算测知的相对危险度水平。假 定样本量确定为病例组500例,对照组1000 例。本设计力图避免或减少在病例一对照研 究中常见的偏倚与误差。回忆偏倚、选择偏 倚和输精管切除术报告偏倚对研究结果的真 实性是极其重要的。 资料收集: 病例组的选取:调查员审阅每 日住院病人情况如果诊断适合研究的范围 ,将病例转给心脏病主任医师作评估由他 做出病例诊断是否合格的决定调查人员核 对病人背景资料是否合格如果病人满足诊 断标椎和背景资料合格调查人员开始询问 并填写调查表每完成5个病例和10个配对 对照以后,请研究中心的工作人员对调查表 进行评估重复以上步骤。 对照组的选取:调查人员评估入院 单并选择符合配对标椎和入院诊断 合适的对照病例核对病人背景资 料是否符合入院标准如对照组成 员合格,则进行调查。 统计分析: A计算未校正的相对危险比(O

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号