多因素分析课件

上传人:bin****86 文档编号:55273045 上传时间:2018-09-26 格式:PPT 页数:68 大小:1.69MB
返回 下载 相关 举报
多因素分析课件_第1页
第1页 / 共68页
多因素分析课件_第2页
第2页 / 共68页
多因素分析课件_第3页
第3页 / 共68页
多因素分析课件_第4页
第4页 / 共68页
多因素分析课件_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《多因素分析课件》由会员分享,可在线阅读,更多相关《多因素分析课件(68页珍藏版)》请在金锄头文库上搜索。

1、.,多因素分析,多元线性回归 Logistic回归 生存分析,第一部分 多元线性回归,简单线性回归只考虑一个X对Y的影响;多元线性回归(multiple linear regression)考虑多个自变量X对Y的影响 此时要考虑:1. Y是否满足LINE2.所建回归方程是否有意义:AVOVA3.回归方程中的每个自变量是否都有意义:t检验4.如何获得变量最少,解释Y变异又较多的方程?筛选变量方法,3,30名糖尿病患者脂联素ADI(Y,ng/ml)与体重指数BMI(x1,kg/m2)、病程 (x2,year)、瘦素LEP(x3,ng/ml)、空腹血糖FPG(x4,mmol/L)关系分析,4,根据样

2、本得到的回归方程,偏回归系数 partial regression coefficient表示在其他自变量固定条件下,某自变量每增减一个单位对y的平均效应影响。 标准化偏回归系数(standardized ) ,表示在其他自变量固定条件下,某自变量每增减一个标准单位,y改变的平均标准单位数。其大小反映了该自变量的重要性 多因素的分析更加切合实际;提高回归方程的估计精度;从多个可能的因素中选择真正有意义的因素,偏回归系数的计算:最小二乘原理 假设检验:偏回归系数检验-t检验模型整体检验-方差分析 前提条件:线性、独立性、正态性、方差相等,LINE,SPSS操作步骤,分析回归线性因变量:Y;自变量

3、:x1-x4 ok,体重指数 病程 瘦素 空腹血糖 -1.030意思为在x2、x3、x4为给定值的情况下,体重指数每增加一个单位,脂联素平均减少1.030 (ng/ml) For a given x2,x3,x4, each 1kg/m2 increase in x1 is associated with an average decrease in Y of 1.030ng/ml.,方程的假设检验,整个模型的假设检验: 方差分析法 (ANOVA),F=17.000,P0.001,拒绝H0,以下模型是有意义的.,是不是每个自变量的偏回归系数均有统计学意义呢?t检验,N为个体数,k为自变量个数

4、并不是每个自变量都有意 义!,在alpha=0.05,x1 x2 x4三个变量没有统计学意义,自变量筛选常用方法,All possible subsets selection 最优子集回归,全局择优法 Stepwise selection include 逐步回归法 forward selection 前向选择 backward elimination 后向选择 stepwise regression 逐步选择,9,.,由于变量之间是有关联的,因此并不是简单地将三个变量从方程中去除!,10,一 最优子集法最优子集法是对自变量各种不同的组合所建立的回归方程进行比较,从而选出一个“最优”的回归方程

5、。,11,评价指标:,1 残差平方和与决定系数,残差平方和越小越好,R2越大越好,12,2 残差均方与调整确定系数,考虑了引入变量的个数p,13,3 Cp统计量( Cp statistic),由Mallows CL.提出。,当p个自变量拟合的方程理论上“最优”时,Cp的期望值为p+1,因此应选择Cp越接近于p+1的回归方程为“最优”方程。,14,SAS运行结果,二、逐步回归法,向后法 (删),向前法 (进),逐步法,方程,方程,方程,规定进入,保留(删)的P值,且要求P进=25)的优势 odds1=(1656/2987)/(1331/2987)=1.2442 非病人有超重或肥胖史史的优势 Od

6、ds0=2492/5461=0.4563 OR=odds1/Odds0= 1.2442 / 0.4563 =2.727,27,28,若y=1为disease,y=0为non-disease, 有,29,30,回归系数的解释,logistic回归中的系数,与OR的关系: ln(OR),设P1 为X=1的得病概率, P0 为X=0的得病概率,31,模型检验与偏回归系数检验 似然比检验(likelihood test),似然比检验是通过比较两个相嵌套模型的对数似然函数统计量G(又称Deviance)来进行的,其统计量为:GGPGK2ln(LP)+2ln(LK) G服从自由度为K-P的2分布。 所以似

7、然比检验既可对模型进行整体检验,又可以对每个(引进/剔除)的变量进行检验,32,似然比检验,检验变量X1是否有统计学意义: 模型1:不考虑, -2lnL1=12827.236 模型2:考虑X , -2lnL2= 12301.503G=-2lnL1-(-2lnL2) L为对数似然函数值G 12301.503 -12827.236174.267,=1,P0.001 说明回归系数具有统计学意义。,33,34,(偏)回归系数wald检验,SPSS软件操作,分析回归二元logistic回归因变量:C 协变量:r 选项确定,36,多分类变量:哑变量(dummy variable) x1时:x10, x20

8、, x30 表示A型血 x2时:x11, x20, x30 表示B型血 x3时:x10, x21, x30 表示AB型血 x4时:x10, x20, x31 表示O型血exp(1) 表示B与A比之OR; exp( 2) 表示AB与A比之OR; exp( 3) 表示O与A比之OR。,例 为研究居民两周患病未治疗的影响因素,采用多阶段分层整群抽样,对某地11790名农村居民进行了入户调查,调查内容包括性别x1(男:0女:1)年龄x2(5岁:1;5岁:2;15岁:3;45岁:4;65岁:5)年人均收入x3(不低于平均水平:0;低于平均水平:1)医疗保障x4(有:0无:1)到就近医疗点时间x5(10分

9、钟:1;10分钟:2;30分钟:3)自感疾病严重程度x6(不严重:1;一般:2;严重:3)发病时间x7(急性病两周内发生:1,急性病两周前发生延续到两周内:2,慢性病持续到两周内:3)、就诊Y(就诊:0,未就诊:1)。11790名居民中,调查前二周患者1649人,其中未就医者720人。,38,P 386 例20-2,39,逐步法,40,操作步骤,analyzeregressionbinary logistic depedent:y covariates: x1-x7 categorical:x7 continue method:backward LR options:entry0.02,rem

10、oval0.05 continue ok,样本含量估计,在多重线性回归分析中,若复相关系数大于0.5时,一般样本量n是研究变量数m的1020倍。 也可以根据公式估计Logistic回归要求样本量是自变量数的20倍;或在阳性率小于50%时每个自变量至少需要10个阳性结果。,复习思考 1、Logistic回归应变量是什么? 2、 Logistic回归系数的流行病学解释 3、OR值的解释与暴露因素及Y的设置有关吗? 4、为什么要进行变量筛选? 5、最终进入方程的变量取决于哪些因素?,.,44,第三部分医学随访资料的统计分析方法-生存分析 survival analysis,45,问题1,如果 甲药治

11、愈率为80%,疗程1月乙药治愈率为90%, 疗程3月. 哪个更好?,158例经手术治疗大肠癌患者临床病理因素及5年生存状态. 如果有人没观察满5年, 4年时死于其他原因, 这个人的信息可否利用?,46,问题2 如何计算平均数,手术到死亡时间3 7 15 20 25 26 30 平均生存时间 mean=183 9 15 20 25+ 27 30+中位生存时间 median=20,47,完全数据的均数:Mean(A)=12.5 Mean(B)=11.0,问题3 这个数据如何分析?,A 3 6 8 10 22 26 30 30 B 6 8 10 20 30 30 30 30,?,48,数据特点,结局

12、不仅取决于有效/无效,还与起效时间长短有关 时间不仅有完全数据,还有不完全数据(截尾数据,删失数据) 生存数据常常是偏态的 生存分析,49,6例膀胱肿患者术后生存时间记录表,某医师收集了1996-2000年间经手术治疗的膀胱肿癌患者,其中术后生存时间以月为单位,研究可能影响的3个因素:年龄(岁)、分级(1=I级,2=II级,3=III级),肿癌大小(1=3,2=3),是否复发(1=是,0=否),50,生存资料基本概念,起点事件与终点事件(结局) 生存时间(过程) 截尾值,51,基本概念,起点事件与终点事件 生存时间暴露因素,疾病确诊死亡 治疗开始痊愈 手术死亡或痊愈 症状缓解疾病恶化 接触毒物出现毒性反映 临床试验开始不良反应 接触危险因素发病 小白鼠染毒中毒死亡 开始戒烟再次吸烟 结婚登记第一次离婚,52,生存时间(survival time),失效时间(failure time) 广义:从起点事件到终点事件所经历的时间跨度。 其包括三个内容: 事件的起点、事件的终点及测量单位(小时、日、月、年等),起点事件,终点事件,生存时间,53,完全数据与删失数据,完全数据(Complete data) 删失数据,截尾数据( Censored data) 终点数据没有发生 失访/脱落(lost to follow-up, drop-out) 其他竞争性事件 治疗措施改变,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号