多因素分析课件PPT

上传人:优*** 文档编号:132341372 上传时间:2020-05-14 格式:PPT 页数:68 大小:2.16MB
返回 下载 相关 举报
多因素分析课件PPT_第1页
第1页 / 共68页
多因素分析课件PPT_第2页
第2页 / 共68页
多因素分析课件PPT_第3页
第3页 / 共68页
多因素分析课件PPT_第4页
第4页 / 共68页
多因素分析课件PPT_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《多因素分析课件PPT》由会员分享,可在线阅读,更多相关《多因素分析课件PPT(68页珍藏版)》请在金锄头文库上搜索。

1、多因素分析 多元线性回归Logistic回归生存分析 第一部分多元线性回归 简单线性回归只考虑一个X对Y的影响 多元线性回归 multiplelinearregression 考虑多个自变量X对Y的影响此时要考虑 1 Y是否满足LINE2 所建回归方程是否有意义 AVOVA3 回归方程中的每个自变量是否都有意义 t检验4 如何获得变量最少 解释Y变异又较多的方程 筛选变量方法 3 30名糖尿病患者脂联素ADI Y ng ml 与体重指数BMI x1 kg m2 病程 x2 year 瘦素LEP x3 ng ml 空腹血糖FPG x4 mmol L 关系分析 4 根据样本得到的回归方程 偏回归系

2、数partialregressioncoefficient表示在其他自变量固定条件下 某自变量每增减一个单位对y的平均效应影响 标准化偏回归系数 standardized 表示在其他自变量固定条件下 某自变量每增减一个标准单位 y改变的平均标准单位数 其大小反映了该自变量的重要性多因素的分析更加切合实际 提高回归方程的估计精度 从多个可能的因素中选择真正有意义的因素 偏回归系数的计算 最小二乘原理假设检验 偏回归系数检验 t检验模型整体检验 方差分析前提条件 线性 独立性 正态性 方差相等 LINE SPSS操作步骤 分析 回归 线性 因变量 Y 自变量 x1 x4 ok 体重指数病程瘦素空腹

3、血糖 1 030意思为在x2 x3 x4为给定值的情况下 体重指数每增加一个单位 脂联素平均减少1 030 ng ml Foragivenx2 x3 x4 each1kg m2increaseinx1isassociatedwithanaveragedecreaseinYof1 030ng ml 方程的假设检验 整个模型的假设检验 方差分析法 ANOVA F 17 000 P 0 001 拒绝H0 以下模型是有意义的 是不是每个自变量的偏回归系数均有统计学意义呢 t检验 N为个体数 k为自变量个数并不是每个自变量都有意义 在alpha 0 05 x1x2x4三个变量没有统计学意义 自变量筛选常

4、用方法 Allpossiblesubsetsselection最优子集回归 全局择优法Stepwiseselectioninclude逐步回归法forwardselection前向选择backwardelimination后向选择stepwiseregression逐步选择 9 由于变量之间是有关联的 因此并不是简单地将三个变量从方程中去除 10 一最优子集法最优子集法是对自变量各种不同的组合所建立的回归方程进行比较 从而选出一个 最优 的回归方程 11 评价指标 1残差平方和与决定系数 残差平方和越小越好 R2越大越好 12 2残差均方与调整确定系数 考虑了引入变量的个数p 13 3Cp统计

5、量 Cpstatistic 由MallowsCL 提出 当p个自变量拟合的方程理论上 最优 时 Cp的期望值为p 1 因此应选择Cp越接近于p 1的回归方程为 最优 方程 14 SAS运行结果 二 逐步回归法 向后法 删 向前法 进 逐步法 方程 方程 方程 规定进入 保留 删 的P值 且要求P进 P删 P值大小如何选取 自变量框中变量全部进入方程 强迫删除 最终得到对脂联素有意义的影响因素为BMI与瘦素 非标准化偏回归系数 生物学意义为BMI 瘦素增加 脂联素含量是下降的 标准化偏回归系数 瘦素的影响作用大于BMI的影响 思考 多元线性回归中应变量Y是什么类型的变量 偏回归系数与标准偏回归系

6、数的意义控制混杂因素有哪些方法 方差分析与t检验在多元线性回归分析中的作用有何不同 变量筛选有哪些方法 在应用逐步法筛选变量时是不是一定取alpha 0 05 如何选取 第二部分Logistic回归 本方法教学要求适用资料回归方程表达偏回归系数与比数比OR模型检验与偏回归系数检验哑变量设置变量筛选应用 Logistic回归分析思路同多元线性回归要考虑和解决如下几个问题 1 Y中的1 0的比例 比例接近0或1都不好2 模型的全局检验 似然比检验LR 多元线性回归是ANOVA 3 方程中每个系数的检验 wald或LR 多元线性回归是t test 4 变量筛选 向前 向后 条件LR LR Wald

7、5 个体概率预测 判断 适用资料 应变量Y为二分类 二元Logistic回归Y为无序多分类 多项Logistic回归Y为有序多分类 有序Logistic回归自变量类型不限 变量个数单个多个均可本次课只讲二分类Logistic回归 且是完全随机设计资料 因此也称非条件Logistic回归 23 回归方程表达 P为发病的概率 0 P 1 广义线性模型 Log 就是自然对数ln ex 可写成exp x 偏回归系数计算基本原理 极大似然法 Maximumlikelihood ML 要求lnL达到最大 25 复习 优势odds与优势比oddsratio 优势 比势 为某病患者 或非患者 某暴露因素存在的

8、比例P E 和不存在的比例 1 P E 的比例 Odds P E 1 P E 26 优势比oddsratio OR患者与非患者某因素优势的比值被称作优势比 比数比 OR odds1 odds0 例病人有超重或肥胖史 BMI 25 的优势odds1 1656 2987 1331 2987 1 2442非病人有超重或肥胖史史的优势Odds0 2492 5461 0 4563OR odds1 Odds0 1 2442 0 4563 2 727 27 28 若y 1为disease y 0为non disease 有 29 30 回归系数的解释 logistic回归中的系数 与OR的关系 ln OR

9、设P1为X 1的得病概率 P0为X 0的得病概率 31 模型检验与偏回归系数检验似然比检验 likelihoodtest 似然比检验是通过比较两个相嵌套模型的对数似然函数统计量G 又称Deviance 来进行的 其统计量为 G GP GK 2ln LP 2ln LK G服从自由度为K P的 2分布 所以似然比检验既可对模型进行整体检验 又可以对每个 引进 剔除 的变量进行检验 32 似然比检验 检验变量X1是否有统计学意义 模型1 不考虑 2lnL1 12827 236模型2 考虑X 2lnL2 12301 503G 2lnL1 2lnL2 L为对数似然函数值G 12301 503 12827

10、 236 174 267 1 P 0 001说明回归系数 具有统计学意义 33 34 偏 回归系数wald检验 SPSS软件操作 分析 回归 二元logistic回归 因变量 C协变量 r 选项 确定 36 多分类变量 哑变量 dummyvariable x 1时 x1 0 x2 0 x3 0表示A型血x 2时 x1 1 x2 0 x3 0表示B型血x 3时 x1 0 x2 1 x3 0表示AB型血x 4时 x1 0 x2 0 x3 1表示O型血exp 1 表示B与A比之OR exp 2 表示AB与A比之OR exp 3 表示O与A比之OR 例为研究居民两周患病未治疗的影响因素 采用多阶段分层

11、整群抽样 对某地11790名农村居民进行了入户调查 调查内容包括性别x1 男 0女 1 年龄x2 5岁 1 5岁 2 15岁 3 45岁 4 65岁 5 年人均收入x3 不低于平均水平 0 低于平均水平 1 医疗保障x4 有 0无 1 到就近医疗点时间x5 10分钟 1 10分钟 2 30分钟 3 自感疾病严重程度x6 不严重 1 一般 2 严重 3 发病时间x7 急性病两周内发生 1 急性病两周前发生延续到两周内 2 慢性病持续到两周内 3 就诊Y 就诊 0 未就诊 1 11790名居民中 调查前二周患者1649人 其中未就医者720人 38 P386例20 2 39 逐步法 40 操作步骤

12、 analyze regression binarylogistic depedent ycovariates x1 x7 categorical x7 continue method backwardLR options entry0 02 removal0 05 continue ok 样本含量估计 在多重线性回归分析中 若复相关系数大于0 5时 一般样本量n是研究变量数m的10 20倍 也可以根据公式估计Logistic回归要求样本量是自变量数的20倍 或在阳性率小于50 时每个自变量至少需要10个阳性结果 复习思考1 Logistic回归应变量是什么 2 Logistic回归系数的流行

13、病学解释3 OR值的解释与暴露因素及Y的设置有关吗 4 为什么要进行变量筛选 5 最终进入方程的变量取决于哪些因素 第三部分医学随访资料的统计分析方法 生存分析survivalanalysis 44 问题1 如果甲药治愈率为80 疗程1月乙药治愈率为90 疗程3月 哪个更好 158例经手术治疗大肠癌患者临床病理因素及5年生存状态 如果有人没观察满5年 4年时死于其他原因 这个人的信息可否利用 45 问题2如何计算平均数 手术到死亡时间371520252630平均生存时间mean 1839152025 2730 中位生存时间median 20 46 完全数据的均数 Mean A 12 5Mean

14、 B 11 0 问题3这个数据如何分析 A36810222630 30 B68102030 30 30 30 47 数据特点 结局不仅取决于有效 无效 还与起效时间长短有关时间不仅有完全数据 还有不完全数据 截尾数据 删失数据 生存数据常常是偏态的生存分析 48 6例膀胱肿患者术后生存时间记录表 某医师收集了1996 2000年间经手术治疗的膀胱肿癌患者 其中术后生存时间以月为单位 研究可能影响的3个因素 年龄 岁 分级 1 I级 2 II级 3 III级 肿癌大小 1 3 2 3 是否复发 1 是 0 否 49 生存资料基本概念 起点事件与终点事件 结局 生存时间 过程 截尾值 50 基本概

15、念 起点事件与终点事件生存时间暴露因素 疾病确诊 死亡治疗开始 痊愈手术 死亡或痊愈症状缓解 疾病恶化接触毒物 出现毒性反映临床试验开始 不良反应接触危险因素 发病小白鼠染毒 中毒死亡开始戒烟 再次吸烟结婚登记 第一次离婚 51 生存时间 survivaltime 失效时间 failuretime 广义 从起点事件到终点事件所经历的时间跨度 其包括三个内容 事件的起点 事件的终点及测量单位 小时 日 月 年等 52 起点事件 终点事件 生存时间 完全数据与删失数据 完全数据 Completedata 删失数据 截尾数据 Censoreddata 终点数据没有发生失访 脱落 losttofoll

16、ow up drop out 其他竞争性事件治疗措施改变 53 生存资料的统计分析方法 统计描述 生存率及其标准误统计推断 总体生存率的可信区间估计 两样本或多样本生存率比较生存过程的影响因素分析 54 生存资料的统计描述 生存概率与死亡概率survivalprobability deadprobability生存率survivalfunction cumulativesurvivalprobability半数生存时间mediansurvivaltime 55 生存资料的统计推断 生存率的估计 小样本的乘积极限法product limitmethod Kaplan Meier法 大样本的寿命表法life tablemethod生存曲线的比较 log rank检验 56 生存曲线 下降速度快表现为坡度大 曲线陡峭 说明其生存率较低或生期较短 若下降速度慢表现为坡度小 曲线平缓 说明其生存率较高或生期较长 57 中位生存期或半数生存期mediansurvivaltime 仍有半数观察个体存活的时间 数值求解图表法 通过生存率为50 从生存曲线粗略估计线性内插法interpolation若中

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 专业基础教材

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号