临床科研数据分析的注意事项课件

上传人:F****n 文档编号:88139560 上传时间:2019-04-19 格式:PPT 页数:45 大小:292KB
返回 下载 相关 举报
临床科研数据分析的注意事项课件_第1页
第1页 / 共45页
临床科研数据分析的注意事项课件_第2页
第2页 / 共45页
临床科研数据分析的注意事项课件_第3页
第3页 / 共45页
临床科研数据分析的注意事项课件_第4页
第4页 / 共45页
临床科研数据分析的注意事项课件_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《临床科研数据分析的注意事项课件》由会员分享,可在线阅读,更多相关《临床科研数据分析的注意事项课件(45页珍藏版)》请在金锄头文库上搜索。

1、临床科研中数据分析的常见注意事项,毛广运 生物统计中心,提纲,数据处理的一般原则与基本内容 统计方法选择的基本思路 具体案例分析 几种比较实用的方法 附录:常用数据分析的SAS程序,第一部分,数据处理的一般原则与基本内容,数据处理,数据处理 定义: 对数据的采集、存储、检索、加工、变换和传输。 基本目的: 从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。 组成 数据管理(约占全部工作量的60%-80%) 数据分析(约占全部工作量的20%-40%),数据处理的一般原则与基本内容,数据库设计 数据录入 数据管理 数据审核 异常(缺失)值的处理,

2、统计整理:根据研究目的对原始数据进行科学的分类、汇总和显示;使之系统化、条理化、直观生动和反映总体的数量特征和规律。 数据分析 统计方法的选择 统计描述与统计推断,离群数据的处理,离群数据 严重偏离群体平均水平的数据,多为错误(如DBP=880mmHg),少量为异常的真实值 可严重掩盖事实真相或扭曲两者间的关系 处理原则 手工处理: 正态分布:3|均数标准差| 偏态分布:99.5%或0.5% 软件处理 箱式图:距箱体底线或顶线距离超过箱体高度1.53倍者,缺失数据的处理,缺失值 部分研究指标记录不完整,导致其值缺失 后果:导致研究效率的下降 数据的常见缺失机制 完全随机缺失:缺失资料与完整资料

3、的特征无显著性差异 非随机缺失:缺失资料与完整资料的特征存在显著性差异,常见处理措施 直接剔除:适用于缺失量极少且为完全随机缺失 单独列为一类:适用于缺失量较大,且难以合理填补者 缺失值填补: 均数替代 中位数替代 最后观察值结转 回归算法 多重填补法,统计方法前提条件的检查与描述,统计学最难以掌握之处 数据分析人员最应该首先掌握的技能 熟悉各种统计方法的前提适用条件 合理选择最合适的统计方法,第二部分,统计方法选择的基本思路,统计方法选择的核心要素,研究目的 组间差异 显著性检验?优效性检验?等效性检验?非劣效性检验? 相互关系 相关与回归、关联性分析(OR、RR、AR)、其它 设计类型 完

4、全随机设计? 配对设计? 随机区组设计? 交叉设计? 析因设计? 其它设计? 数据类型 计量资料?分类资料?等级资料? 分布特征 正态分布?对数正态分布?其它偏态分布?,统计方法选择总结,统计方法选择总结(续),统计方法选择总结(续),常见统计分析的错误,普查还是抽样调查? 普查无统计推断 随机抽样还是非随机抽样? 非随机抽样不能使用普通的统计推断方法 资料类型误认 未能满足所选择统计的前提适用条件 单因素ANOVA代替重复测量资料的方差分析,常见统计分析的错误,未进行数据审核 数据中存在逻辑错误 数据中存在异常值 数据中存在过多的缺失值,常见统计分析的错误,统计方法选择不当 选择t检验时未考

5、虑数据的分布类型 将方差分析拆分成多个t检验 用单因素方差分析解决重复测量资料 使用四格表卡方检验时未考虑N和T的大小 使用卡方检验解决等级资料问题,使用线性回归解决非线性问题 使用Logistic回归解决队列研究的资料 使用普通方差分析解决协方差/多元方差分析问题 多元统计时未考虑自变量的共线性 主成分分析与因子分析误用 其它,线性回归与非线性回归,常见统计分析的错误,结果表述不当 过于看重P值的大小而忽视Power的影响 片面夸大统计学意义的作用 错误理解P0.01与P0.05的关系 显著性检验包打天下 优效、等效和非劣效性检验少为人知,常见统计分析的错误,未考虑多重共线性 回归模型中两个

6、或两个以上的自变量彼此相关 多重共线性带来的问题有 可能会使回归的结果造成混乱,甚至会把分析引入歧途 可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同我们预期的正负号相反,多重共线性的识别,最简单的方法 计算模型中各对自变量间的相关系数,并进行显著性检验,若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性 如果出现下列情况,暗示存在多重共线性 模型中各对自变量之间显著相关。 当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著 回归系数的正负号同预期的符号相反。,第三部分,具体案例讨论,案例1,ABC三组不同时点某指标的变化情况

7、应该选用何种统计学方法? 如果重复测量方差分析得出结论为差异有统计学意义,如何判断具体哪两个或多个时点间比较有统计学意义? 如何判断A、B、C三组各时点(T0、T1、T2、T3)间不同组别的变化情况?(如判断T2时点,A、B、C三组某指标的情况)如何两两比较? 若为随机区组资料,如何进行上述问题的统计?,重复测量设计,定义 将一组或多组受试者先后重复地施加不同的处理措施, 或在不同场合和时间点进行多次测量(至少两次)的研究设计 配对设计是最简单的重复测量设计 重复测量设计为特殊的两因素设计 其中的一个因素固定为时间因素 分类 对每个对象在同一时间不同因子组合间测量 较为少见,如裂区设计 对每个

8、对象在不同时间点上重复测量 临床研究中极为常用,重复测量设计的方差分析,重复测量设计在临床研究中极为常见(方法详见程序) 可用普通线图描述不同组别某指标随时间变化的趋势,重复测量设计,优点 每一个体作为自身的对照,克服了个体间的变异,减少了一个差异来源。 分析时可更好地集中于处理效应; 每一个体作为自身的对照,所需样本量相对较小,更加经济. 缺点 滞留效应(Carry-over effect) 前面的处理效应有可能滞留到下一次的处理 潜隐效应(Latent effect) 前面的处理效应有可能激活原本以前不活跃的效应 学习效应(Learning effect) 由于逐步熟悉实验,研究对象的反应

9、能力有可能逐步得到了提高,重复测量设计,重复测量设计方差分析的统计前提 每个处理条件内的观察都是独立的; 每个处理条件内的总体分布是正态分布或多元正态分布; 每个处理条件内方差齐; 每个被试者的多元观测值之间存在相关(不能用单因素方差分析代替).,重复测量设计,为何要把测自不同时间点上的数据看成是多元的呢? 因为同1 个体的数据重复测自同1个受试对象,它们之间往往有较高的相关性。 这种相关性通常会减少误差项变异, 从而使得F测验的分母变小, 其后果是F检验更易于到达显著即使无效假设是正确的. 换句话说, 犯一类错误的概率加大了,重复测量设计,样本必须为进行多次重复测量的数据。 可以是对同一条件

10、下同一因变量的重复测量 目的在于研究各种处理间差异是否有统计学意义的同时,研究受试着间的差异; 也可以是不同条件下同一因变量的重复测量 目的在于研究各处理间差异是否有统计学意义的同时,研究形成重复测量条件间的差异以及这些条件与处理间的交互效应。 GLM:重复测量资料方差分析的主要手段 数据结构:若干次重复测量结果作为不同因变量出现在数据文件中。,重复测量设计,重复测量设计与随机区组设计(时间为区组因素) 相同点 数据结构极为相似,甚至完全一样 不同点 重复测量设计:的处理因素在区组(受试者)间是随机分配的,区组内的各时间点是固定的,不能随机分配;区组内的数据来自于同一受试者; 随机区组设计:区

11、组内的受试者彼此独立,处理只能在区组内随机分配,每个受试者接受不同的处理,即区组内的数据来自于不同的受试者。 使用随机区组设计方差分析处理重复测量设计资料,会增大犯类错误的风险。,重复测量资料的方差分析,将不同时点的测量值作为不同的变量 data ex12_3;input t0-t4 g;cards; 120 108 112 120 117 1 118 109 115 126 123 1 119 112 119 124 118 1 121 112 119 126 120 1 127 121 127 133 126 1 121 120 118 131 137 2 122 121 119 129

12、133 2 128 129 126 135 142 2 117 115 111 123 131 2 118 114 116 123 133 2 131 119 118 135 129 3 129 128 121 148 132 3 123 123 120 143 136 3 123 121 116 145 126 3 125 124 118 142 130 3 ; proc glm; class g; model t0-t4=g; repeated time 5 contrast(1);run;,SAS分析结果,重复测量资料统计分析常见错误,重复进行各时间点不同组别间的t(或F)检验 忽略个体

13、曲线变化特征 重复测量数据不满足常规曲线拟合方法所要求的独立性假设 差值比较缺乏信度 用差值做组间比较须慎重 须与协方差分析区别开来,案例2,不同处理措施和时间对某一指标的影响 试验对象:大鼠(每个时点宰杀一批) 问题 A、B处理效果间有无差异? AT2、BT2间有无差异?,案例2,研究设计 重复测量设计? 两因素两水平的析因设计? 随机区组设计? 三者的异同点是什么?,多因素方差分析,单因素分析 多因素分析 线性模型方法:研究自变量与因变量间关系 多元方差分析、多元回归分析和协方差分析 判别函数分析和聚类分析:事物的合理分类; 主成分分析、典型相关等:如何用较少的综合因素代替为数较多的原始变

14、量,类似于人大代表的选举。,多因素方差分析,定义 把总变异按照其来源(或实验设计)分为多个部分,从而检验各个因素对因变量的影响以及各因素间交互作用的统计方法。 析因设计、正交设计、嵌套设计、裂区设计等 优点:效率较高 可以在一次研究中同时检验具有多个水平的多个因素各自对因变量的影响以及各因素间的交互作用 要求 各个因素每一水平的样本必须是独立的随机样本 重复观测的数据服从正态分布,且各总体方差相等。,析因设计的几个基本概念,单独效应(少有人关注) 其它因素水平固定时,同一因素不同水平间的差异。 主效应 某一因素各水平间的平均差别即单独效应均数 主效应间相互独立可视为多个单因素方差分析 交互作用

15、 当影响因子不唯一时,必要注意因子间的相互影响。 如果因子间存在相互影响,称为具有交互作用;如果因子间是相互独立的,则称为“无交互影响”,随机区组设计和两因素析因设计异同,共同点 都具有两个研究因素 不同点 区组设计中两个因素的地位不同,研究区组因素是为了消除区组因素对处理因素的干扰; 两因素析因设计中两个因素的地位相等,既要研究两个因素的主效应和单独效应,同时还要研究两者的交互效应,协方差分析,定义: 利用线性回归方法消除混杂因素影响后的方差分析 是单因素方差分析的扩展 基本思想 将研究因素以外的其它因素作为协变量,建立线性回归方程,并利用这种回归关系把协变量的影响扣除后再进行各组Y的修正均

16、数间判别的假设检验; 实质 从Y的总变异中扣除协变量对Y的回归平方和,对残差平方和作进一步分解后再进行方差分析,以更好的评价各种处理的效应。,协方差分析与多元线性回归,相同点 协方差分析的本质就是多元线性回归 不同点(侧重点不同): 协侧重于分析离散变量的影响,而多侧重于连线变量的影响 协方差分析兼具单因素方差分析和多元回归分析的优点 在考虑连续变量影响的条件下检验离散变量对因变量的影响,有助于排除非实验因素的干扰作用。 要求:各样本都来自方差齐的正态总体,各组的总体直线回归系数相等且都不为0 (什么意思?) 此处的对应于协变量。 分析前应先进行方差齐性检验和回归系数的假设检验,若符合或经变量变换后符合上述条件,方可作协方差分析。,自变量选择,原则 应该入选的一个不能少,不该入选的一个不要 注意避免自变量的共线性 原因: 自变量过多或过少会大幅度降低回归模型的精度 自变量过少就一定程度上失去了多元分析的意义 自变量共线性的存在会歪曲自变量与因变量的关系 应将回归效果显著的自变量纳入方程,将不显著的自变量从方程中剔除 专业人员和统计学家根据专业知识和经验确定

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号