Dept of Epidemiology and BiostatisticsSchool of Public Heath, NJMU交互作用(一)Detecting Interaction in different study designs研究生《医学统计学》课程张汝阳zhangruyang@研究背景n客观事实要求n复杂疾病的发生由基因、环境相互影响,共同作用所致n科研实际情况n可能忽视交互作用(遗漏一篇高质量的论文)2主要内容n病例对照研究n交互作用的基本概念n交互作用的检测方法n交互作用的检出策略n交互作用的重要贡献n交互作用的交互阶数n单纯病例研究n不完全病例对照研究n病例交叉研究3病例对照研究n交互作用的基本概念n交互作用的检测方法n交互作用的检出策略n交互作用的重要贡献n交互作用的交互阶数4交互作用的基本概念n定义(1):因素A的效应在因素B的不同水平上存在差异,则认为因素A、B之间存在交互作用n定义(2):因素A、B的联合效应不等于两因素独立效应之和或之积5交互作用示意(1)6I2 = 0.00,无异质型性,无异质型性(P = 0.42)无不同研究因素A有1.25 (1.07, 1.45)因素B的OR (95% CI)1.15 (1.03, 1.34)无交互作用无交互作用1.00I2 = 93.8%,有异质性,有异质性(P < 0.01)无因素A有1.25 (1.07, 1.45)0.83 (0.73, 0.94)有交互作用有交互作用交互作用的基本概念n定义(1):因素A的效应在因素B的不同水平上存在差异,则认为因素A、B之间存在交互作用。
n森林图展示因素B不同水平上因素A的效应n通过I2,异质性检验判断有无交互作用78交互作用示意(2)A0ABB无交互作用(AB=A+B)A0ABB正交互作用(AB>A+B)A0ABB负交互作用(AB1表示有正向的交互作用表示有正向的交互作用q协同作用协同作用(synergistic interaction)nORI<1表示有负向的交互作用表示有负向的交互作用q拮抗作用拮抗作用(antagonistic interaction)nORI=1表示没有交互作用。
表示没有交互作用13口服避孕药和 factor v leiden 基因突变与静脉血栓栓塞的病例对照研究 GE病例数病例数对照数对照数OROR值值++++252OReg34.7ORI= 1.35++--104ORg6.9--++8463ORe3.7----3610011总计总计15516914叉生分析—假设检验n交互作用的对数变换n交互作用对数变换后的标准误n统计量和P值15重要概念n联合效应(joint effect) —— ORegn两因素共同作用时,对结果产生的总效应n主效应(main effect) —— ORe,,ORgn仅一个因素作用时,对结果产生的独立效应n交互作用(interaction) —— ORIn联合效应超过主效应之积的部分16相乘交互作用分层分析—不同环境暴露时,基因的ORGE病例数对照数OR++++aa0--++cc0++--bb0----dd017不同环境暴露时,基因的ORGE病例数对照数OR++++252--++8463++--104----3610018分层分析—不同基因型时,环境的ORGE病例数对照数OR++++aa0++--bb0--++cc0----dd019R R不同基因型时,环境的ORGE病例数对照数OR++++252++--104--++8463----36100分层分析—假设检验nSTATA软件META命令nmetan lnOR lnCIL lnCIU,eform classic boxsca(150) textsize(150) by(study) label(namevar=group)2122分层分析—假设检验n定性的方式n可信区间是否重叠n定量的方式n异质性Q检验n异质性I22324异质性Q检验251/25+1/10+1/4+1/2=[(3.46-1.61)/2]2n如何计算log(OR)的方差/标准误?异质性Q检验26n如何计算合并(pooled) OR?n各层OR的加权均数n以方差的倒数作为权重n15.254134 =1/0.065556、1.1235956=1/0.8899999n0.93139491= 15.254134/(15.254134+1.1235956)n如何进行异质性Q检验nQ统计量满足自由度为(组数-1)的卡方分布!nQ检验实际上是卡方检验异质性Q检验27(1.31-1.33)2/0.07+(1.61-1.33)2/0.89异质性I2nk等于(组数-1)n若算的I2为负数时,则定义取值为0nI2 > 50%,中度异质性; I2 > 75%,重度异质性n有异质性提示变量间可能存在异质性28重要概念n修饰因子(modifier)n不同环境暴露下基因的效应不一样,则认为环境因素是基因效应的修饰因子n不同基因型的人群,环境暴露效应不一样,则认为基因型是环境因素的修饰因子29回归模型—logistic模型30R R基因/环境的ORE=0E=1E=0E=1G=000G=1无交互作用无交互作用有交互作用有交互作用在对数尺度上是相加的基因/环境的ORE=0E=1E=0E=1G=011G=1无交互作用无交互作用有交互作用有交互作用在对数尺度上是相加的,其实是相乘的交互作用。
交互作用n交互作用n > 0 > 0 表示有正向的交互作用,协同作用n < 0 < 0 表示有负向的交互作用,拮抗作用n = 0 = 0 表示没有交互作用数据格式(频数) case f g e eg 1. 1 25 1 1 1 2. 1 10 1 0 0 3. 1 84 0 1 0 4. 1 36 0 0 0 5. 0 2 1 1 1 6. 0 4 1 0 0 7. 0 63 0 1 0 8. 0 100 0 0 0 STATA命令与结果. logistic case e g eg [fw=f] Logit estimates Number of obs = 324 LR chi2(3) = 59.57 Prob > chi2 = 0.0000Log likelihood = -194.49004 Pseudo R2 = 0.1328------------------------------------------------------------------ y | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]------+----------------------------------------------------------- e | 3.703704 .9482896 5.11 0.000 2.242312 6.117533 g | 6.944444 4.324431 3.11 0.002 2.049174 23.53402 eg | 1.35 1.319659 0.31 0.759 .1987297 9.170748------------------------------------------------------------------三种方法比较n叉生分析、分层分析、回归模型n两个因素,每因素两水平,不调整协变量三种方法结果等价n其他条件时,结果相似,结论基本相同n推荐使用回归模型n方便快捷n调整混杂36重要概念n边际效应(marginal effect)n不考虑其他因素时(不调整其他因素),一个因素对结果产生的独立效应。
n传统单因素分析,单个因素的效应估计值n主效应(main effect)n考虑其他因素(调整其他因素),一个因素对结果产生的独立效应即其他因素没有作用时,某因素的独立效应n叉生分析中,单个因素的独立效应n分层分析中,层内单个因素的效应n回归分析中,单个因素独立的效应37交互作用的类型n相乘交互作用(multiplicative interaction)n相加交互作用(additive interaction)38E=0E=1G=01OReG=1ORgORge相加交互作用的假设检验n计算ORge, ORg, ORen根据ORge – ORg – ORe + 1计算相加交互作用n假设检验nPermutation获得相加交互作用的分布,计算P值(结果不可靠)nBootstrap获得相加交互作用的标准误,计算可信区间(结果可靠)39Mean ORI相加交互作用的permutation检验nexpand fnpermute case OR_Interaction_add=(exp(_b[ge]+_b[g]+_b[e])-exp(_b[g])-exp(_b[e])+1), reps(2000):logit case g e ge40相加交互作用bootstrap检验nAssmann SF (1996)提出通过bootstrap获得相加交互作用的可信区间。
n产生5000个bootstrap样本,计算每个样本的相加交互作用n根据5000个bootstrap相加交互作用2.5%分位数、97.5%分位数获得可信区间n该方法适用于频数不稀疏的列联表若频数稀疏仍使用该法,所得可信区间很宽41相加交互作用bootstrap检验n通过bootstrap命令获得正态近似可信区间nbootstrap OR_Interaction_add=(exp(_b[ge]+_b[g]+_b[e])-exp(_b[g])-exp(_b[e])+1), reps(5000):logit case g e ge42相加交互作用bootstrap检验n以下是直接计算百分位数的结果43相加交互作用bootstrap检验n当列联表频数稀疏的时候,可通过Lei Nie (2010)所提出的bootstrap联合线性校正方法获得相加交互作用的可信区间n2000次bootstrapn每次连续性校正44相加交互作用相关概念nRothman KJ (1998)基于相加交互作用提出1.交互作用指数(the synergy index, S):2.交互作用归因比(attributable proportion of interaction , AP):表示总效应中有多大比例归因于交互作用。
3.纯交互作用归因比(AP*):45相加交互作用相关概念4.交互作用超额相对危险度(Relative Excess Risk of Interaction, RERI):等价于相加交互作用n只有计算相加交互作用时,才能应用S、AP、AP*、RERI统计量46交互作用的检出策略n单因素分析n多因素分析n多因素全模型n变量精简n主效应模型n交互作用n最终模型47交互作用检测策略—实例分析nSTORY BEHIND THE DATA:nLow birth weight is an outcome that has been of concern to physicians for years. nThis is due to the fact that infant mortality rates and birth defect rates are very high for low birth weight babies.n A woman's behavior during pregnancy can greatly alter the chances of carrying the baby to deliver a baby of normal birth weight.STATA-基础操作1:单因素分析2:多因素分析n样本量足够,则纳入所有变量建立多因素全模型,再修剪模型n样本量不够,则纳入以下变量,则修剪模型n有重要临床意义者n单因素分析P小于界值(0.2)者n单、多因素分析系数变化较大者(>50%)多因素全模型结果3:主效应模型n精简模型n剔除对模型贡献没有统计学意义的变量n似然比卡方检验,大Wald检验n性质相同的变量可进行逐步回归筛选较重要者精简模型的过程主效应模型的结果逐步回归精简模型n逐步回归为何不用直接用逐步回归?卡片机(全自动傻瓜式)单反(手动调焦)建模的注意事项n切勿忽略专业上重要的指标!n模型没有最好,只有合理!n仁者见仁,智者见智n革命尚未成功、同志仍需努力!4:最终模型n探索交互作用的方式n排位变化法n逐步前进法,P = 0.9999,探索独立效应强的变量n逐步后退法,P = 0.0001,探索联合效应强的变量n比较两法变量进入和剔除的顺序变化,探索交互作用项n穷举法n列举所有可能的交互作用项组合,似然比卡方检验STATA-统计分析策略n针对有边际效应的变量n探索两两组合是否有交互作用STATA-统计分析策略n没有边际效应的变量n可能也存在交互作用交互作用的重用贡献n提高变量的检出能力n无边际效应可能有较强的主效应或交互作用n提高模型的预测能力n反应真实的结局变量与解释变量间关系,提高模型诊断能力或预测精度61提高变量的检出能力提高模型的预测能力提高模型的预测能力n从GWAS中筛出6对SNP-SNP交互作用n建立以下4个模型n模型1:预测变量为年龄、性别、吸烟n模型2:增加6个已验证成功的SNPn模型3:增加12个组成交互作用的SNPn模型4:增加6个交互作用项64Sensitivity0.000.250.500.751.000.000.250.500.751.001 - SpecificityAUC4 = 0.756AUC3 = 0.686AUC2 = 0.684AUC1 = 0.665•环境因素模型1•增加已验证的6个位点模型2•增加交互项位点主效应模型3•增加交互作用项模型43.16%10.16%65交互作用的交互阶数n一阶交互作用(one-order interaction)ntwo-way interactionnA+B+ABn二阶交互作用(two-order interaction)nthree-way interactionnA+B+C+ABCn……66高阶交互作用的负担nGWAS中所研究的遗传因素变量有50万个。
在每10分钟50万次计算速度下:n遍历一阶交互作用需要:4.76年!n遍历二阶交互作用需要:792740年!n…………67高阶交互作用的样本量n交互作用阶数越高,变量取值组合下的样本量将越稀疏,为获得稳定的结果,样本量需求越大!n高阶交互作用比较难以解释n受样本量限制,实际工作中建议检测2阶以下交互作用n大数据时代,机器学习类的方法暂露头角!68单纯病例研究n单纯病例研究的概念n交互作用的检测方法n单纯病例研究的特点69单纯病例研究的概念nPiegorsch(1994)在病例-对照研究(case-control study)的基础上提出了一种新的流行病学方法-单纯病例研究(case-only study),又称病例-病例研究(case-case study)70单纯病例研究的概念n单纯病例设计n在健康人群中环境暴露和遗传因素之间互相独立,且所研究的疾病发病率较低时,仅用患病人群作为研究对象,收集研究对象的环境暴露及基因分型资料若环境暴露于遗传因素之间存在关联,则估计暴露和遗传因素之间存在交互作用71n收集病例以下资料n检验E与G之间的关联性n卡方检验nLogistic回归单纯病例研究交互作用检测方法EG-+-ab+Cd72单纯病例研究交互作用检测方法n交互作用n标准误73口服避孕药和 factor v leiden 基因突变与静脉血栓栓塞n多数情况下单纯病例研究的交互作用结论与病例对照研究的结论一致。
74单纯病例研究的特点n与传统的病例一对照研究相比,单纯病例设计在检测交互作用时,具有较高的检验效能和较精确的估计,且所估计的交互作用可信区间更窄;能够节省样本含量,特别适合肿瘤及罕见慢性病的研究n模拟研究表明(易洪刚,2004),在相同样本量且交互作用不是很大时,单纯病例设计的检验效能是病例一对照研究的2~ 10倍;在相同检验效能时,病例一对照研究所需的病例数是单纯病例设计的2~4倍n因此,该设计备受应用者青睐75单纯病例研究的特点n单纯病例设计的前提是假定遗传因素和环境暴露互相独立虽然在很多情况下这种假定是合理的,但有时候这种假定却不成立n模拟结果显示(Albert PS,2001),当环境与遗传之间互相独立这个假设不成立时,I类错误就会增大,从而导致假阳性增加因此单纯病例研究的一个潜在的用途就是预试验以及危险因素的初筛一旦单纯病例研究有阳性结果时,通常再进行以人群为基础的随访研究,进一步证实所得结果76联合分组—基因/环境的ORGE病例数对照数OR含义+ +aa0联合效应+ -bb0基因的主效应- +cc0环境的主效应- -dd01 (reference)对照77分层分析—不同人群,暴露基因间的ORGE病例数对照数OR++++aa0--++cc0++--bb0----dd078单纯病例研究的特点79单纯病例研究的特点n单纯病例设计仅选择病例作为研究对象,避免选择对照不恰当所致的选择性偏倚。
n虽然可以避免由于遗传背景不同所造成的选择性混杂,但是当研究对象中环境暴露率和基因型外显率不同时就会造成偏倚(W einberg CR,2000)n当所研究的疾病发病率相对较高时单纯病例设计分析的结果容易导致偏倚(Tan Q, 2002)80单纯病例研究的特点n由于缺乏真正意义上的对照,单纯病例设计不能单独估计环境暴露或遗传的主效应,而只能估计其交互作用(Piegomch, 1994)n因此,常常将单纯病例设计和病例一对照研究结合起来既能评价各自的主效应,又能较精确地评价交互作用,从而具有较高的研究效率n假设环境与遗传相互独立,比假定其他非遗传因素互相独立更为有效和合理,这就是单纯病例设计通常不用来研究非遗传因素间交互作用的原因(Khoury MI, 1994)81不完全病例-对照研究n病例有基因型、环境暴露资料n对照仅有环境暴露资料82不完全病例-对照研究n可以估计环境的主效应n标准误小于传统病例对照研究n要求对照中基因和暴露无关83不完全病例-对照研究n可以估计交互作用84病例交叉研究n病例交叉研究是概念n交互作用的检测方法n病例交叉研究的特点85病例交叉研究的概念nMaclure (1991)提出病例交叉研究(case-crossover study),用于研究短暂暴露对罕见急性病的瞬间影响。
其基本思想是选择发生某种急性事件的病例,比较在急性事件或突发事件发生前一段时间的暴露情况与未发生事件的某段时间内的暴露情况属自身前后对照如果暴露与事件有关,那么在事件发生前一段时间内的暴露频率应该高于更早时间内的暴露频率86暴露多暴露多暴露少暴露少病例交叉研究的概念n病例交叉设计的研究对象包含“病例”和“对照”两个部分.n“病例部分”为危险期(risk period),是疾病或事件发生前的一段时间n“对照部分”为对照期(control period),是指危险期外特定的一段时间n通过比较危险期和对照期内的暴露信息达到危险度评价的目的87病例交叉研究的概念n根据对照期时间的选择,病例交叉研究可以分为n单向(unidirectional)n双向(bidirectional)n对称双向(symmetric bidirectional,SBI)n半对称双向(semi-symmetric bidirectional, SSBI)88病例交叉研究的概念n单向n对照时间是事件发生前的时间,当暴露存在时间趋势时,这种单向回顾性选择对照的方法就会导致明显的偏倚(Greeland, 1996)n双向n用事件发生前及发生后的两个时间作为对照(Navidi, 1998)。
双向交叉设计能够消除因暴露的时间趋势所造成的偏倚,但是当时间的变化呈现某种规则的趋势(如季节性或周期性趋势)或者暴露时间较长时,也会产生偏倚89病例交叉研究的概念n对称双向nBateson (1999)提出了对称双向交叉设计,即以对称性的间隔时间作为对照,能够控制许多类型的时间趋势所致的混杂,如季节性、线性、非线性以及他们的混合情形nNavidi (2002)的模拟结果显示 ,当选择较小时间间隔时,对称双向法能够最大限度地控制季节趋势和长期随访所致的混杂90病例交叉研究的概念n 病例交叉研究对罕见急性事件病因分析时是最佳分析方法n如车祸、伤害、心血管事件、支气管哮喘等n如:服用苯二氮 类镇静剂后发生道路交通事故的危险性n如:短暂危险因素暴露与心血管疾病的关系91病例交叉研究的概念92病例病例对照对照频数频数暴露暴露A暴露非暴露B非暴露暴露C非暴露非暴露D对照对照暴露非暴露病例暴露AB非暴露CD配配对设计!!n探索暴露与疾病的关联性病例交叉研究的概念n条件logistic回归nclogit case exposure [fw=freq],or93交互作用的检测方法ngen GE=exposure*geneticnclogit case exposure genetic GE [fw=freq],or94病例交叉研究的特点n优点n不另设对照,以自身为对照,所以避免了因对照选择而产生的偏倚;n特别适用于罕见急性事件的病因分析,如车祸、伤害、心血管事件、支气管哮喘等研究;n节约样本量,节省人力、物力、财力,便于组织实施95病例交叉研究的特点n缺点n要求暴露非常短暂,暴露后事件迅速发生,且暴露有很少的遗留效应。
n病例交叉研究的结果代表短期的危险,而不是累积危险,是相对危险度而不是绝对危险度n采用自身对照消除了个人特征所致的偏倚,但是不能控制那些随时间改变所致的偏倚(Mittleman MA, 1995)n对危险期和对照期的暴露信息可能产生回忆偏倚,引起疾病与暴露之间的虚假关联96重点内容n病例对照研究n三种检测相乘交互作用的统计方法n相加交互作用的计算方法和bootstrap检验n单纯病例研究n不完全病例对照研究n关键的限制条件n病例交叉研究n条件logistic回归9798关关联联研研究切莫忽究切莫忽视视交互作用交互作用张汝阳卫生统计学系公共卫生学院大楼 401办公室zhangruyang@。