2012-5-12临床流行病学讲座流行病学研究中的流行病学研究中的混杂效应控制混杂效应控制北京协和医学院流行病学教研室北京协和医学院流行病学教研室廖苏苏廖苏苏混杂效应控制混杂效应控制1、设计阶段控制混杂的策略设计阶段控制混杂的策略n概述:限制、随机分配、匹配概述:限制、随机分配、匹配n匹配的概念匹配的概念n在队列研究和病例对照研究中使用匹配的实例在队列研究和病例对照研究中使用匹配的实例n过度匹配过度匹配2 2、分析阶段控制混杂的技术:、分析阶段控制混杂的技术:分层分析、标化、多因素分析分层分析、标化、多因素分析 1. 限制限制((Restriction)) :: “简化简化”研究对象某些研究对象某些可能起到可能起到“混杂混杂”作用的特征,或者说,让潜在的作用的特征,或者说,让潜在的混杂变量混杂变量变为(近似的)变为(近似的)“常量常量”例如,年龄例如,年龄 2. 随机分配随机分配((Randomized allocation):):用随机用随机分组方法使可能的混杂变量分布在比较组间平衡;分组方法使可能的混杂变量分布在比较组间平衡;只能用于实验研究设计只能用于实验研究设计 ( (一一) ) 设计阶段控制混杂效应的策略设计阶段控制混杂效应的策略 3. 匹配匹配((matching):):n常在病例对照或队列研究中使用;常在病例对照或队列研究中使用;n在实验研究中按照混杂因素分层后再进行随机分在实验研究中按照混杂因素分层后再进行随机分组(分层随机)也是一种组(分层随机)也是一种“频数匹配频数匹配”。
(一一) ) 设计阶段控制混杂效应的策略(续)设计阶段控制混杂效应的策略(续)什么是匹配(什么是匹配(Matching)?)?n匹配是一种抽样设计匹配是一种抽样设计n指指从从研研究究对对象象总总体体中中,,以以指指示示系系列列或或指指示示组组((index series/group))某某些些可可能能的的混混杂杂因因素素分分布布为为“模模板板”,,选选择择与与之之比比较较的的研研究究对对象象((比比较较组组或或比比较较系系列列,,comparison series/group)),,使两组对象在使两组对象在这些混杂因素上这些混杂因素上相同或近似相同或近似n在在队队列列研研究究中中就就是是按按暴暴露露组组研研究究对对象象某某些些特特征征选选择择非非暴露组研究对象;暴露组研究对象;n在在病病例例对对照照研研究究中中就就是是按按照照病病例例组组某某些些特特征征选选择择对对照照组;组;匹配方法(匹配方法(1))个体匹配(个体匹配(Individual Individual matchingmatching))n把指示组中的把指示组中的一个一个研究对象(研究对象(病例或暴露者病例或暴露者)与比)与比较组中的较组中的一个一个/ /几个几个研究对象(研究对象(非病例或非暴露者非病例或非暴露者))进行匹配;分为:进行匹配;分为:n1::1配对配对((1:1matching; paired matching););n1::n匹配匹配((1:n matching);;n即即::给给每每个个病病例例((/暴暴露露者者))选选择择在在一一个个或或多多个个混混杂杂因素上与之相配的因素上与之相配的一个或更多个对照(一个或更多个对照(/非暴露者)非暴露者)。
n这这是是分分层层的的特特例例,,即即每每层层只只有有一一个个病病例例((/暴暴露露者者))和与之匹配的一个或和与之匹配的一个或n个对照(个对照(/非暴露者)非暴露者)匹配方法(匹配方法(2))频数匹配(频数匹配(Category / frequency/ Category / frequency/ stratified matchingstratified matching))n在在不不同同研研究究组组((如如::病病例例组组和和对对照照组组;;或或暴暴露组和非暴露组)之间进行匹配;露组和非暴露组)之间进行匹配;n在在一一个个或或多多个个混混杂杂因因素素的的不不同同水水平平上上,,使使比比较较组组((即即非非暴暴露露组组或或对对照照组组))的的混混杂杂因因素素分分布频数布频数与与指示组指示组(即暴露组或病例组)(即暴露组或病例组)相同匹配方法(续)匹配方法(续)n匹配实际需要对匹配实际需要对“指示组指示组”和和“比较组比较组”分别分别“抽样抽样”::n个体匹配:选择一个或几个指示组对象后就给他们匹配比较组个体匹配:选择一个或几个指示组对象后就给他们匹配比较组n成组匹配:需要在成组匹配:需要在“指示组指示组”收集完成后,再依据频数分别抽取收集完成后,再依据频数分别抽取“比较组比较组”n两种匹配设计的一般原则(两种匹配设计的一般原则(通过人为的通过人为的““选择选择””使比较组使比较组间在混杂因素构成分布上相似间在混杂因素构成分布上相似)是一样的,但是)是一样的,但是两种匹两种匹配设计的分析方法不同配设计的分析方法不同。
n匹配后,研究样本获得的匹配后,研究样本获得的结果结果与研究总体的与研究总体的真实情况(即:真实情况(即:总体中暴露和结局的关系)总体中暴露和结局的关系)一致吗?一致吗? (真的能去除混杂效应的影响吗?)匹配实例:匹配实例:下下表表是是在在一一个个200万万人人口口的的研研究究对对象象总总体体中中,,不同不同性别性别人口的人口的暴露暴露和和结局结局分布情况:分布情况: 男性男性((100万)万)女性女性((100万)万) 暴露暴露((90万)万)非暴露非暴露((10万)万)暴露暴露((10万)万)非暴露非暴露((90万)万)年发病率年发病率0.00500.00050.00100.00011年年 发发 生生的的病例数病例数45005010090假如从这个研究总体中假如从这个研究总体中抽样抽样,,用用队列研究队列研究方法探讨方法探讨暴露和疾病暴露和疾病的关联的关联((1))建立队列的方法(一)建立队列的方法(一)n假假定定根根据据样样本本量量估估算算,,我我们们需需要要从从总总体体中中抽取抽取10%的人做样本的人做样本n如如果果采采用用随随机机抽抽样样的的方方法法从从这这个个总总体体中中抽抽样样,,抽抽到到的的队队列列研研究究样样本本性性别别、、暴暴露露变变量量的构成如何?的构成如何?n如如果果随随访访一一年年,,暴暴露露和和疾疾病病的的关关联联测测量量结结果是什么?果是什么? 暴露暴露((10万)万)非暴露非暴露((10万)万) 男性男性((9万)万)女性女性((1万)万)男性男性((1万)万)女性女性((9万)万)1年危险年危险0.00500.00100.00050.00011年年中中的的病例数病例数4501059粗(总)相对危险度粗(总)相对危险度::((460/10万)万)/((14/10万)万)=460/14=男性组男性组相对危险度:相对危险度:10女性组女性组相对危险度:相对危险度:10假如从这个研究总体中假如从这个研究总体中抽样抽样,,用用队列研究队列研究方法探讨方法探讨暴露和疾病暴露和疾病的关联的关联((2))建建立立队队列列的的方方法法((二二))::假假如如抽抽样样前前可可以以获获得得总总体人群的体人群的“暴露暴露”和和“非暴露非暴露”信息信息n暴露队列:暴露队列:从暴露人口中抽取从暴露人口中抽取10%做样本做样本n非暴露队列:非暴露队列:n从非暴露人口中抽取从非暴露人口中抽取10%;;而且而且n让非暴露队列在让非暴露队列在性别特征性别特征上与暴露队列相上与暴露队列相匹配匹配。
n这是匹配的队列抽样这是匹配的队列抽样 设设 计计 ,匹配的目的是?,匹配的目的是?n结果如何?结果如何? 男(男(18万)万)女(女(2万)万)全体(全体(2020万)万) 暴露暴露非暴露非暴露暴露暴露非暴露非暴露暴露暴露非暴露非暴露病例数病例数4504510146046总人数总人数90000900001000010000100000100000^ ^RR10 10 10 匹配抽样设计的队列研究结果:匹配抽样设计的队列研究结果:暴露队列中:暴露队列中:男女比例为男女比例为9 9::1 1非暴露队列中:非暴露队列中:男女比例为男女比例为9 9::1 1匹配的匹配的后果后果在在队列研究实例队列研究实例中中匹配抽样对关联测量的影响:匹配抽样对关联测量的影响:n在研究总体中,在研究总体中,性别性别是暴露和疾病关联中的混杂因素(在无病是暴露和疾病关联中的混杂因素(在无病人群中人群中ORef不等于不等于1;非暴露人群中,;非暴露人群中,ORfd不等于不等于1 n随机从总体中抽取研究对象再分成暴露和随机从总体中抽取研究对象再分成暴露和非暴露队列样本,估算的非暴露队列样本,估算的粗的粗的RR值值仍旧带有仍旧带有性别的混杂效应;但是,性别的混杂效应;但是,按照性别进行分层分析后,按照性别进行分层分析后,可以去除性别对暴露和结局关联的混杂效应;可以去除性别对暴露和结局关联的混杂效应;n分别抽取暴露和非暴露组,并对性别分别抽取暴露和非暴露组,并对性别匹配匹配后后,,性别性别的混杂作用得以消除(的混杂作用得以消除(粗粗RR=按照性别分层后的按照性别分层后的RR);所以);所以在队列抽样中,对混杂因素进行匹配设在队列抽样中,对混杂因素进行匹配设计后,不用分层分析即可以去除混杂因素造成的偏性计后,不用分层分析即可以去除混杂因素造成的偏性假如从这个研究总体中假如从这个研究总体中抽样抽样,,用用病例对照病例对照方法探讨方法探讨暴露和疾病暴露和疾病的关联的关联n病例组:病例组:200万人总体中得到的全部万人总体中得到的全部4740位病人;位病人;n对照组:对照组:按照与病例组的性别分布频数匹按照与病例组的性别分布频数匹配配后,从总体中没有病的研究对象中抽取后,从总体中没有病的研究对象中抽取4740位对照。
位对照 男性男性女性女性总样本总样本 暴露暴露非非 暴暴露露总计总计暴露暴露非非 暴暴露露总计总计暴露暴露非非暴暴露露总计总计病例病例45005045501009019046001404740对照对照409545545501917119041146264740 OR10.0010.005.00频数匹配抽样设计的频数匹配抽样设计的病例对照研究病例对照研究结果:结果:在在病例对照研究实例病例对照研究实例中中匹配抽样对关联测量的影响:匹配抽样对关联测量的影响:n在在总总体体中中,,性性别别对对暴暴露露因因素素与与疾疾病病的的关关联联有有 混混 杂杂 效效 应应 ,, 因因 此此 ,, 暴暴 露露 效效 应应 的的 粗粗RR(())≠分分层层RR(());;提提示示研研究究总总体体中中性性别别对对暴暴露露和和疾疾病病的的关关联联有有混混杂杂作作用用,,而而且且是是“正混杂正混杂”n在在上上述述病病例例对对照照研研究究样样本本中中,,按按照照性性别别分分层层的的两两个个RR相相等等,,等等于于总总体体中中的的分分层层RR然而,样本的然而,样本的粗粗RR()()≠样本分层样本分层RR()()在在病例对照研究实例病例对照研究实例中中匹配抽样对关联测量的影响(续)匹配抽样对关联测量的影响(续)n提提示示研研究究样样本本中中性性别别对对暴暴露露和和疾疾病病的的关关联联有有混混杂杂效效应应,,但但是是“负负混混杂杂”!!换换言言之之,,样样本本中中观观察察到到的的混混杂杂并并非非是是原原来来总总体体中中的的性性别别混混杂杂效效应应的的反反映映,,而是在匹配过程引入的混杂。
而是在匹配过程引入的混杂 nTake-home message (记住)!!!n在病例对照研究抽样中,如果使用了匹配设计,在分析资料时,必须按照匹配因素进行相应的配对、分层加权或者条件Logistic回归等分析方法才能最终得到真实的暴露效应估计值(OR)匹配设计在混杂效应控制中的作用:匹配设计在混杂效应控制中的作用:总结总结n匹匹配配抽抽样样设设计计本本身身是是否否能能减减少少或或避避免免混混杂杂因因素素对对暴暴露露与与结结局局变变量量关关联联测测量量上上的的混混杂杂效效应应,,增增加加关关联联测测量量的真实性(的真实性(validityvalidity)) ??n无无论论是是否否进进行行匹匹配配设设计计,,都都可可能能通通过过恰恰当当的的分分析析方方法,得到关联测量的法,得到关联测量的“真实可靠的真实可靠的”结果,结果,只要只要::n研究研究测量测量了所有可能需要考虑的了所有可能需要考虑的潜在混杂变量潜在混杂变量;;n并并且且分分析析中中使使用用恰恰当当的的分分析析技技术术((例例如如分分层层等等))控控制制这些潜在混杂变量的影响这些潜在混杂变量的影响匹配设计在混杂效应控制中的作用:匹配设计在混杂效应控制中的作用:总结总结(续)(续)n仅仅仅仅有有匹匹配配设设计计并并不不都都能能直直接接增增加加研研究究结结果果的的真真实实性性,,甚甚至至在在病病例例对对照照研研究究设设计计中中还还可可能引入混杂;能引入混杂;n所所以以,,是是否否需需要要匹匹配配,,常常常常考考虑虑的的是是匹匹配配是是否否可可以以改改善善研研究究效效率率((efficiency)),,使使数数据据分分析析可可以以有有效效地地使使用用分分层层等等技技术术来来控控制制混混杂杂,,从而提高研究的真实性(从而提高研究的真实性(validity)。
n最最终终是是否否进进行行匹匹配配抽抽样样还还要要从从研研究究实实际际的的考考虑出发的虑出发的 什么时候需要考虑匹配:什么时候需要考虑匹配:n如果如果匹配变量与结局变量有很强的相关匹配变量与结局变量有很强的相关而而且它是简单的变量,且它是简单的变量,特别是特别是研究对象数研究对象数量很少时量很少时,匹配可能取得很好的效率收益匹配可能取得很好的效率收益n如果如果匹配变量是混杂变量而且是匹配变量是混杂变量而且是多组别多组别的测量值的测量值(例如,多个等位基因位点;(例如,多个等位基因位点;兄弟姐妹关系;职业等),匹配设计对提兄弟姐妹关系;职业等),匹配设计对提高研究效率是非常关键的高研究效率是非常关键的 匹配可能带来的问题匹配可能带来的问题: :n经过匹配的变量,在研究中无法再研究;经过匹配的变量,在研究中无法再研究;n匹匹配配变变量量过过多多,,会会使使得得部部分分病病例例找找不不到到对对照照,,致致使可用样本数量减少,使研究的效率反而降低使可用样本数量减少,使研究的效率反而降低n如如果果匹匹配配变变量量不不是是混混杂杂因因素素但但是是与与暴暴露露无无关关联联,,匹配毫无必要但也不会导致偏性。
匹配毫无必要但也不会导致偏性 n在在病病例例对对照照调调查查中中匹匹配配不不当当,,会会引引起起过过度度匹匹配配((overmatching))的的问问题题,,掩掩盖盖暴暴露露的的真真实实作作用用(产生负混杂偏性)产生负混杂偏性)过度匹配(过度匹配(Overmatching))n指对某个指对某个与暴露因素关联与暴露因素关联、、但不是(独但不是(独立的)结局变量危险因素的变量立的)结局变量危险因素的变量(理论(理论上,该因素不是一个混杂变量)进行匹配上,该因素不是一个混杂变量)进行匹配 n过度匹配的后果是什么?举例:过度匹配的后果是什么?举例:20万总体人群的情况:万总体人群的情况:性别不是暴露和疾病关系中的混杂因素性别不是暴露和疾病关系中的混杂因素 男性(男性(10万)万) 女性(女性(10万)万) 全体(全体(20万)万) 暴露暴露非非 暴暴露露 暴露暴露非暴露非暴露 暴露暴露非暴露非暴露病人病人99920 111180 1110200非病人非病人890019980 988989820 9889099800合计合计9000010000 1000090000 100000100000RR5.6 5.6 5.6因为:男性总体因为:男性总体中:暴露率为中:暴露率为90%90%;;女性总体女性总体中:暴露率中:暴露率10%10%OROREF/EF/非病人非病人= OR= OREF/EF/病人病人=81=81(性别与暴露因素关联)(性别与暴露因素关联)但:但:ORORDF/DF/非暴露非暴露 =OR=ORDF/DF/暴露暴露 =1=1(性别不是疾病危险因素)(性别不是疾病危险因素)抽取这个总体中全部抽取这个总体中全部13101310位病人为病例组位病人为病例组再抽取再抽取性别上与病人性别上与病人匹配匹配的的13101310位非病人为对照位非病人为对照进行病例对照研究进行病例对照研究:: 男性男性女性女性总样本总样本 暴露暴露非非暴暴露露总计总计暴露暴露非非 暴暴露露总总计计暴露暴露非非暴暴露露总计总计病例病例99920101911118029111102001310对照对照9161031019292622919453651310总计总计1915123203814034248220555652620 OR5.65.62.1过度匹配(续)过度匹配(续)n病病例例对对照照研研究究中中过过度度匹匹配配后后,,如如果果分分析析时时不不进进行行分分层层或或者者配配对对分分析析,,暴暴露露- -结结局局关关联联测测量量值值将将产产生生趋趋向向无无效效假假设设的的偏偏性性((引引入入总体中不存在的总体中不存在的混杂效应混杂效应)。
过度匹配(续)过度匹配(续)n因因为为过过度度匹匹配配使使病病例例和和对对照照在在暴暴露露史史方方面面趋趋向向一一致 n即即便便在在分分析析时时进进行行分分层层或或者者配配对对分分析析,,由由于于过过度度匹匹配配使使病病例例和和对对照照有有更更多多的的对对子子在在暴暴露露史史上上趋趋向向“一一致致”这这些些“暴暴露露史史一一致致”的的“对对子子”在在分分析析中中不不能能使使用用,,因因此此可可以以分分析析的的对对子子数数减减少少,,所所以以过过度度匹匹配配会会降降低低对对关关联联测测量量值值估估计计的的精精度度或或效效率n是否匹配要仔细权衡是否匹配要仔细权衡(二)分析中控制混杂的技术(二)分析中控制混杂的技术n((1))个体配对个体配对病例对照设计的分析病例对照设计的分析n((2))频数匹配频数匹配的分层分析和的分层分析和关联测量关联测量指标指标的的Mantel-Haenszel加权调整加权调整n((3)多因素分析模型控制混杂)多因素分析模型控制混杂个体匹配个体匹配病例对照研究中病例对照研究中配对资料配对资料的数据表:的数据表: 对照对照有暴露有暴露对照对照无暴露无暴露病例病例有暴露有暴露AB病例病例无暴露无暴露CD((每个格子表示研究对象的每个格子表示研究对象的“对子数对子数”))OR=B/C未匹配未匹配/频数匹配频数匹配病例对照研究数据表病例对照研究数据表 不分层的粗不分层的粗OR值:值: 暴露暴露无暴露无暴露病例病例ab对照对照cdOR=((ad))/((bc))分层分析(分层分析(Stratified analysisStratified analysis))n分层分析需按混杂因素(分层分析需按混杂因素(F)分层后,分别估计暴)分层后,分别估计暴露与疾病结局的关联(分层的露与疾病结局的关联(分层的OR或或RR值);值);n使使用用分分层层分分析析法法,,可可以以比比较较分分层层OR或或RR值值与与不不分分层层的的粗粗关关联联测测量量,,以以评评价价F的的混混杂杂效效应应以以及及效效应应修修正作用;正作用;未匹配未匹配/频数匹配频数匹配病例对照研究数据的分析(续)病例对照研究数据的分析(续) 分层分析(续)分层分析(续)n如如果果分分层层后后,,各各个个分分层层的的OR或或RR值值大大致致相相等等,,但但不不等等于于未未分分层层的的OR或或RR值值((提提示示分分层层因因素素有有混混杂杂效效应应)),,可可以以用用Mantel-Haenszel方方法法计计算算调调整整的的总的暴露总的暴露-结局关联值(调整结局关联值(调整OR或调整或调整RR值)。
值)未匹配未匹配/频数匹配频数匹配病例对照研究数据的分析(续)病例对照研究数据的分析(续) 未匹配未匹配/频数匹配频数匹配病例对照研究数据的分层分析数据表病例对照研究数据的分层分析数据表 在在F=0层(样本量层(样本量N0))F=0 暴露暴露无暴露无暴露病例病例a0b0对照对照c0d0OR0 = ((a0 d0))/(( b0 c0))在在F=1层(样本量层(样本量N1))F=1 暴露暴露无暴露无暴露病例病例a1b1对照对照c1d1OR1 = ((a1 d1))/(( b1 c1)) 计算计算调整调整OR值值((ORM-H)的公式:)的公式: ∑(ai di / Ni) ORM-H = --------------------------------- ∑(bi ci / Ni) 式中:式中:ai,,bi,,ci,,di为每一层中四格表中的四个数;为每一层中四格表中的四个数;Ni为每层观察总人数;为每层观察总人数;i为层数(为层数(i = 1 , 2 … n )。
未匹配未匹配/频数匹配频数匹配病例对照研究数据的分层分析(续)病例对照研究数据的分层分析(续)利用利用Mantel-Haenszel方法计算方法计算调整调整OR值值: (1)ORM-H= cOR::F不是混杂因子,不是混杂因子,cOR不存在混杂偏倚;不存在混杂偏倚; RRM-H = cRR::F不是混杂因子,不是混杂因子,cRR不存在混杂偏倚不存在混杂偏倚 (2)ORM-H cOR::F是混杂因子,是混杂因子,cOR存存在混杂偏倚;在混杂偏倚; RRM-H cRR::F是混杂因子,是混杂因子,cRR存存在混杂偏倚在混杂偏倚分层分析的基本步骤:分层分析的基本步骤:1) 初步审阅资料;初步审阅资料;2) 计算粗的比值比或相对危险度计算粗的比值比或相对危险度(cOR 或或 cRR);;3) 分层:按怀疑的混杂因子分层,并计算每一层分层:按怀疑的混杂因子分层,并计算每一层 的比值比或相对危险度的比值比或相对危险度(aOR 或或 aRR);;4) 比较比较 cOR 和和 aOR (或(或 cRR 和和 aRR););5) ((如如果果各各个个层层的的aOR相相等等但但不不等等于于cOR ))用用Mantel-Haenszel法法计计算算调调整整混混杂杂因因子子影影响响后后总总的的ORmh 或或 RRmh;;6) 进行进行 X2mh 检验,计算检验,计算ORmh 或或 RRmh 95%可信区间。
可信区间多因素分析模型控制混杂效应多因素分析模型控制混杂效应n当用分层的方法同时控制当用分层的方法同时控制多个混杂因子多个混杂因子的的混杂效应时,会出现分层过多的现象,以混杂效应时,会出现分层过多的现象,以至难于实现对混杂的有效调整,此时便需至难于实现对混杂的有效调整,此时便需应用多因素分析的方法来控制混杂因子的应用多因素分析的方法来控制混杂因子的影响n多因素模型的选择与研究设计和结局变量多因素模型的选择与研究设计和结局变量性质和结局指标选择有关性质和结局指标选择有关研究类型研究类型结局变量结局变量/因变量的类型因变量的类型多因素分析技术多因素分析技术经经调调整整的的关关联联测量测量任何类型任何类型连连续续的的生生物物学学参数参数方方差差分分析析((ANOVA););线线性性回回归归((Linear regression))均数的差值均数的差值线性回归系数线性回归系数横断面横断面研究研究有病、无病有病、无病(二值变量)(二值变量)直接调整;直接调整;间接调整;间接调整;Mantel-Haenszel调整;调整;Logistic回归回归患病率比患病率比标化患病率比标化患病率比比值比比值比比值比比值比病病例例对对照照研究研究病例、非病例病例、非病例(二值变量)(二值变量)Mantel-Haenszel调整;调整;Logistic回归回归比值比比值比比值比比值比研究类型研究类型结局变量结局变量/因变量的类型因变量的类型多因素分析技术多因素分析技术经调整的关联测量经调整的关联测量队列研究队列研究1、累积发病率、累积发病率((Cumulative incidence;在随访;在随访研究结束时得到)研究结束时得到) 2、累积发病率、累积发病率((Cumulative incidence;事件发;事件发生时间生时间(Time-to-event)数据)数据) 3、发病率、发病率((Incidence rate;;每单位人时发病率)每单位人时发病率)直接调整;直接调整;间接调整;间接调整;Mantel-Haenszel调整调整Logistic回归;回归; Cox模型;模型; Mantel-Haenszel调整调整Poisson回归回归相对危险度相对危险度标化发病率比标化发病率比比值比比值比比值比比值比 风风 险险 比比 (( Hazard ratio)) 率比率比率比率比巢巢式式病病例例对对照照研究研究不不同同时时间间的的疾疾病病发发生生状状况况((事事件件发发生生时间数据)时间数据)条件条件Logistic回归;回归;Cox模模型型((with staggered entries,,处处理理先先后后进进入入研研究究的的日日历时点变量)历时点变量)比值比比值比风险比风险比多元多元Logistic回归分析控制混杂回归分析控制混杂例例1. 定群研究资料分析定群研究资料分析…弗明汉心血管疾病研究弗明汉心血管疾病研究742名名居居住住在在弗弗明明汉汉年年龄龄为为40-49岁岁的的男男性性,,在在各各自自暴暴露露不不同同水水平平的的影影响响因因素素(详详见见下下表表中中的的7种种因因素素),,经经12年年追踪观察冠心病(追踪观察冠心病(CHD)发病情况。
发病情况根根据据此此742名名受受试试者者每每人人暴暴露露各各项项因因素素的的水水平平和和CHD发发病病与与否否的的资资料料,,采采用用多多因因素素LOGISTIC回回归归模模型型进进行分析,结果见表行分析,结果见表1 表表1. CHD危险因素定群研究危险因素定群研究(12年追踪观察结果年追踪观察结果)变量变量参数参数 i i估计值估计值 i标准误标准误标化标化 i截距截距 0-13.2573 年龄年龄(岁岁) 10.12160.04370.3370胆固醇胆固醇(mg/dl) 20.00700.00250.3034BP(mmHg) 30.00680.00600.1320相对体重相对体重(W/H) 40.02570.00910.3458血红蛋白血红蛋白(g%) 5-0.00100.0098-0.0012吸烟吸烟(0,1,2,3) 60.42230.10310.4952ECG((0,,1)) 70.72060.40090.1750 根根据据表表1结结果果,,可可建建立立的的CHD影影响响因因素素的的Logistic回回归归模模型型,,公公式式如下如下:12 + + 0.7206 x7)]}(1) 计算描述因素与疾病间联系强度指标计算描述因素与疾病间联系强度指标OR值的大小值的大小:例如:胆固醇的例如:胆固醇的 值为值为,根据估计,根据估计OR值的公式计算值的公式计算CHD与与 胆固醇的联系强度为:胆固醇的联系强度为: OR = e 3 ==e 表表明明扣扣除除模模型型中中包包含含的的其其它它因因素素的的影影响响以以后后,,胆胆固固醇醇每每上上升升1mg/dl,,CHD累累积发病危险上升倍。
积发病危险上升倍例如:当例如:当ECG的的 值为值为时,根据估计时,根据估计OR值的公式计算值的公式计算CHD与与ECG异常的联系强度为:异常的联系强度为: OR = e 7 = e 7 X1 / e 7 X 0 = e 7 X (1-0) = e 表明表明扣除模型中包含的其它因素的影响以后,扣除模型中包含的其它因素的影响以后,ECG异常者异常者((=1))CHD发病是发病是正常者正常者((=0))的倍(2) 预测发病风险预测发病风险: 例例1: 一个原来不吸烟且胆固醇为一个原来不吸烟且胆固醇为230 mg/dl的人,如果后来每的人,如果后来每 天改为吸烟天改为吸烟1包包(x6=2),胆固醇上升到,胆固醇上升到330 mg/dl的话,即的话,即 使其他因素的暴露不发生任何不利的改变,其发生冠心使其他因素的暴露不发生任何不利的改变,其发生冠心 病病 的风险在的风险在12年间也将会增加倍,即:年间也将会增加倍,即: OR = e 3 × 330++ 6 × 2 / e 3 × 230++ 6× 0 = e0.0070 × (330-230) ++0.4223 × 2 ==总结:控制混杂效应的不同策略比较总结:控制混杂效应的不同策略比较。