第三节第三节 分析性研究分析性研究•是进一步在有选择人群中观察可疑病因是进一步在有选择人群中观察可疑病因与疾病和健康状况之间有无关联的一种与疾病和健康状况之间有无关联的一种研究方法研究方法–队列研究队列研究–病例对照研究病例对照研究第六章第六章 队列研究队列研究 ((cohort studycohort study))1.概述概述2. 实例实例3. 设计与实施设计与实施4.资料整理与分析资料整理与分析6.偏倚及其控制偏倚及其控制7.优缺点优缺点前瞻性研究前瞻性研究(Prospective study);发生率研究(;发生率研究(incidence study);;随访研究随访研究(follow-up study);纵向研究;纵向研究(longitudinal study)第一节 概 述一、概念一、概念1、队列:有共同经历或状态的一群人队列:有共同经历或状态的一群人 固定队列(固定队列(fixed cohort):指某特定事件发生时所有的人):指某特定事件发生时所有的人 作为一个队列,或相对稳定、相对大的人群。
原子弹作为一个队列,或相对稳定、相对大的人群原子弹 爆炸后形成的队列爆炸后形成的队列 动态队列(动态队列(dynamic cohort):是经常增加或减少队列成员):是经常增加或减少队列成员 的队列2、队列研究:选择暴露于及非暴露于某因素的两组人群,随访观察、队列研究:选择暴露于及非暴露于某因素的两组人群,随访观察一定时间,比较两组人群某种疾病的结局(发病率、死亡率)从一定时间,比较两组人群某种疾病的结局(发病率、死亡率)从而判断该因素与发病或死亡有无关联及关联的大小而判断该因素与发病或死亡有无关联及关联的大小3、暴露(、暴露(exposure):研究对象接触过某种待研究的物质、具备某种:研究对象接触过某种待研究的物质、具备某种待研究的特征或行为待研究的特征或行为4、危险因素、危险因素(risk factor):泛指引起某特定结局(:泛指引起某特定结局(outcome)的发生,的发生,后使其发生的概率增加的因子后使其发生的概率增加的因子二、 基本原理现在 将来 暴露暴露 疾病疾病 人数人数 比较比较 a a/(a+b) b c c/(c+d) d是否暴露是否暴露无干预无干预目标目标人群人群+-+-+-基本特征基本特征n属于观察法n设立对照组n由“因及果”的研究n能证明暴露与结局的因果联系(可信性强)n一“因”多“果”的研究(三)研究目的(三)研究目的1、检验病因假设:、检验病因假设:验证验证某种因素对某种疾某种因素对某种疾病发病率、死亡率或某种病发病率、死亡率或某种 健康状态的影健康状态的影响。
响2、描述疾病的自然史:疾病的全部自然发、描述疾病的自然史:疾病的全部自然发生、发展的生、发展的 过程为疾病的自然史过程为疾病的自然史二、研究类型二、研究类型(一)前瞻性队列研究((一)前瞻性队列研究(prospective cohort study);即);即时性队列研究(时性队列研究(concurrent cohort study):):开始时确开始时确定对象、分组,经随访得到结局定对象、分组,经随访得到结局 优点:优点:资料准确资料准确 缺点:缺点:样本大;花费大;时间长样本大;花费大;时间长(二)历史性队列研究((二)历史性队列研究(historical cohort study);非即);非即时性队列研究(时性队列研究(nonconcurrent cohort study):):开始开始时已得到结局,对象确定、分组在过去某时间研究时已得到结局,对象确定、分组在过去某时间研究者掌握研究对象过去某时点暴露状况的历史材料和自者掌握研究对象过去某时点暴露状况的历史材料和自此时点到现在的结局材料此时点到现在的结局材料 优点:优点:省人、物、时省人、物、时 缺点:缺点:无混杂因素的资料无混杂因素的资料(三)双向性队列研究((三)双向性队列研究(ambispective cohort study):):历史队列研究后继续进行前瞻性队列研究历史队列研究后继续进行前瞻性队列研究 具有第一、二类优点而克服其缺点具有第一、二类优点而克服其缺点 ((历史性历史性)) 研究开始研究开始 ((前瞻性前瞻性)) 暴露组暴露组 ------------------------→非暴露组非暴露组 ((双向性队列研究双向性队列研究)) 暴露组暴露组 非暴露组非暴露组 过去过去过去过去 现在现在现在现在 将来将来将来将来 追溯收集历追溯收集历史资料史资料继续追踪收继续追踪收集资料集资料追踪收追踪收集资料集资料不同类型受血者丙肝罹患率和抗不同类型受血者丙肝罹患率和抗-HCV阳转率阳转率组别 检测 丙型肝炎 抗-HCV 人数 发病例数 罹患率(%) 阳转例数 阳转率(%)未筛检 71 12 16.9 24 33.8经筛检 131 2 1.5 12 9.2采用二代酶免疫测定对献血员筛检,可有效降低输血后肝炎和采用二代酶免疫测定对献血员筛检,可有效降低输血后肝炎和HCV感染率感染率姜宝法姜宝法.病毒性肝炎病毒性肝炎. 李立明主编李立明主编. 流行病学流行病学. 第五版第五版 人民卫生出版社人民卫生出版社 北京北京 P486第二节第二节 队列研究设计与实施队列研究设计与实施前瞻性队列研究前瞻性队列研究 1 1、目的明确、目的明确 2 2、疾病发病率或死亡率、疾病发病率或死亡率≥≥5 5‰ 3 3、能获得暴露资料、能获得暴露资料 4 4、确定结局的方法简便可靠、确定结局的方法简便可靠 5 5、有足量样本,且人群稳定、有足量样本,且人群稳定 6 6、有足够的可利用资源、有足够的可利用资源历史性队列研究历史性队列研究 要有完整可靠要有完整可靠的历史记录或档案的历史记录或档案 一、确定研究因素:暴露因素(危险因素;保一、确定研究因素:暴露因素(危险因素;保护因素),一般在描述性研究和病例对照研究护因素),一般在描述性研究和病例对照研究基础上进行基础上进行 二、确定研究结局(二、确定研究结局(outcome):研究者预期):研究者预期的结果事件;死亡、发病以及某些试验指标的的结果事件;死亡、发病以及某些试验指标的变化变化 三、确定研究现场和人群三、确定研究现场和人群 (一)研究现场:有足量研究对象;领导重视;群(一)研究现场:有足量研究对象;领导重视;群众配合;交通方便;文化水平、医疗卫生条件好众配合;交通方便;文化水平、医疗卫生条件好(二)研究人群(二)研究人群 1、暴露人群、暴露人群 ((1)职业人群和特殊暴露人群:)职业人群和特殊暴露人群: 联苯胺致膀胱癌联苯胺致膀胱癌——染料厂工人染料厂工人 石棉致肺癌石棉致肺癌——石棉作业工人石棉作业工人 对某因素有高暴露率的人群(放对某因素有高暴露率的人群(放 射线辐射与白血病之关系:受原子弹爆炸危害射线辐射与白血病之关系:受原子弹爆炸危害 者;接受放射线治疗者)者;接受放射线治疗者) ((2)一般人群:吸烟与肺癌;口服避孕药与子宫内膜)一般人群:吸烟与肺癌;口服避孕药与子宫内膜 癌;饮食与高血压等。
癌;饮食与高血压等 缺点:面访个体而不能从记录中获取资料缺点:面访个体而不能从记录中获取资料 注意问题:因素与疾病均应常见;无或不需注意问题:因素与疾病均应常见;无或不需 特殊暴露人群特殊暴露人群 ((3)有组织的团体:医学、工会会员;参加保险者)有组织的团体:医学、工会会员;参加保险者 (吸烟与肺癌)(吸烟与肺癌)2、对照人群的选择、对照人群的选择 可比性可比性 ((1)内对照:同一队列无暴露或暴露水平低者)内对照:同一队列无暴露或暴露水平低者 如如Framingham心脏病研究心脏病研究 ((2)外对照:在特殊暴露人群以外的特设对照)外对照:在特殊暴露人群以外的特设对照 放射科医师放射科医师——五官科医师五官科医师 ((3)总人口对照:发病或死亡率易得且稳定)总人口对照:发病或死亡率易得且稳定 缺点:资料粗糙,项目不全缺点:资料粗糙,项目不全 注意:时间和地区应同暴露人群注意:时间和地区应同暴露人群 ((4)多重对照:多种对照)多重对照:多种对照四、确定队列大小(四、确定队列大小(size of sample)) 1、注意问题、注意问题 ((1)抽样方法)抽样方法 ((2)暴露组与对照组的比例:相等)暴露组与对照组的比例:相等 ((3)失访率:按)失访率:按10%估计估计 2、影响因素、影响因素 ((1)一般人群中所研究疾病的发病率()一般人群中所研究疾病的发病率(p0)) ((2)暴露人群发病率()暴露人群发病率( p1););d=p1-p0 p p1 1=RR=RR• •p0 0 ((3)希望的显著性水平()希望的显著性水平(a=a=0.05 or =0.01) ((4 4)希望的把握度()希望的把握度(power)):((1- b=0.9b=0.9))3、计算、计算 公式:公式: 例:例:评价口服避孕药与子女患先天性心脏病之关系评价口服避孕药与子女患先天性心脏病之关系 已知:非暴露组发病率为已知:非暴露组发病率为P0=0.07 q0=1.993 假定假定 RR=2.5 设设 a=a=0.5 b=0.1 b=0.1 查表查表 Za a=1.96 =1.96 Z b b=1.282 求:每组求:每组n=?? 计算:计算:P1RRRR• •p0 0=0.0175 q1=1-p1=0.0175 代入上式计算:代入上式计算: n=2310如考虑失访:如考虑失访: n=2310(1+0.1)=2541 公式:公式: 例:放射线与白血病,人群发病率例:放射线与白血病,人群发病率(p0)=0.0001,, 暴露组发病率暴露组发病率(p1)=0.001。
定:定:a=a=0.05(双侧)(双侧)b=b=0.1 查表:查表:Ua a=1.96 Ub b=1.282 代入上式得:每组代入上式得:每组n≈14266(人)(人) 考虑失访:每组考虑失访:每组n= 14266+ 14266×10% ≈15693(人)(人)五、资料收集与随访五、资料收集与随访 (一)基线资料收集(一)基线资料收集(baseline information):: 待研究的暴露因素和暴露情况的资料,疾病与健康待研究的暴露因素和暴露情况的资料,疾病与健康状况的资料以及个人信息资料状况的资料以及个人信息资料 1、记录或档案、记录或档案 2、访问、访问 3、体检及实验室检查、体检及实验室检查 4、环境资料、环境资料(二)随访(二)随访1、随访期:、随访期:据疾病的潜伏期(病因作用到临床发现)和据疾病的潜伏期(病因作用到临床发现)和暴露与疾病的联系强度作出暴露与疾病的联系强度作出2、随访目的:、随访目的:1 1)确定研究对象是否处于观察之中)确定研究对象是否处于观察之中( (分母分母) ) 2 2)确定人群中事件结局)确定人群中事件结局( (分子分子) ) 3 3)收集混杂因素的资料)收集混杂因素的资料3、随访方法:、随访方法:1 1))利用记录或档案利用记录或档案 2 2)特殊方法:面谈、、通信)特殊方法:面谈、、通信 3 3)环境检测)环境检测4、观察终点、观察终点(end point)与终止时间:与终止时间:前者是观察对象出前者是观察对象出现了预期的结果;后者是整个研究可得出结论的时间现了预期的结果;后者是整个研究可得出结论的时间5、间隔时间:、间隔时间:据具体情况而定据具体情况而定6、随访者:、随访者:培训培训六、质量控制六、质量控制 1、调查员的选择、调查员的选择 2、调查员的培训、调查员的培训 3、制定调查手册、制定调查手册 4、监督、监督 重复调查;数值检查或逻辑检错;定期观察调查员的重复调查;数值检查或逻辑检错;定期观察调查员的工作;对不同调查员的数据进行分布比较;变量的时工作;对不同调查员的数据进行分布比较;变量的时间趋势分析;使用录音机间趋势分析;使用录音机第三节第三节 资料分析资料分析一、队列研究资料整理表一、队列研究资料整理表 组别组别 病例病例 非病例非病例 合计合计 发病率发病率暴露组暴露组 a b a+b=n1 a/n1= Ie 非暴露组非暴露组 c d c+d=n0 c/n0 = Io合计合计 a+c=m1 b+d=m0 a+b+c+d=t m1/ t= It流行病学资料分析原则流行病学资料分析原则1、描述性分析:、描述性分析:n 研究对象的一般特征研究对象的一般特征n均衡性检验均衡性检验2、推断性分析:、推断性分析:n 显著性检验:比较两组率(暴露比例)有无显著性显著性检验:比较两组率(暴露比例)有无显著性差异差异n效应估计(联系强度)效应估计(联系强度) :用率或暴露比估计:用率或暴露比估计3、控制混杂因素:、控制混杂因素:匹配;分层;多因素分析匹配;分层;多因素分析二、人时计算二、人时计算(person time)(一)以个体为单位计算暴露人年(一)以个体为单位计算暴露人年(person year):: 精确法:以天为单位,计算研究对象被观察的天数,折合成人年。
精确法:以天为单位,计算研究对象被观察的天数,折合成人年 近似法:以年为单位计算,开始与终止年份各算近似法:以年为单位计算,开始与终止年份各算0.5年,同一年开始年,同一年开始 与终止者算与终止者算0.25年,开始与终止年份之间算年,开始与终止年份之间算1年,累积人年年,累积人年二)动态人群:不知道每个成员进入和退出的准确时间,只有每年横断(二)动态人群:不知道每个成员进入和退出的准确时间,只有每年横断面调查的资料以平均人数乘观察年数得总人年数;平均人数为相邻两面调查的资料以平均人数乘观察年数得总人年数;平均人数为相邻两时段人口平均数或年中人数时段人口平均数或年中人数 表表 动态人群人年计算动态人群人年计算例:例:35~岁组:岁组: 人年数人年数=(8836+9149)/2+(9149+9287)/2+(9287+9414)/2+ (9414+9710)/2+(9710+9796)/2×5/12=41211(人年人年)年龄年龄 观察人数观察人数 . 人年数人年数 (岁)(岁) 51.11.1 52.11.1 53.11.1 54.11.1 55.11.1 56.4.1 35~ 8836 9149 9289 9414 9710 9796 4121145~ 7117 7257 7381 7351 7215 7191 3215655~64 4094 4212 4375 4601 5057 5243 19909合计合计 20097 20618 21043 21366 21982 22230 93276(三)寿命表法:(三)寿命表法: Lx=Ix+1/2(Nx-Dx-Wx) Ix+1=Ix+Nx-Dx-Wx 其中:其中:Lx为为x时间内暴露人年数;时间内暴露人年数; Ix为为x时间开始时的人数;时间开始时的人数; Nx为为x时间内进入队列的人数;时间内进入队列的人数; Dx为为x时间内出现终点结局的人数;时间内出现终点结局的人数; Wx为为x时间内失访的人数时间内失访的人数 表表 寿命表法计算人寿命表法计算人 第一年暴露人年数为:第一年暴露人年数为: L1=I1+1/2(N1-D1-W1)=1403+1/2(79-4-30)=1425.5 I2=I1+N1-D1-W1=1403+79-4-30=1448 L2=1448+1/2(45-2-11)=1464 以此类推,合计得以此类推,合计得13336.5人年人年观察时间观察时间 年初人数年初人数 年内进入人数年内进入人数 年内发病人数年内发病人数 年内失访人数年内失访人数 暴露人年数暴露人年数 (年数年数) x Ix Nx Dx Wx Lx1 1403 79 4 30 1425.52 1448 45 2 11 1464.03 1480 60 3 8 1504.54 1529 5 2 19 1521.0 5 1513 10 7 25 1502.06 1519 18 8 29 1481.5 7 1472 13 3 73 1440.58 1409 12 5 74 1375.59 1342 9 2 467 1112.010 882 3 1 819 473.511 65 0 0 57 36.5合计合计 37 1333.6三、率三、率(一)累积发病率(一)累积发病率(cumulative incidence)::1、简单累积法:(适用于固定队列)、简单累积法:(适用于固定队列) 表表 钩体感染与脑动脉炎关系的队列研究钩体感染与脑动脉炎关系的队列研究 中国人畜共患病杂志中国人畜共患病杂志 1988, 4(3):44 1)卡方检验:卡方检验:c c2 2=20.6 =20.6 自由度自由度=1 =1 P P<0.01<0.01 2)U 2)U检验:检验:大样本,样本率的频数分布接近于正态分布时大样本,样本率的频数分布接近于正态分布时组别组别 发病人数发病人数 未发病人数未发病人数 总人数总人数 发病率发病率%暴露组暴露组 12(a) 351(b) 363(n1) 3.31非暴露组非暴露组 1(c) 817(d) 818(n0) 0.12合计合计 13(m1) 1168(m0) 1181(n) 2、发病密度法(、发病密度法(incidence density;;ID):(适用于动态队列)):(适用于动态队列) 发病密度:一定时期内的平均发病率(以人时为分母计算的发病率)发病密度:一定时期内的平均发病率(以人时为分母计算的发病率) ID=D/PT D:观察期间发病数:观察期间发病数 PT:观察人时数(:观察人时数(person time)) PT=观察人数观察人数×观察时间观察时间 观察时间常用年(人年数,观察时间常用年(人年数,person year)) 1个月个月=0.0833年,年,1天天=0.00274年年 对发病密度资料,要进行对发病密度资料,要进行c c检验。
检验(二)标化率、标化死亡比(二)标化率、标化死亡比 1、标化率:粗率不能比较,年龄标化后比较、标化率:粗率不能比较,年龄标化后比较 2、、标化死亡(发病)比标化死亡(发病)比((standard mortality rate, SMR):实际死亡(发病)人数与以全人口的死亡:实际死亡(发病)人数与以全人口的死亡 (发病)率为标准计算出预期死亡(发病)人数之(发病)率为标准计算出预期死亡(发病)人数之 比用于死亡(发病)率较低时用于死亡(发病)率较低时 例:某人群观察期内冠心病死亡例:某人群观察期内冠心病死亡8080人,已知用该地全人口冠人,已知用该地全人口冠心病死亡率为标准计算出的预期死亡人数为心病死亡率为标准计算出的预期死亡人数为7171人,求:人,求:SMR=SMR=?? 即该人群死于冠心病的危险超过相应全人群的即该人群死于冠心病的危险超过相应全人群的0.130.13倍 SMR95%CI及显著性检验:及显著性检验: SMR95%CI:: 下限:下限:Lp/E(D) 上限:上限:Up/E(D) L Lp p ,,U Up p分别为按分别为按PoissionPoission分布所得的死亡数可信区间的上限和下限;分布所得的死亡数可信区间的上限和下限;D D为实际死为实际死亡数;亡数;E(D)E(D)为预期死亡数。
为预期死亡数 计算:计算:当当当当D>50D>50时时时时,用正态分布法求,用正态分布法求SMR95%CI 当当当当D≤50D≤50时时时时,用,用Poission查表求查表求SMR95%CI 本例:本例:D>50=80, 则:则: 如果该区间包含如果该区间包含SMR,则差别无统计学意义则差别无统计学意义显著性检验:把观察死亡数显著性检验:把观察死亡数D作为均数是期望死亡数作为均数是期望死亡数E的的Poission分布 当当当当E≥10E≥10时,时,时,时,可进行正态近似检验:可进行正态近似检验: 或:或: (自由度(自由度=1)) 本例:本例: 无显著性差异无显著性差异 当当当当E<10E<10时,时,时,时,按按Poission分布的原理检验分布的原理检验四、效应估计(联系强度)四、效应估计(联系强度) 1、资料整理、资料整理 表表6-5 队列研究资料整理表队列研究资料整理表 2、计算、计算 ((1)相对危险度()相对危险度(relative risk, RR):: RR=Ie/Io=(a/n1)/(c/n0) 暴露对于个体增加危险性的倍数暴露对于个体增加危险性的倍数 组别组别 病例病例 对照对照 合计合计 发病率发病率暴露组暴露组 a b a+b=n1 a/n1= Ie 非暴露组非暴露组 c d c+d=n0 c/n0 = Io合计合计 a+c=m1 b+d=m0 a+b+c+d=t m1/ t= It危险危险度度risk相对危险度(相对危险度(RR)与关联强度)与关联强度 (Monson RA, 1980) RR((OR)) 关联强度关联强度 0.9~1.0 1.0~1.1 无无 0.7~0.8 1.2~1.4 弱弱 0.4~0.6 1.5~2.9 中等中等 0.1~0.3 3.0~9.9 强强 <0.1 >10 很强很强 RR95%CI: 1))Woolf法:法: RR95%CI=exp(lnRR±1.96 ) Var(lnRR)=1/a+1/b+1/c+1/d 2)Miettinen法:法:((2)归因危险度()归因危险度(attributive risk,,AR)或称)或称率差率差(( rate difference,,RD)) AR=Ie-Io=(a/n1)-(c/n0)=RRΧ Io- Io = Io(RR-1) 暴露增加的超额危险度(暴露增加的超额危险度(excess risk) AR95%CI=AR ±1.96s ((3)归因危险度百分比)归因危险度百分比((attributive risk proportion,, ARP,,AR%)或称)或称暴露人群归因分值暴露人群归因分值((attributive fraction,,AFe),或称),或称暴露人群病因分值暴露人群病因分值(( etiologic fraction,,EFe)) ARP=AR%= (Ie – I0)/Ie = (RR-1)/RR 暴露人群中归因于暴露的发病或死亡占全暴露人群中归因于暴露的发病或死亡占全 部发病或死亡的部发病或死亡的比例。
如吸烟与肺癌关系研究表明,比例如吸烟与肺癌关系研究表明,AFAFe e=90.7%=90.7%,说明吸烟,说明吸烟者中的肺癌者中的肺癌90.7%90.7%归因于吸烟,而非群全部由吸烟引起归因于吸烟,而非群全部由吸烟引起((4 4)人群归因危险度()人群归因危险度(population attributive risk,,PAR) PAR=It – Io 整个人群中某时期由于某暴露因素引起该病发病或死亡整个人群中某时期由于某暴露因素引起该病发病或死亡的率5 5)人群归因危险度百分比)人群归因危险度百分比((population attributive risk proportion,,PARP,,PAR%))(人群归因分值人群归因分值 population etiologic fraction,,PEF) PARP=PAR%=(It – Io)/It = Pe(RR-1)/1+Pe(RR-1) Pe Pe:人群中某种暴露者的比例:人群中某种暴露者的比例 人群中某暴露因素引起的发病或死亡占整个人群该病发人群中某暴露因素引起的发病或死亡占整个人群该病发病或死亡的比例。
病或死亡的比例例:例:已知:已知:吸烟者肺癌年死亡率吸烟者肺癌年死亡率(Ie)为为0.96‰,非吸烟,非吸烟 者者(Io)为为0.07‰,全人群为,全人群为(It) 0.56‰,则:,则: RR= Ie/Io= 0.96‰/ 0.07‰=13.7 AR= Ie-Io= 0.96‰-0.07‰=0.89‰ AR%=(Ie-Io)/ Ie×100%=92 .7% PAR= It-Io= 0.56‰-0.07‰=0.49‰ PAR%= (It-Io)/ It×100%=87.5%五、分层分析和多因素分析五、分层分析和多因素分析•分层分析:同病例对照研究分层分析:同病例对照研究•多因素分析多因素分析 Logistic回归模型(回归模型(Logistic regression model)) Cox回归模型(回归模型( Cox regression model)) 第五节第五节 优缺点优缺点(一)优点:(一)优点:1、研究结局是亲自观察获得,一般较可靠、研究结局是亲自观察获得,一般较可靠2、可获得暴露组与非暴露组的死亡率、发病率,直接计算相对危险度、可获得暴露组与非暴露组的死亡率、发病率,直接计算相对危险度3、检验病因假说的能力强,结论有说服力(资料完整可靠,无回忆偏倚;、检验病因假说的能力强,结论有说服力(资料完整可靠,无回忆偏倚;由因及果,符合因果研究的时间顺序)由因及果,符合因果研究的时间顺序)4 、可了解疾病自然史;可研究一种因素与多种结局的关系、可了解疾病自然史;可研究一种因素与多种结局的关系(二)缺点:(二)缺点:1、不适于研究发病率低的疾病、不适于研究发病率低的疾病2、易产生失访偏倚、易产生失访偏倚3、花费时间、人力物力、财力大、花费时间、人力物力、财力大4、随研究时间推移,未知因素进入研究人群可影响结局、随研究时间推移,未知因素进入研究人群可影响结局5、设计要求高,实施难度大、设计要求高,实施难度大。