第十章第十章 诊断性试验循证分析与评价诊断性试验循证分析与评价 主要内容Ø一、医学诊断试验的定义和意义 Ø二、诊断试验研究设计方法 Ø三、诊断试验的评价指标及其临床意义 Ø四、诊断试验在循证医学临床实践中的应用 Ø五、诊断试验证据的评估 一、医学诊断试验的定义Ø诊断试验(diagnostic test):应用实验、仪器设备等手段检查就诊者,对疾病进行诊断的一切检测方法Ø包括:①实验室检查(生物化学、免疫学、微生物学、寄生虫学、病理学等)②影像诊断(超声波、CT、X线、核磁共振等)③仪器检查(心电图、脑电图、核素扫描、内窥镜等)④病史询问、体格检查等 一、医学诊断试验研究和评价的意义Ø是正确认识临床应用价值的重要方法新的诊断试验常可能不恰当地夸大了其临床价值:§如,癌胚抗原(CEA)对结肠癌的诊断,后来发现其它恶性肿瘤也有该抗原,且在非肿瘤的吸烟者中有近20%的人呈阳性;§中性粒细胞的四唑氮蓝试验(NBT),开始被认为对鉴别细菌性败血症与非感染性疾病、病毒性疾病有很大的临床价值,但后来发现该应用并不理想 Ø是提高诊断水平的基础:§诊断试验在临床上的应用:病因和病原学诊断疾病病理和功能损害的诊断疗效的判断药物毒副作用的监测疾病预后的判断应用于普查、筛检无症状的病人等。
一、医学诊断试验研究和评价的意义二、诊断试验研究设计方法§新诊断试验进行评价的基本方法: 将待评价的诊断试验与诊断该病的标准诊断方法进行盲法比较研究,以评价该试验对疾病诊断的真实性、精密性和实用性Ø确立金标准(gold standard) Ø选择研究对象 Ø估计样本含量 Ø评价过程实行盲法原则 Ø列表分析评价 二、诊断试验研究设计方法1 确立金标准(gold standard) §定义:指目前公认的最可靠、最准确、最好的诊断方法,也称标准诊断方法,用来衡量新的诊断试验是否符合真实情况 §常用的金标准:组织病理学检查、手术发现、影像学诊断(CT、核磁共振、彩色B超)、细菌培养以及长期随访所得的结论2 选择研究对象 §病例组:按金标准确诊“有病”的病人,应该包括该病各种类型的病例,即典型和不典型的;早、中、晚各期;病情轻、中、重;有、无并发症;治疗过和未治疗过的等各种情景§对照组:按金标准证实“无病”的患者,特别应当包括确实无该病,但易与该病相混淆的其他病例,明确其鉴别诊断价值3 估计样本含量§影响诊断试验研究样本含量的因素:灵敏度、特异度以及允许误差。
§样本含量计算的公式 §δ为允许误差,一般在0.05~0.10之间;§p为灵敏度或特异度,用灵敏度估计值计算病例组所需的样本含量,而用特异度的估计值来计算对照组的样本含量 4 评价过程实行盲法原则 §试验的操作者和报告者事先不应知道受试者属病例组,还是属对照组,否则易造成主观偏倚5 列表分析评价 三、诊断试验的评价指标及其临床意义Ø敏感度(sensitivity)Ø特异度(specificity) Ø准确度(accuracy) Ø阳性预测值 (positive predictive value, +PV)Ø诊断比值比(diagnostic odd ratio, DOR)Ø阳性似然比(positive likelihood ratio, +LR)1 敏感度(sensitivity, SEN) n敏感度:由金标准确诊有病的病例组中,诊断试验检出阳性病例数的比率(%),即该试验的真阳性率 SEN=a/(a+c)n假阴性率:在真正有病的人中,被该试验诊断为阴性的比例,即为漏诊率 假阴性率=c/(a+c)n敏感度=1-假阴性率。
敏感性高的诊断试验有助于筛查相应的疾病 5 列表分析评价 2 特异度(specificity, SPE)n特异度系指由金标准确诊无病的对照组中,诊断试验检出阴性结果人数的比率(%),亦即该试验的真阴性率 SPE=d/(b+d)n在真正无病的人中,被该诊断试验为阳性的病例,即为误诊人数(假阳性) 假阳性率(或称误诊率)=b/(b+d) n特异度=1-假阳性率特异性高的诊断试验有助于确定诊断 例 为评价计算机辅助断层摄影(CT)诊断胰腺癌的价值, 以病理学检查作为“金标准”由金标准确诊的胰腺癌组有55例,另选择了胆管系统肿瘤、慢性胰腺疾患共58例作为对照组所得数据见下表 SEN=44/55=80%;SPE=23/58=39.7%;假阴性率=1-80%=20%;假阳性率=1-39.7%=60.3%CT诊断病理诊断合计胰腺癌非胰腺癌阳性443579阴性112334合计5558113表 CT诊断胰腺癌的评价3 准确度 (accuracy,ACC)n亦称为符合率、诊断效率(diagnostic efficient, DE); n诊断试验检出的真阳性和真阴性例数之和占总例数的比例,反映了测定值(待评价试验)与真实值(金标准)的接近程度; nACC=(a+d)/N4 阳性预测值 (positive predictive value, +PV)n诊断试验检出的阳性例数中,真正患病的例数所占的比例+PV=a/(a+b)n准确度和阳性预测值可信性不高,受试验患病率的影响阳性预测值(+PV) = 其中 代表患病率§例10-1 某诊断试验的敏感度为90%,特异度为60%,如被检测病例为1000例,当被检病例中的患病率增高时,阳性预测值和准确度均有较明显的改变待评价试验金标准合计有病无病阳性180320500阴性20480500合计2008001000待评价试验金标准合计有病无病阳性540160700阴性60240300合计6004001000SEN=90%,SPE=60%,患病率=20%,+PV=36%,ACC=66%SEN=90%,SPE=60%,患病率=60%,+PV=77%,ACC=78%5 诊断比值比(diagnostic odd ratio, DOR)§DOR=ad/bc待评价试验金标准合计有病无病阳性180320500阴性20480500合计2008001000待评价试验金标准合计有病无病阳性540160700阴性60240300合计6004001000SEN=90%,SPE=60%,患病率=20%,+PV=36%,ACC=66%,DOR=13.5SEN=90%,SPE=60%,患病率=60%,+PV=77%,ACC=78%, DOR=13.56 阳性似然比(positive likelihood ratio, +LR )Ø真阳性在“有病”患者中的比例与假阳性在“无病”例数中比例的比值Ø是诊断试验中灵敏度与误诊率的比值,即正确判定病人的概率是错判病人概率的倍数,它反映诊断试验判断正确的概率程度。
Ø+LR的取值范围为(0,∞),其值越大则该试验确诊疾病能力越强Ø阳性似然比(+LR)= 例 为评价计算机辅助断层摄影(CT)诊断胰腺癌的价值, 以病理学检查作为“金标准”由金标准确诊的胰腺癌组有55例,另选择了胆管系统肿瘤、慢性胰腺疾患共58例作为对照组所得数据见下表 SEN=44/55=80%;SPE=23/58=39.7%;ACC=(44+23)/113=59.3%;+PV=44/79=55.7%;DOR=44*23/(35*11)=2.63+LR=0.8/(1-0.397)=1.31CT诊断病理诊断合计胰腺癌非胰腺癌阳性443579阴性112334合计5558113表 CT诊断胰腺癌的评价四、诊断试验在循证医学临床实践中的应用 §ROC曲线的应用§似然比的临床应用§提高诊断试验敏感度或特异度的方法1 受试者工作特性曲线 (Receiver Operator Characteristic Curve, ROC)Ø是根据不同临界点时的真阳性率和假阳性率作图所得的曲线 ØROC表示敏感度和特异度之间的关系,常被用来决定最佳临界点,从而评价诊断试验区别健康人与病人的能力。
Ø在越接近左上角那一点(A点)定为临界点,即在敏感度与特异度之和最大,误诊与漏诊之和最小处1.1 用于正常值临界点的选择§例 应用ROC曲线确立AFP, AFP- IgM 对肝癌患者医学诊断的界值(cut-off)水平;§以AFP为例:SPSS结果面积的假设检验与95%可信区间100(1-α)%可信区间 SPSS结果最小界限值是最小观测检验值减 1,最大界限值是最大观测检验值加 1所有其它的界限值都是两个邻近的观测检验值的平均值找出cut-off将上表拷到excel或导出到excel中,计算:敏感度-(1-特异度),最大者则认为其该点为cut-off值敏感度-(1-特异度)为0.601 ,cut-off值为10.9在10.9上,SEN=0.797,SPE=0.8041.2 优选性质类似的诊断试验§两种诊断方法的比较可考察两个问题(1)两种诊断方法是否存在相关性(2)两种诊断方法是否存在差异两种诊断方法的面积的相关性Hanley JA., McNeil BJ. A Method of Comparing the Areas under Receiver Operating Characteristic Curves Derived from the Same Cases. Radiology 1983, 148: 839-843. §r 代表两个ROC 曲线下面积间的相关系数,它的计算需要首先求得两个中介相关系数,即正常组的两诊断试验间和异常组的两诊断试验间的相关系数记为 和 ,其计算可采用传统的Pearson 积差法。
§对于等级资料可用Kendall系数利用SPSS计算相关系数§考虑AFp与AFp-Igm两指标,分别计算它们的面积据Hanley的文献查表1可得ROC 曲线下面积间的相关系数为0.12两种诊断方法面积相关性检验§P<0.05,可以认为两种方法ROC 曲线下面积间存在相关性但相关性不是很强 两ROC 曲线下面积是否相等 P<0.05可认为两种诊断方法差异有统计学意义2 似然比的临床应用§例10-3 研究者对贫血患者进行血清铁蛋白(ferritin)检查,选定65μg/L(ng/ml)为临界值,当血清铁蛋白<65μg/L则诊断为缺铁性贫血,而≥ 65μg/L则为非缺铁性贫血共计检查2579例贫血患者,结果见表10-3血清铁蛋白缺铁性贫血合计是否阳性(<65)7312701001阴性(≥65)7815001578合计80917702579表10-3 缺铁性贫血患者血清铁蛋白检查结果SEN=731/809=90.4%SPE=1500/1770=84.7%+LR=SEN/(1-SPE)=5.9铁铁蛋白(蛋白(μg/L))阳性似然比(阳性似然比(+LR))<1551.815~248.825~342.535~441.845~990.5≥1000.08表10-4 缺铁性贫血患者血清铁蛋白分层检验结果计算病例患病的验后概率§验前概率(pretest probability)=医师依据病史及体征做出的初步估计§验前比值(pretest odds)=验前概率/(1-验前概率)§验后比值(post-test odds)=验前比值×似然比§验后概率(post-test probability)=验后比值/(1+验后比值)§例10-4 一位农村妇女36岁,面色不好,心慌乏力半年多,平时务农,每次月经量偏多,如何考虑患者的诊断?§根据病史:可能有贫血及钩虫感染§初步诊断:缺铁性贫血(IDA)的可能性至少有60%(验前概率)§化验检查:Hb 65g/L,RBC3.40 × 1012/L,血清铁蛋白20 μg/L(+LR=8.8)§验前比值=0.6/(1-0.6)=1.5,验后比值=1.5×8.8=13.2§验后概率=13.2/(1+13.2)=0.93如果有2项或者2项以上的诊断性试验为阳性§验后比值(post-test odds)=验前比值×(+LR1) ×(+LR2)§验后概率(post-test probability)=验后比值/(1+验后比值)§例10-5 患者为40岁男性,因胸前闷胀来院就诊,经仔细询问2年前曾有不典型心绞痛,经ECG检查ST水平下移2mm,试问该患者患有CHD的可能性有多大?§验前概率为20%,不典型心绞痛的+LR=14,心电图ST下移2mm的+LR=11,根据公式计算验后概率为97.5Ø平行试验Ø序列试验3 提高诊断试验敏感度或特异度的方法 §平行试验(parallel tests) Ø也称并联试验,是多个试验同时进行,只要有一个阳性就可判为平行试验阳性,认为疾病的证据存在。
Ø其优点是灵敏度提高,不易漏诊,缺点是特异度降低,误诊增多 项目结果判断结果试验A试验B平行试验+-+-+++++---表10-7 平行试验结果的判断方法平行试验敏感度及特异度的公式:平行试验SEN=SEN A+(1-SEN A) ×SEN B平行试验SPE=SPE A × SPE B例10-6 试验A:SEN=65%,SPE=80% 试验B:SEN=75%,SPE=90%计算两项平行试验合并后的敏感度和特异度平行试验SEN=0.65+(1-0.65)×0.75=0.91平行试验SPE=0.80×0.90=0.72(2)序列试验(serial tests) Ø也称串联试验,是多个试验相继进行,前一个试验结果阳性就接着做下一个试验,一旦出现阴性结果就可判为序列试验阴性,作为无病处理,终止试验只有各试验结果全部阳性才能判为序列试验阳性 Ø该方法的优点是特异度提高,误诊减少,缺点是灵敏度下降,漏诊增加 序列试验的敏感度及特异度计算序列试验SEN(A+B)=SEN A×SEN B 序列试验SPE(A+B)=SPE A+(1-SPE A)×SPE B 例:急性心肌梗死患者,不同的酶学测定结果SEN、SPE各有高低(表10-8),单项应用易发生假阳性造成误诊,如三项同时应用,则可提高确诊的概率,从而确定疾病的诊断。
酶学检查SEN(%)SPE(%)CK9657SGOT9174LDH8791表10-8 单项酶学测定的SEN与SPESEN(A+B+C)=0.96×0.91×0.87=0.76SPE(A+B)=0.57+(1-0.57)×0.74=0.89SPE(A+B+C)=0.89+(1-0.89)×0.91=0.99五、诊断试验证据的评估1、诊断试验的真实性(1)是否用盲法将诊断性试验与参考标准(金标准)进行独立的对比研究?§“独立”指所有研究对象都要同步进行诊断试验和标准诊断方法的测定,不能根据诊断试验的结果有选择地采用标准诊断方法测定§“盲法”指诊断试验与标准诊断方法结果的解释相互不受影响§例:评价心电图运动试验诊断冠心病的价值,采用冠状动脉造影主干狭窄75%作为诊断冠心病的“金”标准,考虑到冠状动脉造影检查的创伤性和患者的依从性,凡心电图运动试验阳性,都被送去做冠状动脉造影,而心电图运动试验阴性者只抽出1/10病例去做冠状动脉造影§结果夸大了心电图运动试验的敏感度,造成偏倚(2)诊断试验是否包括了适当的病谱?§病例组:应该包括所研究疾病的各种临床类型,如轻、中、重型;早、中、晚期;典型与非典型;有和无并发症;病程长与病程短;经治疗和未经治疗的患者§对照组:应选择确实无该病的其他病例,且应包括相当比例的临床上容易与所研究的疾病相混淆而需要鉴别的其他疾病患者(3)诊断试验的检测结果,是否会影响参考标准的应用?§一方面要考虑原有金标准是否恰当,另一方面要考虑新的诊断试验,是否真有新的发现(4)如将该试验应用于另一组病例,是否也具有真实性?n诊断试验的精确性,又称可重复性,是指诊断试验在完全相同的条件下,进行重复操作获得相同结果的稳定程度或一致性。
n相同条件下,同一观察都用同一种检测方法重复检验同一批受试者;n不同观察者用同一种检测方法分另检验同一批受试者常用评价的指标有:Ø组内相关系数(intra-class correlation coefficient , ICC) :检测结果是计量资料时用ØKappa指数:检测结果是分类资料时用ØBland-Altman法 组内相关系数(intra-class correlation coefficient , ICC)§例 用某种方法检测10名研究对象的血糖值,每个研究对象重复检测两次,所得数据如表所示试评价该检测方法的可靠性表 某法对10名研究对象血糖值重复检测结果(mmol/L)§Kappa检验是一种校正了机会造成的符合率(即与金标准诊断的一致性)检验,它排除了由于机会造成的符合率,从而提高了判断的有效性§以 代表实际观察到的符合率(即准确度ACC), 代表机会符合率. 定性资料的Kappa指数式中,k:分组数或等级数;Aii:k×k表主对角线上的实际例数;ni+和n+i分别为第i行和第i列的合计 Kappa值的意义:ØKappa值在-1~+1间波动。
ØKappa为-1,表示诊断试验与金标准完全不一致;ØKappa为+1,表示诊断试验与金标准完全一致;Økappa为零,符合率(准确度)与机会符合率相等ØKappa值为正值时,愈大愈有临床应用价值ØKappa<0.40,可以认为诊断试验价值极小;ØKappa值介于0.40到0.74间,诊断试验价值一般;ØKappa≥0.75时表明准确性较好;ØKappa≥0.90时表明准确性很好;ØKappa值愈接近于1,试验结果精密性愈好Κappa指数的假设检验 当资料为2×2四格表资料时 §例 某医院两名病理科医生对同一批某早期癌症病理切片进行诊断,结果见表,对其一致性进行评价 表 两名医生的诊断结果 对K值进行假设检验如下:H0:两名医生诊断结果不存在一致性,即H1:两名医生诊断结果存在一致性,即 =0.05则P<0.01,拒绝H0,接受H1,可认为两名医生诊断结果存在着一致性,根据所求得的K值为0.9160>0.75,可认为两名医生的诊断结果一致性极佳 SPSS操作§例 某省医院放射科医师和省矽肺诊断专家组先后对250名矽肺可疑患者的X线片做两次诊断,结果见表,对两次诊断结果进行一致性分析。
表 250名矽肺可疑患者的诊断结果 对K值进行假设检验如下:H0:两次诊断结果不存在一致性,即H1:两次诊断结果存在一致性,即 =0.05则P<0.01,拒绝H0,接受H1,可以认为两次诊断结果存在着一致性,根据所求得的K值为0.7592>0.75,可认为两次诊断结果一致性极佳 SPSS结果 影响诊断试验精密性的主要因素 Ø实验条件造成的误差:仪器质量差和老化,电压不稳定,试剂批号或存放时间不一致,温度、湿度不同Ø测量误差:不同的观察者检测同一批样品;同一个观察者在不同时间检测同一批样品在试验之前严格培训观察者,要求操作规范、方法熟悉,标准统一Ø个体变异 :由于受试者自身的生物学变异,造成用同一种试验方法重复检测同一受试者时检测结果不一致如血压、血糖2、诊断试验的重要性§(1)是否通过该项诊断性试验,能正确诊断或鉴别该患者有无特定的目标疾病?阳性似然比阳性似然比验前概率验前概率5%10%20%30%50%70%1024537181819196521365668839231425435675881510203050700.31.53.271123410.10.512.54919表10-5 +LR和验前概率与验后概率的关系(2)是否进行了分层似然比的计算?某女性患者,因贫血就诊初步考虑缺铁性贫血的可能性(验前概率)有50%,经检查血清铁蛋白结果为15 μg/L,则其验后概率为90%表10-4 缺铁性贫血患者血清铁蛋白分层检验结果铁铁蛋白(蛋白(μg/L))阳性似然比(阳性似然比(+LR))<1551.815~248.825~342.535~441.845~990.5≥1000.083、诊断试验的实用性(1)该试验是否能在本单位开展并能进行正确的检测§报道中是否明确叙述了试验的原理、试剂、操作步骤与方法、检测对象与注意事项§有无经济效益(2)我们在临床上是否能够合理估算病人的验前概率?与验前概率有关的三个因素:§医师本人的临床经验;§该病在当地的发生情况(群体的患病率);§诊断试验的应用范围是否符合我们的病例(3)检测后得到的验后概率是否有助于我们对患者的处理?参考文献§王家良. 循证医学(第二版). 人民卫生出版社. 2013.§宇传华(译). 诊断医学统计学. 人民卫生出版社. 2005.§陈启光. 医学统计学(第三版). 东南大学出版社. 2013.§Hanley JA., McNeil BJ. A Method of Comparing the Areas under Receiver Operating Characteristic Curves Derived from the Same Cases. Radiology 1983, 148: 839-843. 。