卡方检验(正式)－金锄头文库

资源描述

《卡方检验(正式)》由会员分享，可在线阅读，更多相关《卡方检验(正式)（86页珍藏版）》请在金锄头文库上搜索。

1、华中科技大学公卫学院流行病与卫生统计系12 2检验检验Chi-squared testChi-squared test第第7章章蒋红卫蒋红卫Email: JHWCCC21CN.COM2讲课内容：讲课内容：1. 概述概述基本思想基本思想2. 22表卡方检验表卡方检验3. 配对四格表卡方检验配对四格表卡方检验4. Fisher确切概率检验确切概率检验5. RC表卡方检验表卡方检验6. 多个样本率的多重比较多个样本率的多重比较7. 有序分组资料的线性趋势检验有序分组资料的线性趋势检验 3概念回顾概念回顾p在总体率为在总体率为的二项分布总体中做的二项分布总体中做n1和和n2抽抽样样,样本率样本率p1和

2、和p2与与的差别的差别,称为称为率抽样误差率抽样误差。p在总体率为在总体率为1和和2的不同总体中抽样，得的不同总体中抽样，得p1和和p2，在，在n5，可通过率的，可通过率的u检验推断是否检验推断是否1=2。p二项分布的两个样本率的检验同样可用二项分布的两个样本率的检验同样可用2检检验验。4 目的：目的：推断两个总体率或构成比之间有无差别推断两个总体率或构成比之间有无差别多个总体率或构成比之间有无差别多个总体率或构成比之间有无差别多个样本率的多重比较多个样本率的多重比较两个分类变量之间有无关联性两个分类变量之间有无关联性频数分布拟合优度的检验。频数分布拟合优度的检验。检验统计量：检验

3、统计量：2 应用：应用：计数资料计数资料5基本概念基本概念例例1 某院比较异梨醇（试验组）和氢氯塞嗪某院比较异梨醇（试验组）和氢氯塞嗪（对照组）降低颅内压的疗效，将（对照组）降低颅内压的疗效，将200名患者名患者随机分为两组，试验组随机分为两组，试验组104例中有效的例中有效的99例例,对对照组照组96例中有效的例中有效的78例例,问两种药物对降低颅问两种药物对降低颅内压疗效有无差别？内压疗效有无差别？6表表 200名颅内高压患者治疗情况名颅内高压患者治疗情况编号编号年龄年龄性别性别治疗组治疗组舒张压舒张压体温体温疗效疗效137男A11.2737.5有效245女B12.5337.0有效343

4、男A10.9336.5有效459女B14.6737.8无效20054男B16.8037.6无效如何整理此类资料？如何整理此类资料？如何分析此类资料？如何分析此类资料？7四格表（四格表（fourfold table）资料的基本形式）资料的基本形式实际频数实际频数(actual frequency)是指各分类是指各分类实际发生或未发生计数值，记为实际发生或未发生计数值，记为A。a=99b=5104c=75d=219617426200单元格单元格8理论频数理论频数(theoretical frequency)是指按是指按某某H0假设计算各分类理论上的发生或未假设计算各分类理论上的发生或未发生计数值

5、，记为发生计数值，记为T。式中，TRC 为第R 行C 列的理论频数 nR 为相应的行合计 nC 为相应的列合计疗法疗法有效人数有效人数无效人数无效人数合计合计有效率有效率试验组试验组99(99(90.4890.48) )5(5(13.5213.52) )10410495.295.2对照组对照组75(75(83.5283.52) ) 21(21(12.4812.48) )969678.178.1合计合计174174262620020087.087.09p残差残差设设A代表某个类别的观察频数，代表某个类别的观察频数，T代表基于代表基于H0计算出的期望频数，计算出的期望频数，A与与T之差之差(A-T

6、)被被称为残差称为残差p残差可以表示某一个类别观察值和理论值的残差可以表示某一个类别观察值和理论值的偏离程度，但残差有正有负，相加后会彼此偏离程度，但残差有正有负，相加后会彼此抵消，总和仍然为抵消，总和仍然为0。为此可以将残差平方后。为此可以将残差平方后求和，以表示样本总的偏离无效假设的程度求和，以表示样本总的偏离无效假设的程度p类似于方差的计算思想，类似于方差的计算思想，10Pearson 2检验的基本公式检验的基本公式p残差大小是一个相对的概念，残差大小是一个相对的概念，相对于期望频数为相对于期望频数为10时，时，20的残差非常大；可相对于期的残差非常大；可相对于期望频数为望频数为1000

7、时时20就很小了。就很小了。因此又将残差平方除以期望因此又将残差平方除以期望频数再求和，以标准化观察频数再求和，以标准化观察频数与期望频数的差别。频数与期望频数的差别。p卡方统计量，卡方统计量，1900年由英国年由英国统计学家统计学家K. Pearson首次提出。首次提出。Karl Pearson (1857 1936)11p从卡方的计算公式可见，当观察频数与期从卡方的计算公式可见，当观察频数与期望频数望频数完全一致完全一致时，时，卡方值为卡方值为0；p观察频数与期望频数越接近，两者之间的观察频数与期望频数越接近，两者之间的差异越小差异越小，卡方值越小卡方值越小；p反之，观察频数与期望频数差别

8、越大，两反之，观察频数与期望频数差别越大，两者之间的者之间的差异越大差异越大，卡方值越大卡方值越大。p当然，卡方值的大小也当然，卡方值的大小也和自由度有关和自由度有关p检验的自由度取决于可以检验的自由度取决于可以自由取值的格子自由取值的格子数目数目，而不是样本含量，而不是样本含量n。p理论上，在理论上，在n40时下式值与时下式值与2分布近似，分布近似，在理论数在理论数5，近似程度较好。，近似程度较好。12l连续型分布：正态分布（连续型分布：正态分布（Normal distribution），学生氏），学生氏t分布分布(Students t-distribution)，F分布分布(F distr

9、ibution)l另一个同样重要的分布另一个同样重要的分布2卡方分布卡方分布(Chi-squared distribution)。l此分布在此分布在1875年，首先由年，首先由F. Helmet所提出，所提出，而且是由正态分布演变而来的，即标准正态而且是由正态分布演变而来的，即标准正态分布分布Z值之平方而得值之平方而得2分布分布13设设Xi为来自正态总体的连续性变量。为来自正态总体的连续性变量。称为自由度称为自由度df=n的卡方值。的卡方值。显然，卡方分布具有可加性。显然，卡方分布具有可加性。143.847.8112.59P P0.050.05的临界值的临界值2分布的概率密度函数曲线分布的概率

10、密度函数曲线15当当=1时时,16第二节第二节2 22 2表卡方检验表卡方检验17两组样本率比较的设计分类：两组样本率比较的设计分类：1.两组两组(独立独立) 样本率的比较样本率的比较组间数据是相互独立组间数据是相互独立,非配对设计。非配对设计。 22表卡方检验表卡方检验2.配对设计两组样本率的比较配对设计两组样本率的比较组间数据是相关的，配对设计。组间数据是相关的，配对设计。配对四格表卡方检验配对四格表卡方检验18两组（不配对）样本率的比较两组（不配对）样本率的比较1）四格表形式）四格表形式2）四格表不配对资料检验的专用公式）四格表不配对资料检验的专用公式二者结果等二者结果等价价各组样

11、各组样本例数本例数是固定是固定的的组别组别阳性数阳性数阴性数阴性数合计合计率率% %甲组甲组a ab ba+ba+b=n=n1 1a/na/n1 1乙组乙组c cd dc+dc+d=n=n2 2c/nc/n2 2合计合计a+ca+cb+db+dN N( (a+ca+c)/N)/N19例例1（续）（续）20H0:1=2 即即试试验验组组与与对对照照组组降降低低颅颅内内压压的的总体有效率相等总体有效率相等H1:12=0.05。以以=1查查附附表表8的的2界界值值表表得得P 40 ，此时有，此时有 1 T 5时，需计算时，需计算Yates连续性校正连续性校正 2值值T 1，或，或n40时，应改用时，

12、应改用Fisher确切概率确切概率法直接计算概率法直接计算概率24(1) 校正公式的条件：校正公式的条件： 1T5,同时同时N40,用校正公式计算用校正公式计算(2) 连续校正连续校正(continuity correction)公式：公式：(3) 当当T1,或或N0.05。按按=0.05检检验验水水准准，不不拒拒绝绝H0，无无统统计计学学意意义义，尚尚不不能能认认为为两两种种药药物物治治疗疗脑脑血血管管疾疾病病的的有效率不等。有效率不等。 28卡方检验的连续性校正问题卡方检验的连续性校正问题正方观点正方观点：卡方统计量抽样分布的连续性和平滑性得卡方统计量抽样分布的连续性和平滑性得到改善，可以

13、降低到改善，可以降低I I类错误的概率；类错误的概率；校正结果更接近于校正结果更接近于FisherFisher确切概率法；确切概率法；校正是有条件的。校正是有条件的。反方观点反方观点：经连续性校正后，经连续性校正后，P P值有过分保守之嫌；值有过分保守之嫌；连续性校正卡方检验的连续性校正卡方检验的P P值与值与FisherFisher确切概确切概率法的率法的P P值没有可比性，这是因为值没有可比性，这是因为FisherFisher确确切概率法建立在四格表切概率法建立在四格表双边固定双边固定的假定下，的假定下，而实际资料则是而实际资料则是单边固定单边固定的四格表。的四格表。29就应用而言，无论是

14、否经过连续性校正，就应用而言，无论是否经过连续性校正，若两种检验的结果一致，无须在此问题若两种检验的结果一致，无须在此问题上纠缠。但是，当两种检验结果相互矛上纠缠。但是，当两种检验结果相互矛盾时，如例盾时，如例2，就需要谨慎解释结果了。，就需要谨慎解释结果了。为客观起见，建议将两种结论同时报告为客观起见，建议将两种结论同时报告出来，以便他人判断。当然，如果两种出来，以便他人判断。当然，如果两种结论一致，如均为结论一致，如均为有或无统计学意义有或无统计学意义，则只报道非连续性检验的结果即可。则只报道非连续性检验的结果即可。30第二节第二节配对设计两个样本率的配对设计两个样本率的2检验检验（ M

15、cNemer检验检验）配对设计：通常为配对设计：通常为同源配对同源配对。对同一观察。对同一观察对象分别用两种方法处理，观察其阳性与对象分别用两种方法处理，观察其阳性与阴性结果。阴性结果。基本用途：常用于比较基本用途：常用于比较两种检验方法两种检验方法或或两两种培养基种培养基的阳性率是否有差别。的阳性率是否有差别。数据形式：数据形式：配对四格表形式配对四格表形式。31例例3 3 某实验室采用两种方法对某实验室采用两种方法对5858名可疑名可疑红斑狼疮患者的血清抗体进行测定，问：红斑狼疮患者的血清抗体进行测定，问：两方法测定结果阳性检出率是否有差别？两方法测定结果阳性检出率是否有差别？测定结果为

16、：阳性、阴性（共测定结果为：阳性、阴性（共116116标本，标本，5858对）对）方法（方法（X X）乳胶凝集法乳胶凝集法免疫荧光法免疫荧光法对子例数对子例数 1111 3333 2 2 1212结结果果32 上述配对设计实验中，就每个对子而言，上述配对设计实验中，就每个对子而言，两种处理的结果不外乎有两种处理的结果不外乎有四种可能四种可能: :两种检测方法皆为阳性数两种检测方法皆为阳性数( (a a) )；两种检测方法皆为阴性数两种检测方法皆为阴性数( (d d) )；免疫荧光法为阳性，乳胶凝集法为免疫荧光法为阳性，乳胶凝集法为阴性数阴性数( (b b) )；乳胶凝集法为阳性，免疫荧

17、光法为乳胶凝集法为阳性，免疫荧光法为阴性数阴性数( (c c) )。其中，其中，a a, , d d 为两法观察结果一致的两种情况，为两法观察结果一致的两种情况， b b, , c c为两法观察结果不一致的两种情况。为两法观察结果不一致的两种情况。33 表表两种方法的检测结果两种方法的检测结果 34方法原理方法原理按照配对设计的思路进行分析，则首先应按照配对设计的思路进行分析，则首先应当求出当求出各对的差值各对的差值，然后考察样本中差值，然后考察样本中差值的分布是否按照的分布是否按照H H0 0假设的情况假设的情况对称分布。对称分布。按此分析思路，最终可整理出如前所列的按此分析思路，最终可

18、整理出如前所列的配对四格表。配对四格表。主对角线主对角线上两种检验方法的结论上两种检验方法的结论相同相同，对，对问题的解答问题的解答不会不会有任何贡献有任何贡献斜对角线斜对角线上两种检验方法的结论上两种检验方法的结论不相同不相同，显示显示了检验方法间的差异了检验方法间的差异35配对配对2检验统计量为检验统计量为36H0：b=c =(12+2)/2=7( (两法总体两法总体阳性阳性率相等率相等) )H1：b c （两方法总体两方法总体阳性阳性率不等）率不等） =0.05本例本例b+c=12+2=1440，用校正公式，用校正公式本例本例2=5.793.84，P0.05。在。在=0.05水准，水准，

19、拒绝拒绝H H0 0，接受，接受H H1 1，有统计学意义。认为两方，有统计学意义。认为两方法的检测率不同，乳胶凝集法的阳性检测率法的检测率不同，乳胶凝集法的阳性检测率22.41%低于免疫检测率低于免疫检测率39.66%。37注意事项注意事项McNemarMcNemar检验检验只会利用非主对角线单元格只会利用非主对角线单元格上的信上的信息，即它只关心息，即它只关心两者不一致两者不一致的评价情况，用于的评价情况，用于比较两个评价者间存在怎样的倾向。因此，对比较两个评价者间存在怎样的倾向。因此，对于一致性较好的大样本数据，于一致性较好的大样本数据，McNemarMcNemar检验可能检验可能会失去

20、实用价值。会失去实用价值。例如对例如对1 1万个案例进行一致性评价，万个案例进行一致性评价，99959995个都个都是完全一致的，在主对角线上，另有是完全一致的，在主对角线上，另有5 5个分布在个分布在左下的三角区，显然，此时一致性相当的好。左下的三角区，显然，此时一致性相当的好。但如果使用但如果使用McNemarMcNemar检验，此时反而会得出两种检验，此时反而会得出两种评价有差异的结论来。评价有差异的结论来。10538第三节第三节四格表资料的四格表资料的Fisher确切概率法确切概率法 10539条件：条件：理论依据：理论依据：超几何分布超几何分布（非（非 2检验检验的范畴）的范畴

21、）10540例例4 4 某医师为研究乙肝免疫球蛋白预防胎儿某医师为研究乙肝免疫球蛋白预防胎儿宫内感染宫内感染HBVHBV的效果，将的效果，将3333例例HBsAgHBsAg阳性孕妇随阳性孕妇随机分为预防注射组和非预防组，结果见表机分为预防注射组和非预防组，结果见表7-47-4。问两组新生儿的。问两组新生儿的HBVHBV总体感染率有无差别？总体感染率有无差别？ 10541表表7-4 两组新生儿两组新生儿HBV感染率的比较感染率的比较 42基本思想基本思想在四格表周边合计数固定不变的条件下，在四格表周边合计数固定不变的条件下，计算表内计算表内4 4个实际频数变动时的各种组合之概个实际频数变动时的

22、各种组合之概率率Pi；再按检验假设用单侧或双侧的累计概率；再按检验假设用单侧或双侧的累计概率P，依据所取的检验水准，依据所取的检验水准做出推断。做出推断。 43 1 1各各组组合合概概率率Pi的的计计算算在在四四格格表表周周边边合合计计数数不不变变的的条条件件下下，表表内内4 4个个实实际际频频数数 a,b,c,d 变变动动的的组组合合数数共共有有“周周边边合合计计中中最最小小数数+1+1”个个。如如例例7-47-4，表表内内4 4个个实实际际频频数数变变动动的的组组合合数数共共有有9+1=109+1=10个，依次为：个，依次为：44各组合的概率各组合的概率P Pi i服从超几何分布，其和为

23、服从超几何分布，其和为1 1。计算公式为计算公式为45 2 2累计概率的计算累计概率的计算 ( ( 单、双侧单、双侧检验不同检验不同) )464748检验步骤检验步骤4950表表5 例例4的的 Fisher确切概率法计算表确切概率法计算表 51例例5 5 某某单单位位研研究究胆胆囊囊腺腺癌癌、腺腺瘤瘤的的P P5353基基因因表表达达，对对同同期期手手术术切切除除的的胆胆囊囊腺腺癌癌、腺腺瘤瘤标标本本各各1010份份，用用免免疫疫组组化化法法检检测测P P5353基基因因，资资料料见见表表7-67-6。问问胆胆囊囊腺腺癌癌和和胆胆囊囊腺腺瘤瘤的的P P5353基因表达阳性率有无差别？基因表达阳

24、性率有无差别？52表表表表6 6 胆囊腺癌与胆囊腺瘤胆囊腺癌与胆囊腺瘤胆囊腺癌与胆囊腺瘤胆囊腺癌与胆囊腺瘤P53P53基因表达阳性率的比较基因表达阳性率的比较基因表达阳性率的比较基因表达阳性率的比较 53 本例本例 a+b+c+d=10，由表，由表7-77-7可看出，四格表内可看出，四格表内各种组合以各种组合以i=4和和i=5的组合为中心呈的组合为中心呈对称分布对称分布。表表表表7 7 例例例例5 5的的的的FisherFisher确切概率法计算表确切概率法计算表确切概率法计算表确切概率法计算表 *为现有样本54（1 1）计算现有样本的）计算现有样本的D D* *和和P P* *及各组合下四

25、格表的及各组合下四格表的D Di i。本例本例D D*=50*=50，P P*=0.02708978*=0.02708978。（2 2）计算满足）计算满足D Di i5050条件的各组合下四格表的概率条件的各组合下四格表的概率P Pi i。（3 3）计算同时满足）计算同时满足D Di i5050和和P Pi iP P* *条件的四格表的累条件的四格表的累计概率。本例为计概率。本例为P P7 7和和P P8 8，（4 4）计算双侧累计概率）计算双侧累计概率P P。 P P0.050.05，按，按=0.05=0.05检验水准不拒绝检验水准不拒绝H H0 0，尚，尚不能认为胆囊腺癌与胆囊腺瘤的不

26、能认为胆囊腺癌与胆囊腺瘤的P P5353基因表达阳性率不等。基因表达阳性率不等。5556一点补充一点补充确切概率法的原理具有确切概率法的原理具有通用性通用性，对于四格表，对于四格表以外的情况也适用，如行乘列表、配对、配以外的情况也适用，如行乘列表、配对、配伍表格均可伍表格均可对于较大的行乘列表，确切概率法的对于较大的行乘列表，确切概率法的计算量计算量将很大将很大，有可能超出硬件系统可以支持的范，有可能超出硬件系统可以支持的范围围此时可以采用计算统计学中的此时可以采用计算统计学中的其他统计计算其他统计计算技术技术加以解决，如加以解决，如BootstrapBootstrap方法等方法等57第四节第

27、四节行行列表的列表的2检验检验当比较组行或列分类数当比较组行或列分类数2 2，称为行，称为行列表，即列表，即R RC C表。表。研究者感兴趣的问题有研究者感兴趣的问题有:(:(2检验的目的）检验的目的）1.1.多组多组( (独立样本独立样本) )样本率样本率差别有无统计意义差别有无统计意义? ?2.2.两组两组( (独立样本独立样本) )构成比构成比( (分布分布) )有无统计意义有无统计意义? ?3.3.两个分类变量分布两个分类变量分布是否独立是否独立( (有关联有关联)?)?58自由度自由度=（行数（行数-1）（列数（列数-1）等价等价检验统计量检验统计量59疗法疗法有效有效无效无效合计

28、合计有效率有效率% %物理组物理组199199（186.2186.2）7 720620696.696.6药物组药物组164164181818218290.190.1外用组外用组118118262614414481.981.9合计合计481481515153253290.490.4 例例6 6 某某医医师师研研究究物物理理疗疗法法、药药物物治治疗疗和和外外用用膏膏药药三三种种疗疗法法治治疗疗周周围围性性面面神神经经麻麻痹痹的的疗疗效效，资资料料见见下下表表。问三种疗法的有效率有无差别？问三种疗法的有效率有无差别？表表7-8 7-8 三种疗法有效率的比较三种疗法有效率的比较60H H0 0： 1

29、 1= = 2 2 = = 3 3 =90.4=90.4（三（三组总体组总体有效有效率相等）率相等）H H1 1：三：三组总体率不等或不全等组总体率不等或不全等=0.05=0.05结论结论: :在在=0.05=0.05水准，拒绝水准，拒绝H0H0，P P0.01,0.01,认为认为三组疗法有效率不等或不全等。三组疗法有效率不等或不全等。注意注意: :此结果不能得到各两两组比较的结论。此结果不能得到各两两组比较的结论。61二、两组和多组构成比的比较二、两组和多组构成比的比较例例7 7 某某医医师师在在研研究究血血管管紧紧张张素素I I转转化化酶酶(ACE)(ACE)基基因因I/DI/D多多态态（

30、分分3 3型型）与与2 2型型糖糖尿尿病病肾肾病病(DN)(DN)的的关关系系时时，将将249249例例2 2型型糖糖尿尿病病患患者者按按有有无无糖糖尿尿病病肾肾病病分分为为两两组组，资资料料见见表表7-97-9。问问两两组组2 2型型糖糖尿尿病病患患者者的的ACEACE基基因因型型总总体体分布有无差别？分布有无差别？糖尿病糖尿病ACEACE基因型基因型合计合计DDDDIDIDI II I有肾病有肾病42(37.8)42(37.8)48(43.3)48(43.3)21(18.9)21(18.9)111111无肾病无肾病30(21.7)30(21.7)75(52.2)75(52.2)36(26.

31、1)36(26.1)138138合计合计72(28.9)72(28.9)120(48.2)120(48.2)57(22.9)57(22.9)249249表表9 9 两组两组型糖尿病患者型糖尿病患者ACEACE基因分布比较基因分布比较6263三、双向无序分类资料的关联性检验三、双向无序分类资料的关联性检验 R RC C表中两个分类变量皆为无序分类变量的表中两个分类变量皆为无序分类变量的行行列表资料，又称为双向无序列表资料，又称为双向无序R RC C表资料。表资料。目的：目的：检验两事物分类检验两事物分类( (行分类和列分类行分类和列分类) )是否是否独立独立, ,从而说明两事物分类是否有关系。从

32、而说明两事物分类是否有关系。需要注意的是需要注意的是: :双向无序分类资料为两个或多个样本，做差双向无序分类资料为两个或多个样本，做差别检验（例别检验（例7 7）；）；若为单样本，做关联性检验。若为单样本，做关联性检验。64统计分析统计分析:1.1.回答两事物的分类回答两事物的分类是否独立是否独立( (有关系有关系) ) Pearson 2检验检验2.2.如有关如有关, ,关系关系密切程度密切程度如何如何, ,度量指标度量指标: : 列联系数列联系数(Contingency coefficient)(Contingency coefficient)列联系数列联系数C C取值范围在取值范围在0

33、 01 1之间。愈接近于之间。愈接近于0 0，关系愈不密切；愈接近于关系愈不密切；愈接近于1 1，关系愈密切。，关系愈密切。 65两分类变量独立与有关两分类变量独立与有关两事物独立的两事物独立的假定假定: : 行或列各分类的构成比相同行或列各分类的构成比相同, ,或在或在 A A事物不事物不同水平下同水平下,B,B事物不同分类的作用事物不同分类的作用( (构成构成) )相等相等. .高血压高血压(B)(B)RHRH血型血型(A)(A)RHRH血型血型(A)(A)+ +- -+ +- -有有50(50)50(50)50(50)50(50)0(50)0(50)100(50)100(50)无无50(

34、50)50(50)50(50)50(50)100(50)100(50)0(50)0(50)合计合计10010010010010010010010066例例 8 8 测得某地测得某地58015801人的人的ABOABO血型和血型和MNMN血型结果血型结果如表如表7-107-10，问两种血型系统之间是否有关联？，问两种血型系统之间是否有关联？表表10 10 某地某地58015801人的血型人的血型 67 H0：两种血型系统分类无关联：两种血型系统分类无关联（即（即行或行或列列构成比构成比相等）相等） H1：两种血型系统分类有关联：两种血型系统分类有关联（即（即行或行或列列构成比不构成比不等）等

35、） =0.05结论结论:两种血型系统分类有关联。列联系数两种血型系统分类有关联。列联系数为为0.1883。两种血型系统间虽然有关联性，。两种血型系统间虽然有关联性，但关系不太密切。但关系不太密切。 68第五节第五节多组样本率的两两比较的多组样本率的两两比较的2 分割分割当比较组当比较组k3时，时，2值有统计意义，可分解多值有统计意义，可分解多个四格表了解各样本率两两间的差别。个四格表了解各样本率两两间的差别。要进一步推断哪两两总体率有差别，若直接要进一步推断哪两两总体率有差别，若直接用四格表资料的用四格表资料的检验进行多重比较，将会加检验进行多重比较，将会加大犯大犯类错误的概率。类错误的概

36、率。多重比较的方法：多重比较的方法：2分割法；分割法；ScheffeScheffe可信区间法；可信区间法；SNKSNK法。法。692 分割法基本思想分割法基本思想检验水准检验水准年龄组年龄组治愈治愈好转好转无效无效组组1 1组组2 2组组k k年龄组年龄组治愈治愈好转好转无效无效组组1 1组组2 2年龄组年龄组治愈治愈好转好转无效无效组组1 1组组3 3年龄组年龄组治愈治愈好转好转无效无效组组1 1组组k k其目的是保证检验假设中其目的是保证检验假设中I I型错误型错误的概率不变。的概率不变。因分析目的不同，主要有两类多重比较形式：因分析目的不同，主要有两类多重比较形式

37、：多个实验组间的两两比较多个实验组间的两两比较实验组与同一个对照组的比较实验组与同一个对照组的比较检验水准检验水准70多个实验组间的两两比较多个实验组间的两两比较分析目的为分析目的为k k个实验组间，任意两个率均进行个实验组间，任意两个率均进行比较时，须进行比较时，须进行k(k-1)/2次独立的四格表次独立的四格表检检验，再加上总的行验，再加上总的行列表资料的列表资料的检验，共检验，共 k(k-1)/2+1次检验假设。次检验假设。故检验水准故检验水准用下式估计用下式估计71实验组与同一个对照组的比较实验组与同一个对照组的比较分析目的为各实验组与同一个对照组的比较，分析目的为各实验组与同一个

38、对照组的比较，而各实验组间不须比较。而各实验组间不须比较。检验水准检验水准用下式估计用下式估计722P2P2P6.240.012507.480.006258.210.004176.960.008337.880.005008.490.003587.240.007148.050.004558.730.00313表表7-11 =1时的时的2界值表界值表（供多个样本率间的多重比用）（供多个样本率间的多重比用）73 例例9 9 对例对例6 6的资料进行两两比较，以推的资料进行两两比较，以推断是否任两种疗法治疗周围性面神经麻痹的有断是否任两种疗法治疗周围性面神经麻痹的有效率均有差别？效率均有差别？1=2，

39、即任意两对比组的总体有效率相等即任意两对比组的总体有效率相等12，即任意两对比组的总体有效率不等，即任意两对比组的总体有效率不等 =0.05 本例为本例为3 3个实验组间的两两比较个实验组间的两两比较 74表表三种疗法有效率的两两比较三种疗法有效率的两两比较拒绝拒绝H H0 0，接，接收收H H1 1拒绝拒绝H H0 0，接，接收收H H1 1不拒绝不拒绝H H0 075 例例10 10 对例对例6 6资料的药物治疗组为对照组，资料的药物治疗组为对照组，物理疗法组与外用膏药组为试验组，试分析两物理疗法组与外用膏药组为试验组，试分析两试验组与对照组的总体有效率有无差别？试验组与对照组的总体

40、有效率有无差别？ T=C，即各试验组与对照组的总体有效率即各试验组与对照组的总体有效率相等相等 TC，即各试验组与对照组的总体有效率，即各试验组与对照组的总体有效率不等不等 =0.05 本例为各实验组与同一对照组的比较本例为各实验组与同一对照组的比较76 物理疗法组与药物治疗组比较：物理疗法组与药物治疗组比较：2=6.76, P0.0125，按按=0.0125检验水准检验水准, , 物理疗法组与药物理疗法组与药物治疗组拒绝物治疗组拒绝H0,H0,接受接受H1H1，可认为物理疗法，可认为物理疗法组与药物治疗组的总体有效率有差别；组与药物治疗组的总体有效率有差别；外用膏药组与药物治疗组不拒绝

41、外用膏药组与药物治疗组不拒绝H0H0，尚，尚不能认为两总体有效率有差别。不能认为两总体有效率有差别。结合例结合例7 7资料，物理疗法的有效率高于资料，物理疗法的有效率高于药物治疗。药物治疗。77小小结结基本公式基本公式不配对四不配对四格表和校格表和校正公式正公式配对四格配对四格表公式表公式一一 . . 公式公式78二二. 2常解决的问题常解决的问题p目的目的: : 比较组间率和比较组间率和构成比的差别构成比的差别设计设计: :抽自抽自2 2个或多个或多个独立样本个独立样本p目的目的: : 两个变量间有两个变量间有无关系或关联无关系或关联设计设计:2:2个变量来自同个变量来自同一对象或同

42、一总体一对象或同一总体. .相相关的设计关的设计A A组组a a b bn1n1B B组组c c d dn2n2n n BAabcdn79三三. 适用条件适用条件1.1.四格表资料四格表资料2检验检验（1 1）n40且且T5 用用Pearson 2检验检验（2 2）n40且且1T5连续性校正连续性校正2检验检验（3 3）n40或或T1 用用Fisher确切概率法确切概率法2.2.配对四格表资料配对四格表资料2检验检验（1 1）b+c40 40 用用Mcnemar 2检验检验（2 2）n40 连续性校正连续性校正Mcnemar 2检验或检验或精确概率法精确概率法80四、四、RC表数据的注意事项表

43、数据的注意事项1行列表中的各格行列表中的各格T1，并且，并且1T5的格的格子数不宜超过子数不宜超过1/5格子总数，否则可能产生格子总数，否则可能产生偏性。处理方法有三种：偏性。处理方法有三种：首选方法：首选方法：增大样本含量增大样本含量，增大理论频，增大理论频数。但是某些研究无法做到。数。但是某些研究无法做到。根据专业知识，根据专业知识，删去或合并理论频数太删去或合并理论频数太小的行或列小的行或列。（会损失信息及损害样本。（会损失信息及损害样本的随机性，且不能随意合并行或列。如，的随机性，且不能随意合并行或列。如，不同年龄组可以合并，但不同血型就不不同年龄组可以合并，但不同血型就不能合并。）能

44、合并。）Fisher确切概率法。确切概率法。818283一点补充一点补充84情形情形分组分组变量变量指标指标变量变量研究目的研究目的分析方法分析方法双向无序双向无序无序无序无序无序多个样本率（或构多个样本率（或构成比）的比较成比）的比较行列表资料的行列表资料的2检验检验双向无序双向无序无序无序无序无序两个分类变量之间两个分类变量之间有无关联性以及关有无关联性以及关系的密切程度系的密切程度行列表资料的行列表资料的2检验检验Pearson列联列联系数系数单向有序单向有序有序有序无序无序不同分组各种疾病不同分组各种疾病的构成情况的构成情况行列表资料的行列表资料的2检验检验单向有序单向有序无序无序有序

45、有序比较不同疗法的疗比较不同疗法的疗效效非参数检验非参数检验85情形情形分组分组变量变量指标指标变量变量研究目的研究目的分析方法分析方法双向有序双向有序(属性相同属性相同)有序有序有序有序水平数水平数3的配伍资的配伍资料，配对四格表资料，配对四格表资料的扩展料的扩展一致性检验或一致性检验或称称Kappa检验检验特殊模型法特殊模型法双向有序双向有序(属性不同属性不同)有序有序有序有序分析不同年龄组患分析不同年龄组患者疗效之间有无差者疗效之间有无差别别非参数检验非参数检验双向有序双向有序(属性不同属性不同)有序有序有序有序两个有序分类变量两个有序分类变量间是否存在相关关间是否存在相关关系系等级相关分析等级相关分析Pearson积矩积矩相关分析相关分析双向有序双向有序(属性不同属性不同)有序有序有序有序两个有序分类变量两个有序分类变量间是否存在线性变间是否存在线性变化趋势化趋势有序分组资料有序分组资料的线性趋势检的线性趋势检验验86Thank you!

展开阅读全文

卡方检验(正式)

最新文档