《第七章 卡方检验》由会员分享,可在线阅读,更多相关《第七章 卡方检验(99页珍藏版)》请在金锄头文库上搜索。
1、1051检验检验Chi-SquareTest第七章1052ContenttestoffourfolddatatestofpairedfourfolddataFisherprobabilitiesinfourfolddatatestofRCtableMultiplecomparisonofsampleratestestofgoodnessoffit1053目的目的:推断两个总体率或构成比之间有无差别推断两个总体率或构成比之间有无差别多个总体率或构成比之间有无差别多个总体率或构成比之间有无差别多个样本率的多重比较多个样本率的多重比较两个分类变量之间有无关联性两个分类变量之间有无关联性频数分布拟合优
2、度的检验。频数分布拟合优度的检验。检验统计量检验统计量:应用应用:计数资料:计数资料1055第一节第一节四格表资料的四格表资料的检验检验1056目的:目的:推断两个推断两个总体率(构成比)是体率(构成比)是 否有差否有差别 (和(和u u检验等价)等价)要求:要求:两两样本的两分本的两分类个体数排列成四个体数排列成四 格表格表资料料1057 (1)分分布布是是一一种种连连续续型型分分布布:按按分分布布的的密密度度函函数数可可给给出出自由度自由度=1,2,3,的一簇分布曲线的一簇分布曲线(图(图7-1)。)。(2)分分布布的的一一个个基基本本性性质质是是可可加加性性:如如果果两两个个独独立立的的
3、随随机机变变量量X1和和X2分分别别服服从从自自由由度度1和和2的的分分布布,即即,那那么么它它们们的的和和(X1+X2)服服从从自自由由度度(1+2)的的分分布布,即即。一、检验的基本思想1分布105810592检验的基本思想检验的基本思想例例7-1某某院院欲欲比比较较异异梨梨醇醇口口服服液液(试试验验组组)和和氢氢氯氯噻噻嗪嗪+地地塞塞米米松松(对对照照组组)降降低低颅颅内内压压的的疗疗效效。将将200例例颅颅内内压压增增高高症症患患者者随随机机分分为为两两组组,结结果果见见表表7-1。问问两两组组降降低低颅颅内内压压的的总总体体有有效效率率有有无无差差别别?10510表7-1两组降低颅内
4、压有效率的比较10511本本例例资料料经整整理理成成图7-2形形式式,即即有有两两个个处理理组,每每个个处理理组的的例例数数由由发生生数数和和未未发生生数数两两部部分分组成成。表表内内有有 四四个个基基本本数数据据,其其余余数数据据均均由由此此四四个个数数据据推推算算出出来来的的,故故称四格表称四格表资料。料。10512图7-2四格表资料的基本形式10513基本思想:可通过基本思想:可通过检验的基本公式检验的基本公式来理解。来理解。式中,A为实际频数(actualfrequency),T为理论频数(theoreticalfrequency)。10514理理论频数由下式求得:数由下式求得:式中,
5、TRC 为第R 行C 列的理论频数nR 为相应的行合计nC 为相应的列合计10515 理理论频数数 是根据是根据检验假假设 ,且用合,且用合 并率来估并率来估计 而定的。而定的。如如上上例例,无无效效假假设是是试验组与与对照照组降降低低颅内内压的的总体体有有效效率率相相等等,均均等等于于合合计的的有有效效率率87%。那那么么理理论上上,试验组的的104例例颅内内压增增高高症症患患者者中中有有效效者者应为104(174/200)=90.48,无无效效者者为104(26/200)=13.52;同同理理,对照照组的的96例例颅内内压增增高高症症患患者者中中有有效效者者应为96(174/200)=83
6、.52,无无效效者者为96(26/200)=12.48。10516检验统计量量值反反映映了了实际频数数与与理理论频数数的的吻吻合程度。合程度。若若检验假假设H0:1=2成成立立,四四个个格格子子的的实际频数数A 与与理理论频数数T 相相差差不不应该很很大大,即即统计量量不不应该很很大大。如如果果值很很大大,即即相相对应的的P 值很很小小,若若,则反反过来来推推断断A与与T相相差差太太大大,超超出出了了抽抽样误差差允允许的的范范围,从从而而怀疑疑H0的的正正确确性性,继而拒而拒绝H0,接受其,接受其对立假立假设H1,即,即12。10517由公式(由公式(7-1)还可以看出:可以看出:值的大小的大
7、小还取决于取决于个数的多少(个数的多少(严格地格地说是自由度是自由度的大小)。由于各的大小)。由于各皆皆是是正正值,故故自自由由度度愈愈大大,值也也会会愈愈大大;所所以以只只有有考考虑了了自自由由度度的的影影响响,值才才能能正正确确地地反反映映实际频数数A和和理理论频数数T 的吻合程度。的吻合程度。 检验的的自自由由度度取取决决于于可可以以自自由由取取值的的格格子子数数目目,而而不不是是样本本含含量量n n。四四格格表表资料料只只有有两两行行两两列列,=1=1,即即在在周周边合合计数数固固定定的的情情况况下下,4 4个个基基本本数数据据当当中中只只有有一一个个可可以以自自由由取取值。 1051
8、8(1)建立建立检验假假设,确定,确定检验水平。水平。H0:1=2即试验组与对照组降低颅内压的即试验组与对照组降低颅内压的总体总体有效率相等有效率相等H1:12即试验组与对照组降低颅内压的即试验组与对照组降低颅内压的总体总体有效率不相等有效率不相等=0.05。3.假设检验步骤10519(2)求检验统计量值)求检验统计量值1052010521二、四格表资料检验的专用公式二、四格表资料检验的专用公式10522分分布布是是一一连续型型分分布布,而而四四格格表表资料料属属离离散散型型分分布布,由由此此计算算得得的的统计量量的的抽抽样分分布布亦亦呈呈离离散散性性质。为改改善善统计量量分分布布的的连续性性
9、,则需需行行连续性校正。性校正。10523三、四格表资料检验的校正公式三、四格表资料检验的校正公式10524四格表资料四格表资料 检验公式选择条件:检验公式选择条件: ,专用公式; ,校正公式; ,直接计算概率。 连续性校正仅用于 的四格表资料,当 时,一般不作校正。 10525例例7-2某某医医师师欲欲比比较较胞胞磷磷胆胆碱碱与与神神经经节节苷苷酯酯治治疗疗脑脑血血管管疾疾病病的的疗疗效效,将将78例例脑脑血血管管疾疾病病患患者者随随机机分分为为两两组组,结结果果见见表表7-2。问问两两种种药药物物治治疗疗脑脑血血管管疾病的有效率是否相等?疾病的有效率是否相等?10526表7-2两种药物治疗
10、脑血管疾病有效率的比较10527本例,故用四格表资料检验的校正公式,查界值表得。按 检验水准不拒绝,尚不能认为两种药物治疗脑血管疾病的有效率不等。 10528本资料若不校正时,本资料若不校正时,结论与之相反。结论与之相反。10529第二节第二节配对四格表资料的配对四格表资料的检验检验10530与与计量量资料料推推断断两两总体体均均数数是是否否有有差差别有有成成组设计和和配配对设计一一样,计数数资料料推推断断两两个个总体体率率(构构成成比比)是是否否有有差差别也也有有成成组设计和和配配对设计,即即四四格表格表资料料和和配配对四格表四格表资料料。10531例例7-3某某实实验验室室分分别别用用乳乳
11、胶胶凝凝集集法法和和免免疫疫荧荧光光法法对对58名名可可疑疑系系统统红红斑斑狼狼疮疮患患者者血血清清中中抗抗核核抗抗体体进进行行测测定定,结结果果见见表表7-3。问问两两种种方方法法的的检检测测结结果果有有无无差别?差别?10532表7-3两种方法的检测结果10533上述配上述配对设计实验中,就每个中,就每个对子而子而言,两种言,两种处理的理的结果不外乎有果不外乎有四种可能四种可能:两种两种检测方法皆方法皆为阳性数阳性数(a);两种两种检测方法皆方法皆为阴性数阴性数(d);免疫免疫荧光法光法为阳性,乳胶凝集法阳性,乳胶凝集法为阴性数阴性数(b);乳胶凝集法乳胶凝集法为阳性,免疫阳性,免疫荧光法
12、光法为阴性数阴性数(c)。10534其中,其中,a,d 为两法观察结果一致的两种情况,为两法观察结果一致的两种情况,b,c为两法观察结果不一致的两种情况为两法观察结果不一致的两种情况。检验统计量为10535注意:注意:本本法法一一般般用用于于样样本本含含量量不不太太大大的的资资料料。因因为为它它仅仅考考虑虑了了两两法法结结果果不不一一致致的的两两种种情情况况(b,c),而而未未考考虑虑样样本本含含量量n和和两两法法结结果果一一致致的的两两种种情情况况(a,d)。所所以以,当当n很很大大且且a与与d的的数数值值很很大大(即即两两法法的的一一致致率率较较高高),b与与c的的数数值值相相对对较较小小
13、时时,即即便便是是检检验结果有统计学意义,其实际意义往往也不大。验结果有统计学意义,其实际意义往往也不大。10536检验步骤:10537第三节第三节四格表资料的四格表资料的Fisher确切概率法确切概率法10538条件:条件:理论依据:理论依据:超几何分布超几何分布(非(非检验检验的范畴的范畴)10539例例7-4某某医医师师为为研研究究乙乙肝肝免免疫疫球球蛋蛋白白预预防防胎胎儿儿宫宫内内感感染染HBV的的效效果果,将将33例例HBsAg阳阳性性孕孕妇妇随随机机分分为为预预防防注注射射组组和和非非预预防防组组,结结果果见见表表7-4。问问两两组组新新生儿的生儿的HBV总体感染率有无差别?总体感
14、染率有无差别?10540表7-4两组新生儿HBV感染率的比较10541一、基本思想一、基本思想在在四四格格表表周周边边合合计计数数固固定定不不变变的的条条件件下下,计计算算表表内内4个个实实际际频频数数变变动动时时的的各各种种组组合合之之概概率率;再再按按检检验验假假设设用用单单侧侧或或双双侧侧的的累累计计概概率率,依依据据所所取取的检验水准的检验水准做出推断。做出推断。105421各组合概率Pi的计算在四格表周边合计数不变的条件下,表内4个实际频数a,b,c,d 变动的组合数共有“周边合计中最小数+1”个。如例7-4,表内4个实际频数变动的组合数共有9+1=10个,依次为:10543各组合的
15、概率各组合的概率Pi服从超几何分布,其和为服从超几何分布,其和为1。计算公式为!为阶乘符号 105442累计概率的计算累计概率的计算(单、双侧单、双侧检验不同检验不同)105451054610547二、检验步骤(二、检验步骤()1054810549表7-5例7-4的Fisher确切概率法计算表10550例7-5某单位研究胆囊腺癌、腺瘤的P53基因表达,对同期手术切除的胆囊腺癌、腺瘤标本各10份,用免疫组化法检测P53基因,资料见表7-6。问胆囊腺癌和胆囊腺瘤的P53基因表达阳性率有无差别?10551表7-6胆囊腺癌与胆囊腺瘤P53基因表达阳性率的比较10552本例a+b+c+d=10,由表7-
16、7可看出,四格表内各种组合以i=4和i=5的组合为中心呈对称分布。表7-7例7-5的Fisher确切概率法计算表*为现有样本10553(1)计算现有样本的D*和P*及各组合下四格表的Di。本例D*=50,P*=0.02708978。(2)计算满足Di50条件的各组合下四格表的概率Pi。(3)计算同时满足Di50和PiP*条件的四格表的累计概率。本例为P7和P8,(4)计算双侧累计概率P。 P0.05,按=0.05检验水准不拒绝H0,尚不能认为胆囊腺癌与胆囊腺瘤的P53基因表达阳性率不等。10554注意:10555第四节第四节行列表资料的 检验 10556行行列表资料列表资料多个样本率比较时,有
17、R行2列,称为R2表;两个样本的构成比比较时,有2行C列,称2C表;多个样本的构成比比较,以及双向无序分类资料关联性检验时,有行列,称为RC表。10557检验统计量检验统计量10558一、多个样本率的比较一、多个样本率的比较10559例7-6某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效,资料见表7-8。问三种疗法的有效率有无差别?表7-8三种疗法有效率的比较10560检验步骤:10561二、样本构成比的比较10562例7-7某医师在研究血管紧张素I转化酶(ACE)基因I/D多态(分3型)与2型糖尿病肾病(DN)的关系时,将249例2型糖尿病患者按有无糖尿病肾病分为两
18、组,资料见表7-9。问两组2型糖尿病患者的ACE基因型总体分布有无差别?表7-9DN组与无DN组2型糖尿病患者ACE基因型分布的比较10563检验步骤检验步骤10564三、双向无序分类资料的关联性检验三、双向无序分类资料的关联性检验表中两个分类变量皆为无序分类变量的行列表资料,又称为双向无序表资料。10565注意:双向无序分类资料为两个或多个样本,做差别检验(例7-7);若为单样本,做关联性检验。10566例例7-8测得某地测得某地5801人的人的ABO血型和血型和MN血型结血型结果如表果如表7-10,问两种血型系统之间是否有关联?,问两种血型系统之间是否有关联?表7-10某地5801人的血型
19、(单样本,做关联性检验)10567表7-10资料,可用行列表资料检验来推断两个分类变量之间有无关系(或关联);若有关系,可计算Pearson列联系数C进一步分析关系的密切程度:列联系数C取值范围在01之间。0表示完全独立;1表示完全相关;愈接近于0,关系愈不密切;愈接近于1,关系愈密切。10568检验步骤检验步骤10569由于列联系数C=0.1883,数值较小,故认为两种血型系统间虽然有关联性,但关系不太密切。10570四、行列表资料检验的注意事项105711行列表中的行列表中的各格各格T1,并且,并且1T5的格子数不宜超过的格子数不宜超过1/5格子总数,否则可格子总数,否则可能产生偏性。处理
20、方法有三种:能产生偏性。处理方法有三种:增大样本含量以达到增大理论频数的目的,属首选方法,只是有些研究无法增大样本含量,如同一批号试剂已用完等。10572根据专业知识,删去理论频数太小的行或列,或将理论频数太小的行或列与性质相近的邻行或邻列合并。这样做会损失信息及损害样本的随机性。注意注意:不同年龄组可以合并,但不同血型就不能合并。改用双向无序RC表的Fisher确切概率法(可用SAS软件实现)。105731057410575 第五节多个样本率间的多重比较1057610577分割法10578一、基本思想一、基本思想因分析目的不同,k个样本率两两比较的次数不同,故重新规定的检验水准的估计方法亦不
21、同。通常有两种情况:10579105801058110582二、多个实验组间的两两比较10583例7-9对例7-6中表7-8的资料进行两两比较,以推断是否任两种疗法治疗周围性面神经麻痹的有效率均有差别?10584检验步骤检验步骤本例为3个实验组间的两两比较10585表7-12三种疗法有效率的两两比较1058610587三、各实验组与同一个对照组的比较10588例7-10以表7-8资料中的药物治疗组为对照组,物理疗法组与外用膏药组为试验组,试分析两试验组与对照组的总体有效率有无差别?本例为各实验组与同一对照组的比较105891059010591第七节第七节频数分布拟合优度的检验10592医学研究
22、实践中,常需推断某现象频数分布是否符合某一理论分布。如正态性检验就是推断某资料是否符合正态分布的一种检验方法,但只适用于正态分布。Pearson值能反映实际频数和理论频数的吻合程度,故检验可用于推断频数分布的拟合优度,且应用广泛。如正态分布,二项分布,Poisson分布,负二项分布等。10593例7-12观察某克山病区克山病患者的空间分布情况,调查者将该地区划分为279个取样单位,统计各取样单位历年累计病例数,资料见表7-15的第(1)、(2)栏,问此资料是否服从Poisson分布?10594表7-15Poisson分布的拟合与检验*:X8的概率:105951059610597练习题P156P156一、最佳选择题一、最佳选择题全做全做三、计算分析题三、计算分析题 第第3 3、5 5、7 7、1010题题