第八章卡方检验(1)－金锄头文库

资源描述

《第八章卡方检验(1)》由会员分享，可在线阅读，更多相关《第八章卡方检验(1)（61页珍藏版）》请在金锄头文库上搜索。

1、第八章第八章 2检验检验Chi-square test1掌握内容：掌握内容：几种常见设计类型资料的卡方检验几种常见设计类型资料的卡方检验熟悉的内容熟悉的内容卡方检验的适用范围卡方检验的适用范围了解内容了解内容1 1四格表资料的四格表资料的FisherFisher精确概率法精确概率法2用样本信息推论总体特征的过程。用样本信息推论总体特征的过程。包括：包括：参数估计参数估计: : 运用统计学原理，用从样本计算出运用统计学原理，用从样本计算出来的统计指标量，对总体统计指标量进行估来的统计指标量，对总体统计指标量进行估计。计。假设检验：假设检验：又称显著性检验，是指由样本间存又称显著性检验，是指由样

2、本间存在的差别对样本所代表的总体间是否存在着在的差别对样本所代表的总体间是否存在着差别做出判断。差别做出判断。3 统计描述统计描述统计推断统计推断应应用用计量资料计量资料频数分布频数分布集中趋势集中趋势离散趋势离散趋势统计图表统计图表抽样误差、抽样误差、标准误标准误 t u F检验检验正常值范围正常值范围区间估计区间估计计数资料计数资料相对数及相对数及其标准化其标准化统计图表统计图表标准误标准误 2检验检验率的区间率的区间估计估计人口统计人口统计疾病统计疾病统计相关与回归相关与回归 r b统计图表统计图表 t检验检验 4在总体率为在总体率为的二项分布总体中做的二项分布总体中做n1和和n2抽

3、样抽样,样本率样本率p1和和p2与与的差的差别别,称为率抽样误差。称为率抽样误差。已知已知0 nP5, n(1-P)55例为了解铅中毒病人是否有尿棕色素增加现象，例为了解铅中毒病人是否有尿棕色素增加现象，分别对病人组和对照组的尿液作尿棕色素定性检查，分别对病人组和对照组的尿液作尿棕色素定性检查，结果见下表，问铅中毒病人与对照人群的尿棕色素结果见下表，问铅中毒病人与对照人群的尿棕色素阳性率差别有无统计学意义？阳性率差别有无统计学意义？表两组人群尿棕色素阳性率比较表两组人群尿棕色素阳性率比较组别组别阳性数阳性数阴性数阴性数合计合计阳性率阳性率（%）铅中毒病人铅中毒病人2973680.56对照组对照

4、组9283724.32合计合计38357352.056 2检验检验(Chi-square test)是现代统计学的是现代统计学的创始人之一，英国人创始人之一，英国人K . Pearson（1857-1936）于）于1900年提出的年提出的一种具有广泛用途的统计方法。一种具有广泛用途的统计方法。7 2 检验的用途检验的用途用途较为广泛的假设检验方法用途较为广泛的假设检验方法, ,本章仅介绍用本章仅介绍用于于分类计数资料分类计数资料的假设检验，用于检验两个的假设检验，用于检验两个（或多个）率或构成比之间差别是否有统计（或多个）率或构成比之间差别是否有统计学意义，配对学意义，配对 2 2检验检验配对

5、计数资料的差检验检验配对计数资料的差异是否有统计学意义。异是否有统计学意义。82检验的基本思想检验实际频数检验实际频数(A)(A)和理论频数和理论频数(T)(T)的差别的差别是否由抽样误差所引起的。也就是由样是否由抽样误差所引起的。也就是由样本率（或样本构成比）来推断总体率或本率（或样本构成比）来推断总体率或构成比。构成比。9表表7-1 两种药物治疗胃溃疡有效率的比较两种药物治疗胃溃疡有效率的比较目的：推断是否目的：推断是否1 1= =2 2？10本例资料经整理成下表形式，本例资料经整理成下表形式，即有两个处理组，每个处理即有两个处理组，每个处理组的例数由发生数和未发生组的例数由发生数和未发

6、生数两部分组成。表内有数两部分组成。表内有四个基本数据，其余数据四个基本数据，其余数据均由此四个数据推算出来的，均由此四个数据推算出来的，故称故称四格表资料四格表资料。11 表表7-1 完全随机设计两样本率比较的四格表完全随机设计两样本率比较的四格表处理组处理组属性属性合计合计阳性阳性阴性阴性1 A11 (T11) A12 (T12)n1(固定值固定值)2 A21 (T21) A22 (T22)n2(固定值固定值)合计合计 m1 m2n12衡量衡量理论频数理论频数与实际频数的差别与实际频数的差别ARC是是位于位于R行行C列交叉处的实际频数，列交叉处的实际频数， TRC是位于是位于R行行C列

7、交叉列交叉处的理论频数。处的理论频数。（ ARC - TRC ）反映实际频数与理论频数的差反映实际频数与理论频数的差距，除以距，除以TRC 为的是考虑相对差距。所以，为的是考虑相对差距。所以， 2 值反映了实际频值反映了实际频数与理论频数的吻合程度，数与理论频数的吻合程度， 2 值大，说明实际频数与理论频值大，说明实际频数与理论频数的差距大。数的差距大。 2 值的大小除了与实际频数和理论频数的差的值的大小除了与实际频数和理论频数的差的大小有关外，还与它们的行、列数有关。即自由度的大小。大小有关外，还与它们的行、列数有关。即自由度的大小。=（行（行-1）（列（列-1）13理论频数的计算理论频数

8、的计算n nR R是是A ARCRC所在行的合计，所在行的合计， n nC C是是A ARCRC所在列所在列的合计，是两个样本例数的合计的合计，是两个样本例数的合计14 理论频数理论频数是根据检验假设是根据检验假设且用合并率且用合并率来估计来估计而定的。而定的。如本例，无效假设是如本例，无效假设是A药组与药组与B药组的总体药组的总体有效率相等，均等于合计的阳性率有效率相等，均等于合计的阳性率66.67%（110/165）。那么理论上，）。那么理论上，A药组药组的的85例中阳性人数应为例中阳性人数应为85(110/165)=56.67，阴性人数为阴性人数为85(55/165)=28.3

9、3；同理，；同理，B药组药组的的80例中阳性人数应为例中阳性人数应为80(110/165)=53.33，阴性人数为阴性人数为80(55/165)=26.67。 152检验的基本公式上述上述基本公式基本公式由由PearsonPearson提出，因此软提出，因此软件上常称这种检验为件上常称这种检验为PearesonPeareson卡方检验，卡方检验，下面将要介绍的其他卡方检验公式都是在下面将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格此基础上发展起来的。它不仅适用于四格表资料，也适用于其它的表资料，也适用于其它的“行行列表列表”。16 分布是一种连续型分布分布是一种连续型分

10、布(Continuous distribution)，v 个相个相互独立的标准正态变量互独立的标准正态变量(standard normal variable) 的平方和称为的平方和称为变量，其分布即变量，其分布即为为分布；自由度分布；自由度(degree of freedom)为为v 。17 2 2分布是一种连续型分布分布是一种连续型分布(Continuous (Continuous distribution)distribution)，v v 个相互独立的标准正态变量个相互独立的标准正态变量(standard normal variable) (standard normal varia

11、ble) 的平方和称为的平方和称为 2 2 变量，其分布即为变量，其分布即为 2 2 分布；分布；自由度自由度(degree of freedom)(degree of freedom)为为v v 。v=1v=4v=6v=918 2分布的形状依赖于自由度分布的形状依赖于自由度的大小：的大小：当自由度当自由度2时，曲线呈时，曲线呈“L”型；型；随着随着的增加，曲线逐渐趋于对称；的增加，曲线逐渐趋于对称；当自由度当自由度时，曲线逼近于正态时，曲线逼近于正态曲线。曲线。19如果假设检验成立，如果假设检验成立，A与与T不应该相差不应该相差太大。太大。理论上可以证明理论上可以证明（A-T）

12、2/T服从服从x2分分布，计算出布，计算出x2值后，查表判断这么大的值后，查表判断这么大的x2是否为小概率事件，以判断建设检验是否为小概率事件，以判断建设检验是否成立。是否成立。20在在=1,21自由度一定时，自由度一定时，P值越小，值越小， x2值越大，值越大，反比关系。反比关系。当当P 值一定时，自由度越大，值一定时，自由度越大， x2越大。越大。 =1时，时， P=0.05， x2 =3.84 P=0.01， x2 =6.63 P=0.05时，时， =1， x2 =3.84 =2， x2 =5.9922第一节第一节四格表资料四格表资料2检验检验B1B2合计合计A1aba+bA2cdc+

13、d合计合计a+cb+dn=a+b+c+d一般四格表的基本形式一般四格表的基本形式23 表表7-1 完全随机设计两样本率比较的四格表完全随机设计两样本率比较的四格表处理组处理组属性属性合计合计阳性阳性阴性阴性1 A11 (T11) A12 (T12)n1(固定值固定值)2 A21 (T21) A22 (T22)n2(固定值固定值)合计合计 m1 m2n24四格表四格表 2检验的检验的专用公式专用公式n40，T525 为了不计算理论频数为了不计算理论频数T, 可由基本公式推导出可由基本公式推导出，直接由各格子的实际频数（，直接由各格子的实际频数（a、b、c、d）计）计算卡方值的公式：算卡方值

14、的公式：261建立检验假设建立检验假设：，两总体率不等，两总体率不等：，两总体率相等，两总体率相等检验统计量检验统计量2值反映了实际频数与理论频值反映了实际频数与理论频数的吻合程度数的吻合程度。27 若若检检验验假假设设H0:1=2成成立立，四四个个格格子子的的实实际际频频数数A 与与理理论论频频数数T 相相差差不不应应该该很很大大，即即统统计计量量2 2 不不应应该该很很大大。如如果果2 2 值值很很大大，即即相相对对应应的的P 值值很很小小，若若 P，则则反反过过来来推推断断A与与T相相差差太太大大，超超出出了了抽抽样样误误差差允允许许的的范范围围，从从而而怀怀疑疑H0的的正正确

15、确性性，继继而而拒拒绝绝H0，接接受受其其对对立立假假设设H1，即，即12 。28 2计算检验统计量计算检验统计量（1）当总例数）当总例数n40 且所有格子的理论频数且所有格子的理论频数T5时：用检验的基本公式或四格表资料检验的专时：用检验的基本公式或四格表资料检验的专用公式；用公式；基本公式基本公式专用公式专用公式 29（2）当总例数）当总例数 n40 且有一个格子且有一个格子1T5时时：用校正公式；或改用四格表资料的用校正公式；或改用四格表资料的Fisher确切确切概率法。概率法。30 2分布是一连续型分布，而四格表资料分布是一连续型分布，而四格表资料属离散型分布，由此计算得的属离散型分

16、布，由此计算得的 2统计量统计量的抽样分布亦呈离散性质。为改善的抽样分布亦呈离散性质。为改善 2统统计量分布的连续性，则需行连续性校正计量分布的连续性，则需行连续性校正(correction for continuity)。 2 连续性校正仅用于连续性校正仅用于 =1 的四格表资的四格表资料，当料，当2 时，一般不作校正。时，一般不作校正。31（3）当）当n40，或，或T5时：用时：用检验的基本公式或四格表资料检验的专用公检验的基本公式或四格表资料检验的专用公式式: 2= = 23.1238(3) 查查 2界值表（附表界值表（附表7）确定）确定P值，值， P0.05，得出结论。，得出结论。按按

17、0.05水准，水准，不拒绝不拒绝H0,可以认为两组人群对该可以认为两组人群对该抗生素的耐药率的差异无统计学意抗生素的耐药率的差异无统计学意义。义。39 例例2某矿石粉厂生产一种矿石粉时，在数天某矿石粉厂生产一种矿石粉时，在数天内即有部分工人患有职业性皮肤炎。后随机抽内即有部分工人患有职业性皮肤炎。后随机抽取取15名工人穿新防护服，其余仍穿原用的防护名工人穿新防护服，其余仍穿原用的防护服，一个月后检查两组工人的皮肤炎患病情况，服，一个月后检查两组工人的皮肤炎患病情况，资料见下表，问两组的患病率差别有无统计学资料见下表，问两组的患病率差别有无统计学意义？意义？表穿新旧防护服工人的皮肤炎患病比较表穿

18、新旧防护服工人的皮肤炎患病比较防护服种类防护服种类皮肤炎症皮肤炎症合计合计阳性数阳性数阴性数阴性数新新1（3.84）14 (11.16)15旧旧10（7.16）18 (20.84)28合计合计11324340本例本例n40，因有一格子的理论数因有一格子的理论数5，因而要，因而要用校正用校正 2 检验。检验。H0:两组工人皮肤炎总体患病率相等，即两组工人皮肤炎总体患病率相等，即 1 = 2H1:两组工人皮肤炎总体患病率不等，即两组工人皮肤炎总体患病率不等，即 1 2=0.05校正校正 2值为值为41以以=1查界值表，按查界值表，按检验水检验水准不拒绝准不拒绝，接受，接受，尚不能认为穿不同防

19、护，尚不能认为穿不同防护服的两组工人的皮肤炎患病率的差别有统计学服的两组工人的皮肤炎患病率的差别有统计学意义；意义；注意：本例若不作连续性校正，则，注意：本例若不作连续性校正，则，得得，可见两者是有区别的。，可见两者是有区别的。42注意：注意：两样本率比较的资料，既可用两样本率比较的资料，既可用检验也检验也可用可用检验来推断两总体率是否有差别，且在检验来推断两总体率是否有差别，且在不校正的条件下两种检验方法是等价的，对同一不校正的条件下两种检验方法是等价的，对同一份资料有份资料有。43小结小结 T5,用四格表专用公式用四格表专用公式n 40 1T5，用连续性校正公式用连续性校正公式 T1,

20、用确切概率法。用确切概率法。n40,用确切概率法。用确切概率法。44第三节第三节配对四格表资料的配对四格表资料的 2检验检验与计量资料推断两总体均数是否有与计量资料推断两总体均数是否有差别有成组设计和配对设计一样，差别有成组设计和配对设计一样，计数资料推断两个总体率（构成比）计数资料推断两个总体率（构成比）是否有差别也有成组设计和配对设是否有差别也有成组设计和配对设计，即计，即四格表资料四格表资料和和配对四格表资配对四格表资料料。45 将含量为将含量为n n的随机样本同时按照两的随机样本同时按照两个二项分类的属性进行交叉分类，形个二项分类的属性进行交叉分类，形成成2 2行行2 2列的交叉分类

21、表，如表列的交叉分类表，如表8-68-6，目，目的是检验两种属性间的阳性率是否相的是检验两种属性间的阳性率是否相同同变量1变量2合计阳性阴性阳性 a b阴性 c d合计（固定值）表表8-6 配对四格表资料表配对四格表资料表46变量变量1的阳性率变量的阳性率变量2的阳性率的阳性率可见，两个变量阳性率的比较只和可见，两个变量阳性率的比较只和b、c有关，而有关，而与与a、d无关。无关。变量变量1的阳性率的阳性率变量变量2的阳性率的阳性率 47前面是两个独立样本，行合计是事先固前面是两个独立样本，行合计是事先固定的定的；而这里的；而这里的“两份样本两份样本” 互不独立互不独立，样本量都是，样本

22、量都是n，是固定的，是固定的，而行合计，而行合计与列合计却是事先不确定的。与列合计却是事先不确定的。48配对四格表资料的配对四格表资料的 2检验的专用公式检验的专用公式 b+c40 b+c4049两种白喉杆菌培养基结果比较两种白喉杆菌培养基结果比较甲培养基甲培养基乙培养基乙培养基合计合计14(a)2(b)16 9(c)3(d)12合计合计23528配对四格表资料的配对四格表资料的 2检验步骤检验步骤50配对四格表资料的2检验步骤 1. H0:两种培养基阳性率相同，总体两种培养基阳性率相同，总体BC； H1:两种培养基阳性率不同，总体两种培养基阳性率不同，总体BC。 0.05。 2.计算统计量：

23、计算统计量： 23.273.84 3.按按 0.05水准，不拒绝水准，不拒绝H0 ，可以认为甲乙可以认为甲乙两法血清学检出阳性率无显两法血清学检出阳性率无显著性差异著性差异51第四节行列表2检验52 RC表的2检验通用公式53几种几种RC表的检验假设表的检验假设H0541.多个样本率的比较多个样本率的比较例例某医院用某医院用3种方案治疗急性无黄疸型病毒肝炎种方案治疗急性无黄疸型病毒肝炎254例，观察结果见表，问例，观察结果见表，问3种疗法的有效率是否种疗法的有效率是否不同。不同。 55检验步骤：检验步骤：H H0 0：3 3种治疗方案的有效率相等种治疗方案的有效率相等H H1 1：3 3

24、种治疗方案的有效率不全相等种治疗方案的有效率不全相等 =0.05=0.05 56P P 0.05 0.05 ，在，在=0.05=0.05的检验水准下，的检验水准下，拒绝拒绝H H0 0，接受接受H H1 1，可以认为三种疗法的有效率有差别。可以认为三种疗法的有效率有差别。 572.样本构成比的比较例例某研究人员收集了亚洲、欧洲和北美洲人的某研究人员收集了亚洲、欧洲和北美洲人的A A、B B、ABAB、O O血型资料，结果见表，问不同地区血型资料，结果见表，问不同地区人群人群ABOABO血型分类构成比是否不同。血型分类构成比是否不同。 58检验步骤检验步骤H H0 0：不同地区人群血型分布总体

25、构成比相同不同地区人群血型分布总体构成比相同H H1 1：不同地区人群血型分布总体构成比不全相同不同地区人群血型分布总体构成比不全相同 =0.05=0.05 P 0.05 ，在，在=0.05检验水准下，拒绝检验水准下，拒绝H0，认为三个不同地区的人群血型分布总体构成比有差认为三个不同地区的人群血型分布总体构成比有差别。别。 59 1. 对对RC表，若较多格子（表，若较多格子（1/5）的理论频数）的理论频数小于小于5或有一个格子的理论频数小于或有一个格子的理论频数小于1，则易，则易犯第一类错误。犯第一类错误。出现某些格子中理论频数过小时怎么办？出现某些格子中理论频数过小时怎么办？（1）增大样本

26、含量（最好！）增大样本含量（最好！）（2）删去该格所在的行或列（丢失信息！）删去该格所在的行或列（丢失信息！）（3）根据专业知识将该格所在行或列与别）根据专业知识将该格所在行或列与别的行或列合并。（丢失信息！甚至出假象）的行或列合并。（丢失信息！甚至出假象）RC表表2检验的应用注意事项检验的应用注意事项60行列表2检验时的注意事项2. 2.多个样本率比较，若所得统计推断为拒绝多个样本率比较，若所得统计推断为拒绝多个样本率比较，若所得统计推断为拒绝多个样本率比较，若所得统计推断为拒绝H0H0，接受，接受，接受，接受H1H1时，只能认为各总体率之间时，只能认为各总体率之间时，只能认为各总体率之

27、间时，只能认为各总体率之间总的来说有差别，但不能说明任两个总体总的来说有差别，但不能说明任两个总体总的来说有差别，但不能说明任两个总体总的来说有差别，但不能说明任两个总体率之间皆有差别。要进一步推断哪两总体率之间皆有差别。要进一步推断哪两总体率之间皆有差别。要进一步推断哪两总体率之间皆有差别。要进一步推断哪两总体率之间有差别，需进一步做多个样本率的率之间有差别，需进一步做多个样本率的率之间有差别，需进一步做多个样本率的率之间有差别，需进一步做多个样本率的多重比较。多重比较。多重比较。多重比较。3. 3.当计数资料为双向有序资料时，不可做卡当计数资料为双向有序资料时，不可做卡当计数资料为双向有序资料时，不可做卡当计数资料为双向有序资料时，不可做卡方分析，需做非参数性检验；当分组变量方分析，需做非参数性检验；当分组变量方分析，需做非参数性检验；当分组变量方分析，需做非参数性检验；当分组变量为等级，分析变量为非等级可做卡方分析，为等级，分析变量为非等级可做卡方分析，为等级，分析变量为非等级可做卡方分析，为等级，分析变量为非等级可做卡方分析，分析变量为等级资料不可做卡方分析。分析变量为等级资料不可做卡方分析。分析变量为等级资料不可做卡方分析。分析变量为等级资料不可做卡方分析。61

展开阅读全文

第八章 卡方检验(1)

最新文档

第八章卡方检验(1)