第九讲:卡方检验第九讲:卡方检验卡方分布卡方分布(chi-square distribution)*n1875年,年,F. Helmet得出:来自正态总体的样本方得出:来自正态总体的样本方差的分布服从卡方分布:差的分布服从卡方分布:n1900年年K. Pearson又从检验分布的拟合优度又从检验分布的拟合优度(goodness of fit)中也发现了这一相同的卡方分布,中也发现了这一相同的卡方分布,可用于检验资料的实际频数和理论频数是否相符可用于检验资料的实际频数和理论频数是否相符等问题:等问题:卡方分布卡方分布*n设随机变量设随机变量Z1,,Z2,,…Zk,相互独立,且都,相互独立,且都服从标准正态分布服从标准正态分布N (0,,1)那么,我们将那么,我们将k个独立标准正态变量的平方和称为个独立标准正态变量的平方和称为卡方变卡方变量,它量,它满足自由度为满足自由度为k的卡方分布,记为:的卡方分布,记为:卡方分布卡方分布图形特征图形特征*n卡方分布是一种卡方分布是一种连续型连续型分布:按分布的密度函数可给出分布:按分布的密度函数可给出自由度自由度=1,,2,,3,,……的一簇分布曲线的一簇分布曲线 =3 =1 =2 =4 =6卡方分布图形特征卡方分布图形特征*n卡方分布的形状依赖于自由度卡方分布的形状依赖于自由度ν 的大小:的大小:n当自由度当自由度ν≤2时,曲线呈时,曲线呈“L”型;型;n随着随着ν 的增加,曲线逐渐趋于对称;的增加,曲线逐渐趋于对称;n当自由度当自由度ν →∞时,曲线逼近于正态曲线时,曲线逼近于正态曲线卡方分布的曲线下面积定义卡方分布的曲线下面积定义n当当ν 确定后,卡方分布曲线下右侧尾部的面积为确定后,卡方分布曲线下右侧尾部的面积为 时,横时,横轴上相应的卡方值,记为轴上相应的卡方值,记为 2 2,,,如下图,如下图;实际应用时,可实际应用时,可根据根据ν 由附表由附表8查得查得n如果如果 2 2> 2 2,,,曲线下面积小于,曲线下面积小于 ;反之则大于;反之则大于 2( , )Karl. PearsonnCarl Pearson or Karl Pearson (1857-1936)nJournal BiometrikanPearson product-moment correlation coefficient、、Linear regression and correlation、、Pearson's chi-square test卡方检验卡方检验(chi-square test)nχ2检验是现代统计学的创始人之一,英国人检验是现代统计学的创始人之一,英国人Karl . Pearson于于1900年提出的一种具有广年提出的一种具有广泛用途的统计方法泛用途的统计方法n可用于两个或多个率间的比较,计数资料可用于两个或多个率间的比较,计数资料的关联度分析,拟合优度检验等等的关联度分析,拟合优度检验等等卡方检验的基本思想卡方检验的基本思想n医师研究用兰芩口服液与银黄口服液治疗慢性咽炎疗效医师研究用兰芩口服液与银黄口服液治疗慢性咽炎疗效有无差别,将病情相似的有无差别,将病情相似的80名患者随机分为两组,分别名患者随机分为两组,分别用两种药物资料,结果见下表,问两种药物的疗效是否用两种药物资料,结果见下表,问两种药物的疗效是否不同?不同?治疗治疗药物药物疗效疗效合计合计(有效率有效率)有效有效无效无效兰芩口服液兰芩口服液41445(91.1%)银黄口服液银黄口服液241135(68.6%)合计合计651580卡方检验的基本思想卡方检验的基本思想n从表中可见两疗法的有效率不相同,那么这种差从表中可见两疗法的有效率不相同,那么这种差别究竟是由于抽样误差还是由于药物疗效的确有别究竟是由于抽样误差还是由于药物疗效的确有差别?差别?n不妨假设两药物的疗效是相同的,那么此时两种不妨假设两药物的疗效是相同的,那么此时两种药物的疗效之差仅仅来源于抽样误差,我们可以药物的疗效之差仅仅来源于抽样误差,我们可以使用前面介绍的使用前面介绍的二项分布的两个大样本率比较的二项分布的两个大样本率比较的Z检验检验分析分析n还可以考虑使用本章节介绍还可以考虑使用本章节介绍的卡方检验分析的卡方检验分析卡方检验的基本思想卡方检验的基本思想n既然假设两药的总体疗效相同,可以考虑将两组既然假设两药的总体疗效相同,可以考虑将两组样本资料合并,计算一个样本资料合并,计算一个“合计率合计率”,作为总体,作为总体率的估计率的估计n两药的合计有效率两药的合计有效率Pc=65/80=81.25%n在此合计有效率的情况下,资料在此合计有效率的情况下,资料45例患者应该有例患者应该有Pc×45=36.5625例有效,例有效,(1-Pc)×45 =8.4375例无效;例无效;同理如果资料同理如果资料35例患者,应该有例患者,应该有28.4375例有效,例有效,6.5625例无效例无效n将上述数据称为疗效的理论数,列表如下:将上述数据称为疗效的理论数,列表如下:卡方检验的基本思想卡方检验的基本思想治疗治疗药物药物疗效疗效合计合计有效有效(理论有效理论有效)无效无效(理论无效理论无效)兰芩口服液兰芩口服液41(36.5625)4(8.4375)45银黄口服液银黄口服液24(28.4375)11(6.5625)35合计合计651580卡方检验的基本思想卡方检验的基本思想n从表中可见,疗效的理论数(根据假设两从表中可见,疗效的理论数(根据假设两总体疗效相同得到)与实际人数存在差别总体疗效相同得到)与实际人数存在差别n如果我们的假设成立的话,这种差别属于如果我们的假设成立的话,这种差别属于抽样误差,应该不会很大;反之,如果这抽样误差,应该不会很大;反之,如果这种差别很悬殊,则因该怀疑原假设不成立种差别很悬殊,则因该怀疑原假设不成立n如何评价如何评价“悬殊悬殊”与与“不悬殊不悬殊”??n使用卡方检验使用卡方检验卡方检验的基本思想卡方检验的基本思想n卡方检验基本公式:卡方检验基本公式:n如果假设成立,实际数与理论数的差距应该较小,按照上如果假设成立,实际数与理论数的差距应该较小,按照上式计算的卡方值因该接近式计算的卡方值因该接近0,如果卡方值远离,如果卡方值远离0则应该拒绝则应该拒绝原假设原假设n卡方值满足卡方分布,求得相应卡方值的曲线下面积就可卡方值满足卡方分布,求得相应卡方值的曲线下面积就可以得到以得到P值,进而作结论值,进而作结论n可见卡方检验的基本原理就是分析实际频数与根据假设构可见卡方检验的基本原理就是分析实际频数与根据假设构建的理论频数间的吻合程度(拟合度)建的理论频数间的吻合程度(拟合度)一、拟合优度检验一、拟合优度检验(goodness of fit test)n拟合优度检验旨在根据样本的频数分布检拟合优度检验旨在根据样本的频数分布检验其总体分布是否等于某给定的理论分布验其总体分布是否等于某给定的理论分布n例如:能否判断例如:能否判断120个男童身高满足正态分个男童身高满足正态分布(例布(例9-1)?)?n解答思路:假设身高满足正态,依据正态解答思路:假设身高满足正态,依据正态分布估计不同身高区间对应的理论人数,分布估计不同身高区间对应的理论人数,与实际观察人数比较,计算卡方统计量,与实际观察人数比较,计算卡方统计量,如果卡方值较大则拒绝原假设如果卡方值较大则拒绝原假设组段组段AF(F(x1) )F(F(x2) )P= F( F(x2)- )- F(F(x1) )T=n××P(A-T)2/T122.0~50.008320.032400.024082.89001.54035126.0~80.032400.097040.064637.75570.00769130.0~100.097040.226420.1293915.52631.96698……………………………………150.0~60.925220.976650.051436.17170.00477154.0~158.050.976650.994410.017762.13093.86289合计合计——————————9.93733理论数小于理论数小于5,,合并这两段合并这两段理论数小于理论数小于5,,合并这两段合并这两段拟合优度检验拟合优度检验nH0:总体分布为均数为:总体分布为均数为139.48,标准差为,标准差为7.30的的 正态分布正态分布 H1:总体分布不为该正态分布:总体分布不为该正态分布n =0.05n因为卡方分布原为连续性分布,因为卡方分布原为连续性分布,Pearson推导卡方推导卡方检验公式是对卡方的近似(分类变量的取值并不检验公式是对卡方的近似(分类变量的取值并不是连续的),其使用条件中规定理论数不得小于是连续的),其使用条件中规定理论数不得小于5,因此我们将,因此我们将T小于小于5的组段与附近组段的理论数的组段与附近组段的理论数合并;依据卡方检验公式:合并;依据卡方检验公式: 2=∑(A-T)2/T计算卡计算卡方值为方值为5.9184拟合优度检验拟合优度检验n自由度自由度v=实际频数个数实际频数个数k-1-计算理论数时所需要计算理论数时所需要的参数个数的参数个数m;本题中,在计算理论频数时用到;本题中,在计算理论频数时用到了正态分布的均数与标准差,所以了正态分布的均数与标准差,所以m=2(例如在(例如在二项分布的拟合优度检验时,使用到的参数为二二项分布的拟合优度检验时,使用到的参数为二项分布的总体率项分布的总体率p p;而在泊松分布的拟合优度检验;而在泊松分布的拟合优度检验时,使用到了泊松分布的总体均数时,使用到了泊松分布的总体均数l l))n故本题的自由度为故本题的自由度为7-1-2=47-1-2=4,查表得,查表得 20.05,,4==9.49,故在显著性水准上尚不拒绝原假设,故在显著性水准上尚不拒绝原假设n需要注意的是,本题如果组段的划分改变(例如需要注意的是,本题如果组段的划分改变(例如组数、组距改变),则卡方值相应改变,所以组数、组距改变),则卡方值相应改变,所以卡卡方拟合优度检验更适合于二项分布与泊松分布资方拟合优度检验更适合于二项分布与泊松分布资料料二、完全随机设计的四格表卡方检验二、完全随机设计的四格表卡方检验n如例如例9--2,在表格中有两组,每组的结果,在表格中有两组,每组的结果为二分类结果(为二分类结果(2×2),这样的表格称为四),这样的表格称为四格表,其通用格式表达如下:格表,其通用格式表达如下:分类资料的列联表分类资料的列联表(contingency table)n如果有如果有R个分组(处理因素),每组的结果个分组(处理因素),每组的结果又有又有C个分类(结局),则所作的表格有个分类(结局),则所作的表格有R行、行、C列,称之为列,称之为R×C列联表列联表(R×C contingency table)n四格表卡方检验是最简单的列联表四格表卡方检验是最简单的列联表(2分组分组×2分类分类)完全随机设计的四格表卡方检验完全随机设计的四格表卡方检验n与前述拟合优度检验相似,在计算卡方值之前需要先估计与前述拟合优度检验相似,在计算卡方值之前需要先估计理论频数理论频数n理论频数的计算:理论频数的计算:完全随机设计的四格表卡方检验完全随机设计的四格表卡方检验治疗治疗药物药物疗效疗效合计合计愈合愈合(理论有效理论有效)未愈合未愈合(理论无效理论无效)洛赛克洛赛克64(57.84)21(27.16)85雷尼替丁雷尼替丁51(57.16)33(26.84)84合计合计11554169完全随机设计的四格表卡方检验完全随机设计的四格表卡方检验nH0:两总体率相同:两总体率相同 H1:两总体率不同:两总体率不同n =0.05n 2=∑(A-T)2/T计算卡方值为计算卡方值为4.13n自由度自由度v=k-1-m;此处因为计算卡方时使用了四个格子中;此处因为计算卡方时使用了四个格子中的实际数,故的实际数,故k=4;;m为估计理论数时用到的参数,在本为估计理论数时用到的参数,在本题中为两组各自的有效率,所以题中为两组各自的有效率,所以m=2;;v=4-1-2=1n查表得:查表得: 2 20.05,10.05,1=3.84,所以,所以P<0.05,在,在 =0.05的水准上拒的水准上拒绝绝H0,认为两种治疗方案的有效率不同,认为两种治疗方案的有效率不同关于四格表卡方检验的一些说明关于四格表卡方检验的一些说明n关于自由度:在列联表资料中(四格表也关于自由度:在列联表资料中(四格表也是一种列联表),自由度可以简单地表达是一种列联表),自由度可以简单地表达为为(行数行数-1)(列数列数-1),即,即(R-1)(C-1);其含;其含义为义为列联表中可以自由取值的格子个数列联表中可以自由取值的格子个数n关于理论数:如同拟合优度检验中提到的,关于理论数:如同拟合优度检验中提到的,如果理论数较小时,卡方检验需要进行如果理论数较小时,卡方检验需要进行连连续性校正续性校正,甚至由于理论数过小而,甚至由于理论数过小而无法进无法进行行!!四格表卡方检验的四格表卡方检验的理论数理论数要求要求n当理论频数当理论频数T有有T≥5,而且,而且n≥40时,卡方公时,卡方公式不需要校正,直接使用式不需要校正,直接使用n当理论频数当理论频数T有有1≤T<<5,而且,而且n≥40时,需要时,需要校正,或者用精确概率法计算概率值校正,或者用精确概率法计算概率值n当理论频数当理论频数T有有T<<1,或者,或者n<<40时,只可时,只可用精确概率法计算概率值用精确概率法计算概率值Yates' correction for continuity n由离散型资料按卡方检验公式式算得的卡方值均有偏大的由离散型资料按卡方检验公式式算得的卡方值均有偏大的趋势(使得我们偏向于拒绝原假设),尤其是当自由度趋势(使得我们偏向于拒绝原假设),尤其是当自由度=1 而且理论数较小时,偏差较大而且理论数较小时,偏差较大nFrank Yates((1934)提出对卡方值进行连续性矫正)提出对卡方值进行连续性矫正n矫正方法是,先将各组实际观察数与理论数的差数的绝对矫正方法是,先将各组实际观察数与理论数的差数的绝对值分别减去值分别减去0.5,然后再平方进行计算。
矫正后的卡方值记,然后再平方进行计算矫正后的卡方值记为为 2c四格表卡方检验专用公式四格表卡方检验专用公式n原始卡方公式需要计算理论数,略显麻烦原始卡方公式需要计算理论数,略显麻烦n在四格表资料中,可以使用专用公式,省略计算理论在四格表资料中,可以使用专用公式,省略计算理论数的过程数的过程n专用公式如下:专用公式如下:四格表卡方检验专用公式校正四格表卡方检验专用公式校正n若有若有1≤T<<5,而且,而且n≥40时,该专用公式同时,该专用公式同样需要校正样需要校正四格表卡方检验的校正四格表卡方检验的校正n例例9--3将病情相似的淋巴系统肿瘤患者随机分成两组,将病情相似的淋巴系统肿瘤患者随机分成两组,分别作单纯化疗与复合化疗,缓解情况见下表,问两疗分别作单纯化疗与复合化疗,缓解情况见下表,问两疗法的缓解情况是否不同?法的缓解情况是否不同?化疗化疗方法方法缓解情况缓解情况合计合计缓解缓解(理论缓解理论缓解)未缓解未缓解(理论未缓解理论未缓解)单纯化疗单纯化疗2(4.8)10(7.2)12复合化疗复合化疗14(11.2)14(16.8)28合计合计162440四格表卡方检验的校正四格表卡方检验的校正n在上表中最小的理论数应该是在上表中最小的理论数应该是“单纯化疗单纯化疗” “缓解缓解”所对应,因为它所对应的行、所对应,因为它所对应的行、列合计值最小;列合计值最小;2所对应的理论数为所对应的理论数为4.8,小,小于于5,而且例数不小于,而且例数不小于40,所以本题应该作,所以本题应该作校正校正n校正后卡方值为校正后卡方值为2.624(未校正时为(未校正时为3.889),),故尚不认为两方案缓解情况不同故尚不认为两方案缓解情况不同三、配对设计的四格表卡方检验三、配对设计的四格表卡方检验n什么是配对设计?什么是配对设计?n常见配对设计的情况是那些?常见配对设计的情况是那些?常见的配对四格表资料常见的配对四格表资料n同一批样品用两种不同的方法处理,处理同一批样品用两种不同的方法处理,处理的结果为二分类资料的结果为二分类资料 n观察对象根据配对条件配成对子,同一对观察对象根据配对条件配成对子,同一对子中的不同个体分别接受不同的处理,处子中的不同个体分别接受不同的处理,处理的结果为二分类资料理的结果为二分类资料n研究者分别用甲、乙两种培养基对研究者分别用甲、乙两种培养基对56份咽喉涂片份咽喉涂片进行检查,得到如下资料进行检查,得到如下资料: 甲培养基甲培养基 乙培养基乙培养基 份数份数 ++ ++ 22 ++ — — — ++ — 18 2 14配对四格表资料配对四格表资料n在本例题中每份标本被一分为二(两份标在本例题中每份标本被一分为二(两份标本实质上是一样的),同时接种于两种培本实质上是一样的),同时接种于两种培养基上;这样细菌的生长情况差别完全取养基上;这样细菌的生长情况差别完全取决于不同的培养基,而与标本的基本情况决于不同的培养基,而与标本的基本情况无关无关n所以本例为配对设计,目的是通过样本资所以本例为配对设计,目的是通过样本资料判断两方法的总体阳性概率是否有差别料判断两方法的总体阳性概率是否有差别配对四格表资料配对四格表资料n我们将上述表格稍作改变,得到如下四格表:我们将上述表格稍作改变,得到如下四格表:n该四格表与前面所介绍的普通四个表有所不同;普通四该四格表与前面所介绍的普通四个表有所不同;普通四格表的格表的“行行”为分组因素,为分组因素,“列列”为分组的结局,而在为分组的结局,而在配对四个表中,配对四个表中,“行行”中既包含分组因素,同时也有该中既包含分组因素,同时也有该因素的结局,因素的结局,“列列”也同样也同样,所以这种四格表称为配对,所以这种四格表称为配对四格表四格表 甲法甲法 乙法乙法 合合 计计 ++ — ++ 22 18 40 — 2 14 16 合合 计计 24 32 56配对四格表资料的一般形式配对四格表资料的一般形式n对含量为对含量为n的一份随机样本同时按照两个二项的一份随机样本同时按照两个二项分类属性,进行交叉分类形成的四格表分类属性,进行交叉分类形成的四格表属性属性A分类分类 属性属性B分类分类 合合 计计 阳阳 性性 阴阴 性性 阳阳 性性 a c a+c 阴阴 性性 b d b+d 合合 计计 a+b c+d n成组与配对四格表资料的比较成组与配对四格表资料的比较配对四格表资料卡方检验原理配对四格表资料卡方检验原理n在配对设计的四格表中,如果要了解不同的处理在配对设计的四格表中,如果要了解不同的处理方案的结局是否有别(例如甲乙两培养基的阳性方案的结局是否有别(例如甲乙两培养基的阳性率是否有别)并不需要用到所有四格中的数据率是否有别)并不需要用到所有四格中的数据n甲培养基中的阳性率为甲培养基中的阳性率为(22+18)/56;乙培养基中;乙培养基中的阳性率为的阳性率为(22+2)/56;可见两者都阴性的;可见两者都阴性的14份标份标本对二者阳性率的差别没有影响,而且二者都阳本对二者阳性率的差别没有影响,而且二者都阳性的性的22份标本也对结果没有影响(两种方法结果份标本也对结果没有影响(两种方法结果一致的对二者的率差没有影响),导致两者阳性一致的对二者的率差没有影响),导致两者阳性率的差别主要来源于培养结果不一致的率的差别主要来源于培养结果不一致的20份样本份样本(18≠2)配对四格表资料卡方检验原理配对四格表资料卡方检验原理n假设假设18≠2的主要原因是抽样误差导致,那的主要原因是抽样误差导致,那么甲乙培养基的总体阳性率就是一致的么甲乙培养基的总体阳性率就是一致的n所以其假设主要针对所以其假设主要针对18与与2,即,即H0为为b=c,,两种培养基的白喉杆菌生长的阳性率相等两种培养基的白喉杆菌生长的阳性率相等n如果如果H0成立,则二者生长情况不一致的两成立,则二者生长情况不一致的两个格子理论数都应该是个格子理论数都应该是(b+c)/2n所以卡方检验的公式变为:所以卡方检验的公式变为:配对四格表资料卡方检验原理配对四格表资料卡方检验原理n将数据代入上述公式中,因为将数据代入上述公式中,因为18+2小于小于40,故需要校正,校正卡方值,故需要校正,校正卡方值为为11.25n因为因为11.25>3.84,故,故P<0.05,在,在 ==0.05的水准上拒绝的水准上拒绝H0,认为两培养,认为两培养基的阳性率不同基的阳性率不同四、完全随机设计的列联表卡方检验四、完全随机设计的列联表卡方检验n如果有超过如果有超过2组,每组的结局超过组,每组的结局超过2种分类,种分类,就构成了就构成了R×C列联表;四格表是最简单的列联表;四格表是最简单的列联表列联表n完全随机设计的列联表资料的卡方检验原完全随机设计的列联表资料的卡方检验原理与四格表的相同,只不过组数或结局增理与四格表的相同,只不过组数或结局增多了而已多了而已完全随机设计的列联表卡方检验完全随机设计的列联表卡方检验n例例9--4:三种不同药物治疗慢支效果如下,试比较三种药:三种不同药物治疗慢支效果如下,试比较三种药物的疗效:物的疗效:组别组别治疗效果治疗效果合计合计有效率有效率(%)有效有效无效无效A3554087.50B20103066.67C7253221.88合计合计624010260.78完全随机设计的列联表卡方检验完全随机设计的列联表卡方检验n其检验思想同四格表卡方检验:先假设三种药物其检验思想同四格表卡方检验:先假设三种药物效果相同,将三组的治疗情况合并作为总效果的效果相同,将三组的治疗情况合并作为总效果的估计值,而后可以据此计算各组的理论有效与无估计值,而后可以据此计算各组的理论有效与无效人数,如果假设成立的话它们间的差别应该很效人数,如果假设成立的话它们间的差别应该很小,卡方值应该不大,否则就有理由认为它们不小,卡方值应该不大,否则就有理由认为它们不是来源于同一总体是来源于同一总体nH0:三种药物的总体有效率相同;三种药物的总体有效率相同;H1:三种药物的三种药物的镇痛效果镇痛效果不全相同不全相同完全随机设计的列联表卡方检验完全随机设计的列联表卡方检验n请注意,对立假设包括多种情况:例如三组间互请注意,对立假设包括多种情况:例如三组间互不相同、某两组间相同且都与第三组不同;所以不相同、某两组间相同且都与第三组不同;所以如果拒绝原假设,还需要对三组进行如果拒绝原假设,还需要对三组进行两两比较两两比较(卡卡方分割方分割)才可以最终下结论才可以最终下结论n卡方检验的公式既可以使用基本公式卡方检验的公式既可以使用基本公式— 2=∑(A-T)2/T;也可以通过下列公式减少计算量:;也可以通过下列公式减少计算量:完全随机设计的列联表卡方检验完全随机设计的列联表卡方检验n需要说明一点:该公式也可以用于普通四格表,它的结果需要说明一点:该公式也可以用于普通四格表,它的结果与四格表专用公式与四格表专用公式(未校正未校正)计算结果完全相同计算结果完全相同n将表中数据代入:将表中数据代入:n查表得:查表得: 2 20.05,20.05,2=5.99,所以,所以P<0.05,在,在 =0.05的水准上拒的水准上拒绝绝H0,认为三种药物的总体效果不全相同,认为三种药物的总体效果不全相同完全随机设计的列联表卡方检验完全随机设计的列联表卡方检验n若要明确哪两组间不同或三组间互不相同,需要作两两比若要明确哪两组间不同或三组间互不相同,需要作两两比较(在本题中可以视为任意两组间作普通四格表的卡方检较(在本题中可以视为任意两组间作普通四格表的卡方检验)验)n三组作两两比较需要比较三次,如果每次的显著性水准均三组作两两比较需要比较三次,如果每次的显著性水准均为为0.05,则三次比较后的显著性水准为,则三次比较后的显著性水准为1-0.953=0.14,远大,远大于原先的预期,所以要重新确认于原先的预期,所以要重新确认 ,使得经过三次比较后,使得经过三次比较后一类错误仍为一类错误仍为0.05n满足上述条件的满足上述条件的 约为约为0.01695,此时的卡方界值约为,此时的卡方界值约为8.155(( 2 20.01695,20.01695,2=8.155 ))列联表资料的两两比较列联表资料的两两比较*对比组对比组c2结果结果A vs. B4.419有差别有差别A vs. C31.500有差别有差别 B vs. C12.636有差别有差别完全随机设计的列联表卡方检验完全随机设计的列联表卡方检验n在血型与疾病关系的研究中,随机抽取胃在血型与疾病关系的研究中,随机抽取胃溃疡病人、胃癌病人及对照人群的样本,溃疡病人、胃癌病人及对照人群的样本,根据根据ABO血型分类血型分类(本例中因本例中因AB血型的例血型的例数较少,故省略不计数较少,故省略不计),观测结果列于表下,,观测结果列于表下,试探讨不同病种是否具有不同的血型分布试探讨不同病种是否具有不同的血型分布 完全随机设计的列联表卡方检验完全随机设计的列联表卡方检验疾病分类疾病分类血型分类血型分类合计合计ABO胃溃疡组胃溃疡组6791349831796胃癌组胃癌组41684383883对照组对照组262557028926087合计合计372078842588766合计构成比(合计构成比(%))42.49.048.6100.0完全随机设计的列联表卡方检验完全随机设计的列联表卡方检验nH0:三种疾病的血型构成比相等:三种疾病的血型构成比相等 H1:三种疾病的血型构成比不全相等:三种疾病的血型构成比不全相等n =0.05n代入公式:代入公式:n自由度自由度=(3--1)(3--1)=4,查附表得,查附表得, =0.05时,卡方界值时,卡方界值为为9.49,故,故P<<0.05,拒绝,拒绝H0,即认为三种疾病的血型构成,即认为三种疾病的血型构成比不全相等比不全相等 列联表资料的两两比较列联表资料的两两比较*对比组对比组 2 2 2 20.01695,40.01695,4结果结果溃疡溃疡 vs. 胃癌胃癌30.58212.054有差别有差别溃疡溃疡 vs. 对照对照29.69712.054有差别有差别对照对照 vs. 胃癌胃癌5.63612.054尚不认为有别尚不认为有别五、确切概率法五、确切概率法(Fisher exact test)n前以述及,前以述及, 2检验是基于大样本假定,四格表时,检验是基于大样本假定,四格表时,如果总例数小于如果总例数小于40或任意一格子理论数小于或任意一格子理论数小于1,大,大样本假定不成立,则不能用样本假定不成立,则不能用 2检验检验 n另外,有些情况下虽然满足卡方检验的使用条件,另外,有些情况下虽然满足卡方检验的使用条件,但是计算的卡方值与卡方界值十分接近但是计算的卡方值与卡方界值十分接近(P十分接十分接近近 )此时也可以考虑使用确切概率法此时也可以考虑使用确切概率法n该方法是由该方法是由Ronald Fisher提出,直接用超几何分提出,直接用超几何分布的方法计算概率值;因此严格说来,它并不属布的方法计算概率值;因此严格说来,它并不属于卡方检验,而是独立于卡方检验于卡方检验,而是独立于卡方检验四格表确切概率法四格表确切概率法n例例9--8:将:将23名精神抑郁症患者随机分为两组,分别使名精神抑郁症患者随机分为两组,分别使用两种药物治疗,问两药物疗效是否不同?用两种药物治疗,问两药物疗效是否不同?分组分组治疗效果治疗效果合计合计有效率有效率(%)有效有效无效无效甲药甲药7(a)5(b)12(a+b)58.3乙药乙药3(c)8(d)11(c+d)27.3合计合计10(a+c)13(b+d)2343.5四格表确切概率法四格表确切概率法n由于总例数小于由于总例数小于40例,此时卡方检验不再适用例,此时卡方检验不再适用n假设两种药物没有差别,可以考虑先将两药合并,得到合假设两种药物没有差别,可以考虑先将两药合并,得到合计有效人数计有效人数10人,合计无效人数人,合计无效人数13人,总人数人,总人数23人人n现从现从23人中抽取人中抽取12人作为样本,其中有效人数为人作为样本,其中有效人数为7的可能的可能性为:性为:四格表确切概率法四格表确切概率法n上式可以写为以下通式:上式可以写为以下通式:n也就是说出当原假设成立时,当前四格表的出现也就是说出当原假设成立时,当前四格表的出现概率为概率为0.114;而假设检验中的;而假设检验中的P值为比当前情况值为比当前情况更极端的概率之和,所以还要在保持边界合计值更极端的概率之和,所以还要在保持边界合计值不变的情况下,将两药率差超过当前(不变的情况下,将两药率差超过当前(︱︱甲药有甲药有效率-乙药有效率效率-乙药有效率︱︱≥31%)的所有可能四格表%)的所有可能四格表的组合列出,求其发生概率之和的组合列出,求其发生概率之和四格表确切概率法四格表确切概率法n要满足要满足︱︱甲药有效率-乙药有效率甲药有效率-乙药有效率︱︱≥31%,即是:%,即是:表号表号abcdad-bcP1010121-1200.000001219112-970.000577328103-740.00951943794-510.06345854685-280.19989265576-50.31982876467180.26652387358410.11422498249640.0237971091310870.002115111002111100.000058四格表确切概率法四格表确切概率法n由于我们的题目只想了解两药的疗效是否不同,故这是一由于我们的题目只想了解两药的疗效是否不同,故这是一个双侧假设,因此满足个双侧假设,因此满足︱︱甲药有效率-乙药有效率甲药有效率-乙药有效率︱︱≥31%即可,所以上述表格号为%即可,所以上述表格号为1~~4以及以及8~~11均满足;如果均满足;如果题目问是否认为甲药的有效率高于乙药,则要满足甲药有题目问是否认为甲药的有效率高于乙药,则要满足甲药有效率-乙药有效率效率-乙药有效率≥31%,那么只有,那么只有8~~11满足满足n将满足条件的四格表的概率求和,即可得到最终的将满足条件的四格表的概率求和,即可得到最终的P值,值,本例为本例为0.214,高于显著性水准,高于显著性水准0.05,所以尚不拒绝,所以尚不拒绝H0,尚,尚不认为两药的疗效有不同不认为两药的疗效有不同六、卡方检验注意事项六、卡方检验注意事项n同四格表资料一样,同四格表资料一样,R×C表的表的 2分布是建立在大样本的假分布是建立在大样本的假定上的,要求总例数不可过少,不能有定上的,要求总例数不可过少,不能有1/5以上的格子理论以上的格子理论频数小于频数小于5,且不能有一个格子的理论频数小于,且不能有一个格子的理论频数小于1n如果出现上述情况,可以考虑:增大样本量;如果出现上述情况,可以考虑:增大样本量;根据专业知根据专业知识识合理地合并相邻的组别;删除理论数太小的行列合理地合并相邻的组别;删除理论数太小的行列 ;改用;改用其它方法分析,例如确切概率法或似然比卡方检验其它方法分析,例如确切概率法或似然比卡方检验n当多个样本率(或构成比)作当多个样本率(或构成比)作 2检验,结论为拒绝零假设检验,结论为拒绝零假设时,只能认为各总体率(或总体构成比)之间总的有差别,时,只能认为各总体率(或总体构成比)之间总的有差别,不能说明两两之间有差别;两组间的比较可参考不能说明两两之间有差别;两组间的比较可参考 2分割的分割的方法方法 卡方检验注意事项卡方检验注意事项n并非所有的并非所有的R×C列联表作卡方列联表作卡方检验都是合理的;检验都是合理的; R×C表可以表可以分为双向无序、单向有序、双分为双向无序、单向有序、双向有序属性相同和双向有序属向有序属性相同和双向有序属性不同等性不同等4类类n通常情况下只有双向无序的资通常情况下只有双向无序的资料(例如多个样本率的比较、料(例如多个样本率的比较、多个样本构成比的比较)可以多个样本构成比的比较)可以使用使用R×C列联表卡方检验列联表卡方检验n右上表格使用卡方检验分析不右上表格使用卡方检验分析不同疗法间疗效是否有别,右下同疗法间疗效是否有别,右下表格分析不同的血型分类结果表格分析不同的血型分类结果是否有关联(不同的血型分类是否有关联(不同的血型分类是否相互独立);它们都属于是否相互独立);它们都属于双向无序的列联表,都可使用双向无序的列联表,都可使用卡方检验分析卡方检验分析疗法疗法疗效疗效合计合计有效率有效率(%)有效有效无效无效物理疗法物理疗法199720696.60药物治疗药物治疗1641818290.11外用膏药外用膏药1182614481.94合计合计4815153290.41ABO血型血型MN血型血型合计合计MNMNO 4314909021823A3884108001598B4955879502032AB13717932348合计合计1451166626845801卡方检验注意事项卡方检验注意事项n单向有序单向有序R×C表表 有两种形式。
一有两种形式一种是表中的分组变量(如年龄)是种是表中的分组变量(如年龄)是有序的,而指标变量(如传染病的有序的,而指标变量(如传染病的类型)是无序的,其研究目的通常类型)是无序的,其研究目的通常是分析不同年龄组各种传染病的构是分析不同年龄组各种传染病的构成情况,可用行列表资料的成情况,可用行列表资料的χ2检验检验进行分析;而如果指标变量为二分进行分析;而如果指标变量为二分类,如右上表,想分析是否随工龄类,如右上表,想分析是否随工龄增加患病率也增加可以考虑线性趋增加患病率也增加可以考虑线性趋势检验;另一种情况是表中的分组势检验;另一种情况是表中的分组变量(如疗法)为无序的,而指标变量(如疗法)为无序的,而指标变量(如疗效按等级分组)是有序变量(如疗效按等级分组)是有序的,如右下表,其研究目的为比较的,如右下表,其研究目的为比较不同疗法的疗效,宜用秩和检验进不同疗法的疗效,宜用秩和检验进行分析行分析药物药物种类种类疗效疗效合计合计治愈治愈好转好转无效无效A 1650470B452130C20251560合计合计408040160工龄工龄患病人数患病人数未患病人数未患病人数合计合计<1 151521~6941002~232012244~351561916~2487114卡方检验注意事项卡方检验注意事项n双向有序属性相同的双向有序属性相同的R×C表表 表中的两分类变量皆为有序且属性表中的两分类变量皆为有序且属性相同。
实际上是相同实际上是2×2配对设计的扩展,即水平数配对设计的扩展,即水平数≥3的诊断试验配的诊断试验配伍设计,如用两种检测方法同时对同一批样品的测定结果其研伍设计,如用两种检测方法同时对同一批样品的测定结果其研究目的通常是分析两种检测方法的一致性,此时宜用一致性检验究目的通常是分析两种检测方法的一致性,此时宜用一致性检验(或称(或称Kappa检验)检验)对比法对比法测定结果测定结果核素法测定结果核素法测定结果合计合计正常正常减弱减弱异常异常正常正常 582363减弱减弱142750异常异常891734合计合计675327147卡方检验注意事项卡方检验注意事项n双向有序属性不同的双向有序属性不同的R×C表表 R×C表中两分类变量皆为有序的,但属表中两分类变量皆为有序的,但属性不同,如下表;对于该类资料,性不同,如下表;对于该类资料,①①若研究目的为分析不同年龄组患若研究目的为分析不同年龄组患者混浊度之间有无差别时,可把它视为单向有序者混浊度之间有无差别时,可把它视为单向有序R×C表资料,选用秩表资料,选用秩和检验;和检验;②②若研究目的为分析两有序分类变量间是否存在相关关系,若研究目的为分析两有序分类变量间是否存在相关关系,宜用等级相关分析;宜用等级相关分析;③③若研究目的为分析两有序分类变量间是否存在若研究目的为分析两有序分类变量间是否存性变化趋势,宜用线性趋势检验线性变化趋势,宜用线性趋势检验年龄年龄晶状体混浊程度晶状体混浊程度合计合计++++++20~~ 215674432630~~1311016329540~~148128132408合计合计4942962391029本章小结本章小结n卡方检验的基本原理卡方检验的基本原理n成组设计与配对设计的卡方检验及其使用成组设计与配对设计的卡方检验及其使用条件条件n列联表资料的卡方检验列联表资料的卡方检验n精确概率法精确概率法。