定性资料的统计分析2

资源描述

《定性资料的统计分析2》由会员分享，可在线阅读，更多相关《定性资料的统计分析2（59页珍藏版）》请在金锄头文库上搜索。

1、医学统计学,定性资料的统计分析 statistical analysis for qualitative data,主要内容,二项分布简介总体率的可信区间估计 Poisson分布简介总体事件数的可信区间估计样本率与总体率的比较两样本率比较的u检验四格表资料的2检验行列表资料的2检验确切概率法两事件数的比较卡方检验应用的注意事项,第七节四格表资料的2检验,2检验（chi-square test）是英国统计学家Pearson于1900年提出的一种应用范围很广的统计方法。常用来推断两个及两个以上总体率或构成比是否有差异。根据设计类型的不同，四格表资料的2检验可分为：完全随机

2、设计的两样本率比较的2检验配对设计的2检验。,一、2检验的基本思想,u检验与t检验的思路相同，是用标准误作为尺度，去衡量统计量与总体参数差别的大小。 2检验(chi-square test)的思路则与u检验、t检验不同，却有着异曲同工之妙。,例、某医院肿瘤科3年来共治疗乳腺癌患者n=131例，每例观察5年，其中单纯手术治疗组观察n1=84例，存活x1=57例，联合治疗组观察n2=47例，存活x2=39例。将资料整理成以下形式的分类频数表。,1、四格表的概念,a、b、c、d这四个格子的频数是整个表的基本数据，其余数据都是从这四个基本数据推算出来的，通常将这种资料称为四格表资料（22表资料）。

3、四格表资料多用来比较两种处理的不同效果，而每种处理只产生两种相互对立的结果。如生存与死亡、有效与无效、患病与未患病、阳性与阴性、检出与未检出等。,2、建立检验假设,当两个样本率不等时，可能有两种原因：差别仅由抽样误差所致；两种处理的效果确有不同，而导致了样本率的不同。为区别这两种情况，分别建立检验假设： H0：两总体存活率相等，即1=2； H1：两总体存活率不等，即12。 = 0.05。,3、H0条件下的理论频数,H0假设认为，两个样本来自同一总体，即 “单纯组”与 “联合组”的存活率相同，差别仅由抽样误差所致，则可用合计存活率 73.3（即96/131）作为总体率的点估计。 H0条件

4、下，单纯组理论存活数应为47(96/131) =34.44例，联合组理论存活数应为84(96/131) =61.56例；同理，两组理论死亡数为12.56例和22.44例。这四个根据H0假设求得的数据称为理论频数T。,理论频数T可用公式计算：式中 TRC表示第R行、第C列的理论频数，nR为相应行的合计，nC为相应列的合计，n为总例数。,4、2检验的思路,如果H0假设成立，则实际频数A与理论频数T应该比较接近。如果实际频数与理论频数相差较大，超出了抽样误差所能解释的范围，则可以认为H0假设不成立，即两样本对应的总体率不等。,实际频数Ai与理论频数Ti之间的抽样误差，可以用2统计量表示： 2统计

5、量服从2分布，反映了实际频数A与理论频数T吻合的程度。A与T相差越大，则2值就会越大。,如果H0假设成立，则实际频数与理论频数之差异纯系抽样误差所致，故2值不会很大。即在H0假设的前提下，一次随机试验中，出现较大2值的概率P是很小的。如果手头样本求得很小的P，且P ，根据小概率原理，就有理由怀疑H0的真实性，故拒绝之；若P，则没有理由拒绝H0。 2值与P值的对应关系可查附表3的2界值表。,根据计算公式，2值的大小除了和实际频数与理论频数的差值|AT|有关还与格子数有关，严格的讲是和自由度有关。行列表的自由度，是指在表中周边合计数不变的前提下，基本数据可以自由变动的格子数。四格表中有四个基

6、本数据，其中任何一个数据发生变化，其余三个数据由于受周边合计数的限制，只能随之相应变动，故其自由度为1 。 =(行数-1)(列数-1),二、完全随机设计的两样本率的比较,完全随机设计的两个样本率比较的目的是推断两个样本率各自所代表的总体率是否相等。检验方法可用u检验或2检验。例1、某医院肿瘤科3年来治疗乳腺癌患者n=131例，其中单纯手术组观察n1=84例，存活x1=57例，联合治疗组观察n2=47例，存活x2=39例，问两组存活率有无差别？,首先将资料整理成四格表形式：,例2、在某项治疗牙科术后疼痛控制的双盲临床研究中，将178例患者随机分成两组，A药组90人，有效人数为68人。B药组88

7、人，有效人数为58人。,三、四格表资料专用公式,理论频数由四格表中实际频数计算得来。对于四格表资料，可直接用专用公式计算2值，以简化计算过程。式中a、b、c、d分别为四格表的四个实际频数即四格表的基本数据，总例数n=abcd。,分别将前面的两个例子中的基本数据代入公式可以得到相同的2值。 39 8 57 27 68 22 58 30,四、四格表2统计量的连续性校正,2分布是一种连续性分布，附表3中2界值是根据此连续性分布的理论公式计算得到。而两个或多个率比较的原始数据却属离散型分布资料，是不连续的。因此，2检验公式是一个近似计算公式。英国统计学家Yates F认为，应将实际频数与理论频

8、数之差的绝对值减去0.5作连续性校正。,实际上，2值公式在四格表的基础数据均不太小时，近似程度相当高。但是，只要四格表中的有一个基础数据出现较小值，此时求得的2值往往偏大，相应的P值偏小，从而扩大了I型误差。为校正这种偏差，可采用校正2，用C2表示。其计算公式为：,对四格表专用公式的校正为：两者是等价的，这种校正称为连续性校正，即Yates校正。,分析四格表资料时，不同公式的选择条件,在分析四格表资料时，需根据具体情况作出不同处理，一般认为： 1、当n40，且T5时，用基本公式计算2值； 2、当n40，且1T5时，则用2检验的连续性校正公式； 3、当n40，或有T1时，不能用2检验，应当

9、用四格表的确切概率法。 4、当2检验所得P值接近检验水准时，最好使用四格表确切概率法。,例1、下表资料是单用甘磷酰芥(单纯化疗组)与复合使用争光霉素、环磷酰胺等药(复合化疗组)对淋巴系统肿瘤的疗效，问两组患者总体的完全缓解率有无差别？,例2、为观察甲、乙两药对治疗胃溃疡的疗效，将70名患者随机分成两组，一组30人服用甲药，另一组40人服用乙药。结果见下表。问两种药物的胃溃疡治愈率有无差别？,五、u检验与2检验的关系,事实上，对两样本率的比较的双侧检验，u检验和2检验是等价的。即自由度为1的2=u2。因此，两样本率的比较，可以用u检验，也可以用2检验。两者的应用条件是一样的。但若需进行单侧

10、检验，则应选用u检验，因为2检验理论上本身就是双侧检验。,六、配对设计四格表的卡方检验,配对设计是医学研究中常用的设计方法之一，二分类结果资料的配对研究常用于比较两种检验方法、两种培养方法、两种提取方法之间的差别。配对四格表设计的特点是对同一样本的每一份检品分别用甲、乙两种方法处理，观察其阳性与阴性例数。以推断两种处理的结果有无差别。,配对四格表资料结果的四种情况,两法均为阳性(a)、两法均为阴性(d)、甲为阳性乙为阴性(b)、甲为阴性乙为阳性(c)。a、d为两法结果相同部分；b、c为结果不同部分。,这样的资料称为配对四格表，其形式与普通四格表类似，但内容及检验方法却不一样。,配对设计的两个

11、率的比较配对2检验。两种方法若没有差别，则总体B=C。样本常表现为bc，是由于抽样误差的存在，还是两种方法确有差别，必须进行假设检验。 a和d两个格子在比较有无差异时不起作用，而配对2检验只检验结果不一致的对子数b和c之间的差别来反映两种方法的差异。,配对2检验计算公式的应用条件,1、当b+c40时，用非校正公式计算检验统计量： 2、当20b+c40 时，用连续性校正公式来计算检验统计量： 3、当b+c20时，用确切概率法计算。,例1、某研究室用甲、乙两种血清学方法检查410例确诊的鼻咽癌患者，得结果如下表，问两种方法检出率有无不同？,例2、用两种检验方法对某食品作沙门氏菌检验，结果如下表，

12、试比较两种方法的阳性结果是否有差别。,注意点,资料判断普通四格表资料完全随机设计配对四格表资料配对设计,第八节行列表资料的2检验,对于单变量的计数资料，均可通过行列表形式表达，其基本数据有R行C列，简称RC表。四格表是最简单的一种RC表，即22表。 RC表资料卡方检验可用于多个样本率的比较、多个样本构成比的比较等等。,RC表2检验的通式,式中，A为第R行第C列对应的实际频数，nR为第R行的行合计，nC为第C列的列合计，n为总样本含量。该公式同样适用于四格表资料，等价于：,一、多个样本率的比较,如果是多个样本率进行比较时，其基本数据有R行2列，构成R2表，用以表述R个样本率的基本数据。

13、 R2表的2检验用于推断R个样本率各自所代表的总体率是否相等。,例1、某地调查了19951998四个年度中小学女生的贫血状况，见下表，问各年度间学生贫血率有无差别？,例2、将133例尿路感染患者随机分成3组，第1组44例，接受甲方法治疗；第2组45例，接受乙方法治疗；第3组44例，接受丙方法治疗。一个疗程后，结果如下表，问3种治疗方法的尿培养阴转率有无差别？,Attention:,和方差分析一样，前面例子的结论只能表明总的来说各组的总体率是有差别的，但不能认为任意两个组均有差别。需通过进一步作多个率的两两比较，来明确究竟是哪些组别之间有差别。,二、多个率的多重比较,当多个样本率比较的2检验，

14、结论为拒绝H0时，只能认为各总体率之间总的说来有差别，但不能说明它们彼此间都有差别，或某两者间有差别。若要进一步比较哪些率之间有差别，应进行多重比较。率的多重比较的原理多借鉴于均数的多重比较，方法较多（如Scheff可信区间法、 2分割法等等）。,Scheff可信区间法,通过构建要比较的两样本率之差的可信区间来推断组间有无差异。两率之差的100 (1-)%可信区间按下式计算： pA和pB为两个比较组的样本率；nA和nB为两个比较组的样本含量；k为所有的组数。,例、某地调查了19951998四个年度中小学女生的贫血状况，见下表，问各年度间学生贫血率有无差别？,已知：2=281.6263，P

15、0.005，该地四个年份中小学女生贫血检出率总的说来有差别，需用Scheff可信区间法进一步多重比较。按两率之差的可信区间计算公式来计算各可信区间，如98与97两年间学生贫血检出率之差的95%可信区间之计算如下：（-0.0122,0.0364）,当可信区间可信区间包含0时，则认为两组之间没有差别；而当可信区间不包含0时，则认为两组之间有差别。多重比较的结论为：除97、98两年间学生贫血检出率无差异外，其余各年份间均有差异。,三、多个样本构成比的比较,对构成比检验的目的是推断各样本分别代表的总体构成比是否相同。其2检验的基本思想：假设各样本所代表的总体构成比相同，均等于合计的构成比，据此，可算得每个格子的理论频数。如果检验假设是真实的，则每一格子的理论频数与实际频数一般均不会相差很大，即2值一般不会很大。若根据样本信息算得一个很大的2值，则有理由怀疑H0的成立，从而拒绝原先假设。,例1、某市对城、郊区小学三四年级学生营养状况进行了抽样调查，资料如下表。试考察该地城、郊儿童营养状况的构成比有无差别？,例2、试就下表的数据，考察美国、挪威、中国三种不同国籍的人各种血型所占比重是否相同？,Thanks!,

展开阅读全文