卡方检验(11硕)课件

上传人:F****n 文档编号:88137348 上传时间:2019-04-19 格式:PPT 页数:96 大小:710KB
返回 下载 相关 举报
卡方检验(11硕)课件_第1页
第1页 / 共96页
卡方检验(11硕)课件_第2页
第2页 / 共96页
卡方检验(11硕)课件_第3页
第3页 / 共96页
卡方检验(11硕)课件_第4页
第4页 / 共96页
卡方检验(11硕)课件_第5页
第5页 / 共96页
点击查看更多>>
资源描述

《卡方检验(11硕)课件》由会员分享,可在线阅读,更多相关《卡方检验(11硕)课件(96页珍藏版)》请在金锄头文库上搜索。

1、1,检验 (Chi-square Test),2,2检验(Chi-square test)是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,可用于资料分布的拟合优度检验、两个或多个率或构成比间的比较等等。,3,4,5,6,目 的: 推断两个总体率或构成比之间有无差别 多个总体率或构成比之间有无差别 多个样本率的多重比较 两个分类变量之间有无关联性 频数分布拟合优度的检验。 检验统计量: 应用:计数资料,8,第一节 四格表资料的 检验,9,目的:推断两个总体率(构成比)是 否有差别 要求:两样本的两分类个体数排列成四 格表资

2、料,10,1基本思想,例7-1 某院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松(对照组)降低颅内压的疗效。将200例颅内压增高症患者随机分为两组,结果见表7-1。问两组降低颅内压的总体有效率有无差别?,11,表7-1 两组降低颅内压有效率的比较,12,本例资料经整理成图7-2形式,即有两个处理组,每个处理组的例数由发生数和未发生数两部分组成。表内有 四个基本数据,其余数据均由此四个数据推算出来的,故称四格表资料。,13,图7-2 四格表资料的基本形式,14,基本思想:可通过 检验的基本公式来理解。,式中,A为实际频数(actual frequency), T为理论频数(theoretic

3、al frequency)。,式中,TRC 为第R 行C 列的理论频数 nR 为相应的行合计 nC 为相应的列合计,T为在无效假设前提下(两总体率相等,等于合计率)推算的预期值。,15,如上例,无效假设是试验组与对照组降低颅内压的总体有效率相等,均等于合计的有效率87%。那么在这个前提下,理论上,试验组的104例颅内压增高症患者中有效者应为104(174/200)=90.48,无效者为104(26/200)=13.52;同理,对照组的96例颅内压增高症患者中有效者应为96(174/200)=83.52,无效者为96(26/200)=12.48。,16,检验统计量 值反映了实际频数与理论频数的吻

4、合程度。 若检验假设H0:1=2成立,四个格子的实际频数A 与理论频数T 相差不应该很大,即统计量不应该很大。如果 值很大,即相对应的P 值很小,若 ,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即12 。,17,由公式(7-1)还可以看出: 值的大小还取决于 个数的多少(严格地说是自由度的大小)。由于各 皆是正值,故自由度愈大, 值也会愈大;所以只有考虑了自由度的影响, 值才能正确地反映实际频数A和理论频数T 的吻合程度。 检验的自由度取决于可以自由取值的格子数目,而不是样本含量n。四格表资料只有两行两列,v=1,即在周边合计

5、数固定的情况下,4个基本数据当中只有一个可以自由取值。,18,(1) 分布是一种连续型分布:按分布的密度函数可给出自由度=1,2,3,的一簇分布曲线 (图7-1)。 (2) 分布的一个基本性质是可加性: 如果两个独立的随机变量X1和X2分别服从自由度1和2的分布,即 ,那么它们的和( X1+X2 )服从自由度( 1+2 )的 分布,即 。,2 分布,19,(3) 界值:当v确定后, 分布曲线下右侧尾部的面积为a时,横轴上相应的 值,记作 (见附表8)。 值愈大,p值愈小;反之, 值愈小,p值愈大。,20,21,(1) 建立检验假设,确定检验水平。 H0:1=2 即试验组与对照组降低颅内压的总体

6、有效率 相等 H1:12 即试验组与对照组降低颅内压的总体有效率 不相等 =0.05,3. 假设检验步骤,22,(2)求检验统计量值,23,以v=1查附表8的 界值表得P0.005。按a=0.05检验水准拒绝H0,接受H1,可以认为两组降低颅内压总体有效率不等,即可认为异梨醇口服液降低颅内压的有效率高于氢氯噻嗪+地塞米松的有效率。,24,二、四格表资料检验的专用公式,25,分布是一连续型分布,而四格表资料属离散型分布,由此计算得的统计量 的抽样分布亦呈离散性质。为改善 统计量 分布的连续性,则需行连续性校正。,26,三、四格表资料检验的校正公式,27,四格表资料 检验公式选择条件:,,专用公式

7、; ,校正公式; ,直接计算概率。,28,例7-2 某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将78例脑血管疾病患者随机分为两组,结果见表7-2。问两种药物治疗脑血管疾病的有效率是否相等?,29,表7-2 两种药物治疗脑血管疾病有效率的比较,30,本例 ,故用四格表资料 检验的校正公式,v=1 ,查 界值表得0.05P0.10。按a=0.05检验水准不拒绝 H0,尚不能认为两种药物治疗脑血管疾病的有效率不等。,31,本资料若不校正时, 结论与之相反。,32,第二节 配对四格表资料的 检验,33,与计量资料推断两总体均数是否有差别有成组设计和配对设计一样,计数资料推断两个总体率(构成

8、比)是否有差别也有成组设计和配对设计,即四格表资料和配对四格表资料。,34,例7-3 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定,结果见表7-3。问两种方法的检测结果有无差别?,35,表7-3 两种方法的检测结果,36,上述配对设计实验中,就每个对子而言,两种处理的结果不外乎有四种可能:,两种检测方法皆为阳性数(a); 两种检测方法皆为阴性数(d); 免疫荧光法为阳性,乳胶凝集法为 阴性数(b); 乳胶凝集法为阳性,免疫荧光法为 阴性数(c)。,37,其中,a, d 为两法观察结果一致的两种情况, b, c为两法观察结果不一致的两种情况。,检验统计量

9、为,38,注意:,本法一般用于样本含量不太大的资料。因为它仅考虑了两法结果不一致的两种情况(b, c),而未考虑样本含量n和两法结果一致的两种情况(a, d)。所以,当n很大且a与d的数值很大(即两法的一致率较高),b与c的数值相对较小时,即便是检验结果有统计学意义,其实际意义往往也不大。,39,40,第三节 四格表资料的Fisher确切概率法,41,条件: n40,或T1, 或Pa时, 理论依据:超几何分布 (非 检验 的范畴),42,例7-4 某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果,将33例HBsAg阳性孕妇随机分为预防注射组和非预防组,结果见表7-4。问两组新生儿的HBV

10、总体感染率有无差别?,43,表7-4 两组新生儿HBV感染率的比较,44,一、基本思想,在四格表周边合计数固定不变的条件下,计算表内4个实际频数变动时的各种组合之概率 ;再按检验假设用单侧或双侧的累计概率 ,依据所取的检验水准 a 做出推断。,45,1各组合概率Pi的计算 在四格表周边合计数不变的条件下,表内4个实际频数 a,b,c,d 变动的组合数共有“周边合计中最小数+1”个。如例7-4,表内4个实际频数变动的组合数共有9+1=10个,依次为:,46,各组合的概率Pi服从超几何分布,其和为1。,计算公式为,47,2累计概率的计算 ( 单、双侧检验不同),设现有样本四格表中的交叉积差a*d*

11、-b*c*D*,其概率为P *,其余组合四格表的交叉积差记为Di,概率记为Pi。,48,(1)单侧检验 若现有样本四格表中D*0,须计算满足DiD*和PiP*条件的各种组合下四格表的累计概率。若D*0,则计算满足DiD*和PiP*条件的各种组合下四格表的累计概率。,49,(2)双侧检验 计算满足 和PiP*条件的各种组合下四格表的累计概率。若遇到a+bc+d或a+cb+d时,四格表内各种组合的序列呈对称分布,此时按单侧检验规定条件只计算单侧累计概率,然后乘以2即得双侧累计概率。,50,二、检验步骤(本例n3340),1计算现有样本四格表的D *和P *及各组 合下四格表的Di,见表7-5。本例

12、 D*=-66, P*=0.08762728。 2计算满足 条件的各组合下四格 表的概率Pi。,51,3计算同时满足 和PiP*条件的四格表的累计概率。本例P1、P2、P3、P4、P5和P10满足条件,累计概率为 PP1+P2+P3+P4+P5+P100.12100.05 按a=0.05检验水准不拒绝H0,尚不能认为预防注射与非预防的新生儿HBV的感染率不等。,52,表7-5 例7-4的 Fisher确切概率法计算表,53,例7-5 某单位研究胆囊腺癌、腺瘤的P53基因表达,对同期手术切除的胆囊腺癌、腺瘤标本各10份,用免疫组化法检测P53基因,资料见表7-6。问胆囊腺癌和胆囊腺瘤的P53基因

13、表达阳性率有无差别?,54,表7-6 胆囊腺癌与胆囊腺瘤P53基因表达阳性率的比较,55,本例 a+b+c+d=10,由表7-7可看出,四格表内各种组合以i=4和i=5的组合为中心呈对称分布。,表7-7 例7-5的Fisher确切概率法计算表,* 为现有样本,56,(1)计算现有样本的D*和P*及各组合下四格表的Di。 本例D*=50,P*=0.02708978。 (2)计算满足Di50条件的各组合下四格表的概率Pi。 (3)计算同时满足Di50和PiP*条件的四格表的累 计概率。本例为P7和P8, (4)计算双侧累计概率P。 P0.05,按=0.05检验水准不拒绝H0,尚不能认为胆囊腺癌与胆

14、囊腺瘤的P53基因表达阳性率不等。,57,注意:,例7-5中,若专业上有理由认为胆囊腺癌不会低于胆囊腺瘤的P53基因表达阳性率,则进行单侧检验,H0:p1p2,H1:p1p2,a0.05,由表7-7计算单侧概率PP7+P80.0286,0.01P0.05,单侧检验拒绝H0,接受H1,可以认为胆囊腺癌的P53基因表达阳性率高于胆囊腺瘤。,58,第四节 行列表资料的 检验,59,行列表资料,多个样本率比较时,有R行2列,称为R 2表; 两个样本的构成比比较时,有2行C列,称2C表; 多个样本的构成比比较,以及双向无序分类资料关联性检验时,有行列,称为R C表。,60,检验统计量,61,一、多个样本

15、率的比较,62,例7-6 某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效,资料见表7-8。问三种疗法的有效率有无差别? 表7-8 三种疗法有效率的比较,63,检验步骤:,H0:p1=p2=p3,即三种疗法有效率相等 H1:三种疗法有效率不全相等 a=0.05 查 界值表得P0.005。按a=0.05检验水准拒绝H0,接受H1,可以认为三种疗法治疗周围性面神经麻痹的有效率有差别。,64,二、样本构成比的比较,65,例7-7 某医师在研究血管紧张素I转化酶(ACE)基因I/D多态(分3型)与2型糖尿病肾病(DN)的关系时,将249例2型糖尿病患者按有无糖尿病肾病分为两组,资料见表7-9。问两组2型糖尿病患者的ACE基因型总体分布有无差别?,表7-9 DN组与无DN组2型糖尿病患者ACE基因型分布的比较,66,检验步骤,H0:两组总体构成比相同 H1:两组总体构成比不同 a0.05 查 界值表得0.01P0.025。按a=0.05检验水准 拒绝H0,接受H1,可认为DN与无DN的2型糖尿病 患者的ACE基因型分布不同。,67,三、双向无序分类资料的关联性检验 RC表中两个分类变量皆为无序分类变量的行列表资料,又称为双向无序RC表资料。,注意: 双向无序分类资料为两个或多个样本,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号