有关卡方检验的相关问题

上传人:博****1 文档编号:467885889 上传时间:2023-02-13 格式:DOCX 页数:5 大小:132.14KB
返回 下载 相关 举报
有关卡方检验的相关问题_第1页
第1页 / 共5页
有关卡方检验的相关问题_第2页
第2页 / 共5页
有关卡方检验的相关问题_第3页
第3页 / 共5页
有关卡方检验的相关问题_第4页
第4页 / 共5页
有关卡方检验的相关问题_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《有关卡方检验的相关问题》由会员分享,可在线阅读,更多相关《有关卡方检验的相关问题(5页珍藏版)》请在金锄头文库上搜索。

1、10121416冊乎回射保旻四格表卡方检验2*2列联表又称为四格表,该表的自由度为(2-1)*(2-1)=1。因为频数属于离散型数据,而 卡方分布属于连续型概率分布,因此卡方检验中用的卡方统计量只能说是近似服从卡方分 布,根据下方的卡方分布曲线,可以知道当自由度小于2时,卡方分布曲线呈现L 型,与其 它自由度的卡方分布曲线有很大差异,因此四格表的卡方检验需要单独拿出来讲,其分析结 果与其它类型(R*2、2*C、R*C)的卡方检验有明显不同。用SPSS输出一个四格表的卡方检验结果,可以发现,与其它类型的卡方检验相比,一它 的分析结果多了两个:连续型修正和Fisher确切概率。Pearson卡方值

2、就是用上一篇介绍的 卡方统计量计算的卡方值,而连续性修正和Fisher确切概率检验则需要根据表格内的频数情 况进行选择。假设总频数为n,单元格内的期望频数为E,那么选择规则如下:#当n大于等于40,且E大于5时,看Pearson卡方值即可;#当 n 大于等于 40,且 E 小于 5 且大于 1 时,选择连续性修正值;#当 n 小于 40,或 E 小于 1 时,选择 Fisher 确切概率检验结果;以上这三个检验结果之间的区别和联系是什么呢?请看下面的内容。Pearson 卡方卡方检验最基本的就是Pearson卡方,它的计算公式大家都非常熟悉:代表观测频数:此代表縣望频数:当总频数n大于等于40

3、,且所有单元格内的期望频数E都大于等于5时,2*2四格表的卡方 检验结果直接选择Pearson卡方值作为检验结果即可。但是,如果最终的Pearson卡方检验 的检验概率值p与显著性水平a(01、005、001)非常接近时,应该选择Fisher精确检验 值作为检验结果。连续性修正对于总频数n=40,但单元格中有期望频数1E5时,2*2四格表的卡方检验结果应该选择 连续型修正的结果,进行修正的原因上面已经解释,这是由卡方检验原理及卡方分布性质决 定的。连续型修正公式如下:当然,这种频数情况也可以直接选择Fisher精确检验结果作为最终结果。Fisher精确检验当2*2四格表中,有单元格的期望频数E

4、1,或总频数*40时,直接用Pearson卡方值作为 检验结果就不够准确和灵敏了。【原因其实很好理解,样本总频数n小于40,频数分布结 果有很大的可能性不具有代表性;单元格内的期望频数小于1,这有可能是由于样本频数数 据不够多而导致的小概率事件,并没有反应总体的频数分布情况。】Fisher精确检验能够解决上面这个问题。Fisher精确检验的理论分布不是卡方分布,而 是超几何分布(可以到统计基础导航页找到相应文章回顾),是一种直接计算事件发生概率 的检验方法。Fisher精确检验的分析逻辑是在四格表周边合计频数不变的条件下,利用超几 何分布概率公式直接计算比实际频数分布情况更为极端情形发生的概率

5、,下面用一个生活案 例来说明 Fisher 精确检验的分析逻辑和过程。为了解某新药联合常规药物治疗疾病的效果,将28例情况相似的患者随机分成两组: 实验组采用新药+常规药物的治疗方案;对照组仅采用常规药物治疗;治疗 10天后,根据疗 效对 28 名患者进行分组,数据整理如下表:有效无敗合计有效率实验组12(11)2(3148 b 71%10(11)4(3)1471.43%台计222870.57%可以发现,总频数只有28,而期望频数(括号内数据)小于5的单元格有两个,应该用Fisher 精确检验来考察实验组和对照组在有效率上是否有显著性差异。因为考察的是比实际频数分布更极端的情况,所以只对“无效

6、”下方的两个单元格频数进行 变化。在保持行和列合计频数不变的条件下,可以列出上面七种频数分布情况。用超几何分 布的公式计算每种情况的发生概率,以前4种情况为例介绍结算过程:(忽略不计) 将所有7种情况的概率相加,得到Fisher精确检验的双侧检验的概率值:卩=円 + 出+ & + 片击凫 + 巴 + 內=0.0080 + 4- G.0080 = 0.6484如果是单侧检验,检验的目的是证明实验组比对照组的有效率更好,那么只需将实验组好于 对照组的情况概率相加,其概率值为:P =巴 4兔 + 眄=0.2418 + 0.0744 + 0.0080 = 0.3242无论是双侧还是单侧概率,Fishe

7、r精确检验的概率值都大于0.05,可以说明实验组和对照 组的有效率是不一致的,且实验组的有效率优于对照组。下面,我们用卡方检验的基本公式和连续性修正公式对上述案例的频数数据进行计算,计算 出上面案例的 Pearson 卡方值和连续性修正值斗(12- H)2(10-II)2(2 - 3)2(4-3尸-+ + + = 0.848S112_ y (|0 - 0.S)尤连绫型修正乙i=l(112-111-0.5)11+(|4-3|-0.5)02121+ (|10 一 11| 一 0.5严 * (|2 - 3| - 0.5)11案例分析将上面案例的数据输入到SPSS软件中计算,比较软件计算结果和手动计算

8、结果,看看两者 是否一致,选择菜单【分析】 -【描述统计】 -【交叉表】,将数据分组变量选为行变量,将疗效变量选为列变量,点击【统计】按钮,将卡方选中结果解释:下表是 SPSS 的卡方检验结果。可以发现,皮尔逊卡方值、连续性修正值和 Fisher 精确检验 结果与上方手动计算的结果完全相同。可以发现三者的显著性都大于0.05,说明实验组和 对照组的治疗效果是没有显著性差异的。值卡方检验精碉显晉性 (WD犒确显醤性(单測)自由度莘迸显疥性1戍;只逊卡方,848a1.3571连谢临.1?.2121.645IL燃.B621.353费希尔精确桂匏.648.324 线性杲耽.8181.36628a. 2

9、个单元格(50.0%)的期望计地小于5,潮望计数为3.00 -知乎胡岳罡A仅针对2赵表进行计算由此可见,多数情况下,皮尔逊卡方、连续性修正和Fisher精确检验的结果是相同的,这 样的情况没有问题。如果三者的最终检验结果不同,那么应该根据上面介绍的选择条件选 择合适的检验结果作为最终结果。本案例中,因为总频数小于 40,而且有两个单元格的期 望频数小于5,所以应该以Fisher精确检验的结果为准。两定类变量的R*C行列表两个定类型变量,水平数都大于2,那么对它们进行卡方检验的目的往往是两个分类型变量 的相关性分析,以及它们之间的相关强度如何。血型分类最常见的ABO血型系统”,除此 之外,还有现

10、在比较规范的“RH血型系统”,最后就是“MN血型系统”。现在对某地的5801 人进行血型检验,结果如下表,看看两种血型系统之间是否有相关性,如下。血型M忖MN合计04314909021823A3884108001598B4955879502032AB13717932广弹谐计中prp合计1451166626845801单个定序变量的R*C行列表如果两个分类变量中,只有一个是存在等级次序关系的定序变量,那么称这种情况为单个定 序型变量的 R*C 卡方检验。分两种情况。如果定序型变量用作分组变量,那么卡方检验的目的就是分析不同分组之间构成比是否存 在显著性差异,此时直接使用卡方检验基本公式即可定序型

11、变量为指标变量,而定类型变量用于分组,那么应该用秩和检验更为合适。例如下 面这个案例,不同的药物类型用于分组,而不同的疗效等级用作指标。两个定序变量的R*C行列表这个情况的卡方检验,根据研究目的不同,两个定序变量的R*C列联表数据应该釆用不同 的分析方法。如果研究的是不同年龄段的眼球晶状体浑浊度是否存在差异,应该采用秩和检验。如果分析的是年龄与浑浊度之间是否有相关性,那么应该使用皮尔森Pearson、肯达尔 或斯皮尔曼(Spearman)相关分析,也就是将这些数据作为定距型或定序型数据处理。 如果分析的目的是两个定序型变量间是否存在线性相关趋势,那么应该使用线性趋势检 验。这部分内容将在后面推

12、送。总结一下2*2四格表,因为其特殊的结构和卡方分布的性质,所以SPSS的检验结果中会增加连续性 修正和Fisher精确检验这两个校正项,大家需要根据实际数据的频数分布情况对它们进行 选择。如果皮尔逊卡方、连续性修正和Fisher精确检验的结果一致,那么选择哪个结果都 可以。但是,如果三种检验结果不同,那么需要按照前面介绍的条件进行选择,否则会得到 错误的分析结论。对于四格表数据,如果分析因子(例如不同疗法)对事件(例如不同效 果)的相关性,可以使用优势比OR值表示因子对事件的影响程度。如果在 2*2 四格表卡方检验中,其中一个分类变量是分组变量,另一个分类变量的两个水平 为互斥水平(有效和无

13、效、阳性和阴性),那么可以计算两个组的优势比OR值,.实验组比值 12/2.OR = 2.4对照组比值OR值大于说明新疗法确糞有效卡方检验适用于分类变量的频数分析。对于包含两个水平的两分类变量(例如男女), 因为不涉及类别递增或递减信息,所以定类型和定序型的变量的卡方检验过稈基本类似,这 也是草堂君将2*2四格表的内容单独拿出来讲的原因。对于多分类变量的卡方检验,区分到 底是定类型分类变量还是定序型分类变量是非常必要的,因为定序型分类变量(例如:大一、 大二、大三和大四)包含了水平间的递增或递减信息,如果依旧按照传统的卡方检验进行 这部分递进信息就会丧失,对于分析者来说是非常可惜的。因此,多分

14、类变量的卡方检验, 需要区分的情况是更多更复杂的。卡方检验根据涉及变量的不同,可以分为单个分类变量的 拟合优度检验和两个分类变量的卡方检验。拟合优度检验主要用于分析某个分类变量的频 数分布是否服从某种概率分布形态;两个分类变量的卡方检验,根据分析目的的不同可以 分为比率差异检验和构成比差异检验等等。下面介绍的就是两个多分类变量的卡方检验, 称为行列表卡方检验,注意与2*2四格表卡方检验区分开来。非参数方法:卡方检验的运用非参数方法不是关于总体参数的估计和假设,而是通过样本信息来检验未知总体是否为某一 种分布(正态分布,均匀分布或任意分布)。非参数方法原理非参数方法是通过对比样本的频数与期望频数(目标分布的频数)的差距来判断抽取样本的 总体分布是否为目标分布。非参数方法主要有两种:卡方检验和秩次检验。在非参数方法:卡方检验的运用中已经介绍卡方检验的原理:通过卡方统计量来对比样 本频率分布与某已知分布的频率分布,检验两者差异情况,决定是否接受样本分布等于已知 分布。卡方分布能够用于各种分布的检验

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号