八、卡方检验

上传人:灯火****19 文档编号:144141418 上传时间:2020-09-06 格式:PPT 页数:51 大小:365.50KB
返回 下载 相关 举报
八、卡方检验_第1页
第1页 / 共51页
八、卡方检验_第2页
第2页 / 共51页
八、卡方检验_第3页
第3页 / 共51页
八、卡方检验_第4页
第4页 / 共51页
八、卡方检验_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《八、卡方检验》由会员分享,可在线阅读,更多相关《八、卡方检验(51页珍藏版)》请在金锄头文库上搜索。

1、,卡方检验,卡方检验基础 拟合问题单个样本率与总体率的比较 相关问题两个样本率或构成比的比较 两分类变量间关联程度的度量 一致性检验与配对卡方检验 分层卡方检验 小结,内容提要,2检验是以2分布为基础的一种假设检验方法,主要用于分类变量,根据样本数据推断总体的分布与期望分布是否有显著差异,或推断两个分类变量是否相关或相互独立。其原假设为: H0:观察频数与期望频数没有差别,卡方检验基础,首先假设H0成立,计算出2值,它表示观察值与理论值之间的偏离程度。根据2分布,2统计量以及自由度可以确定在H0成立的情况下获得当前统计量及更极端情况的概率P。如果P很小,说明观察值和理论值偏离程度太大,应当拒绝

2、原假设,表示比较资料之间有显著性差异;否则就不能拒绝原假设,尚不能认为样本所代表的实际情况与理论假设有差别。,卡方检验基础,2检验的基本思想,2值的计算:,由英国统计学家Karl Pearson首次提出,故被称为Pearson 2 。,卡方检验基础,当n比较大时, 2 统计量近似服从k-1个自由度的2分布。在自由度固定时,每个2值与一个概率值(P 值)相对应,此概率值即为在H0成立的前提下,出现这样一个样本或偏离假设总体更远的样本的概率。如果P 值小于或等于显著性水准,则拒绝H0,接受H1,即观察频数与期望频数不一致。如果P 值大于显著性水准,则不拒绝H0,认为观察频数与期望频数无显著性差异。

3、P 值越小,说明H0假设正确的可能性越小;P 值越大,说明H0假设正确的可能性越大。,卡方检验基础卡方分布,卡方检验基础,利用单样本均值比较的t检验,可以检验样本所在总体的均值与已知值是否存在显著性差异,即样本均值与已知值的差异,是由于样本所在总体的均值和已知值确实有差别,还是由于随机抽样引起的差异。这是针对连续性变量而言,如果是分类变量,就不能使用进行均值比较的t检验,而应该使用进行率比较的卡方检验。,检验某个连续变量的分布是否与某种理论分布一致,如是否符合正态分布,Possion分布等 检验某个分类变量各类的出现概率是否等于指定概率 检验两个分类变量是否相互独立,如吸烟是否与呼吸道疾病有关

4、 检验控制某种或某几种分类变量因素的作用之后,另两个分类变量是否独立,如上例控制年龄、性别之后,吸烟是否与呼吸道疾病有关 检验两种方法的结果是否一致,如两种诊断方法对同一批人进行诊断,其诊断结果是否一致,卡方检验基础用途,例1 某公司经营多年,形成了一套成熟的企业文化和管理体系,例如根据多年的运营经验,经理层、监察员、办事员三种职务类别的比例大约在15:5:80为宜,这样运行效率最高。两年前公司原管理层集体退居二线,新任管理层上任后对公司进行了较大的变动,有员工担心这是否已经导致了职务类别比例的失调,影响到公司的高效运行。目前三种职务的人数比为84:27:363,如何用数据分析来解决此类问题呢

5、?(数据见employee data.sav),拟合问题样本率与已知总体率的比较,拟合问题样本率与已知总体率的比较,这是一个样本构成比与已知总体构成比进行比较的统计学问题,可以用卡方检验来解决。,拟合问题样本率与已知总体率的比较,注意,此处数值的排列顺序和数据文件中各类别的排列顺序应当相同,因为他们存在一一对应的关系。,拟合问题样本率与已知总体率的比较,分析结果,给出了样本中三个职务级别的观察频数、期望频数以及残差。,拟合问题样本率与已知总体率的比较,分析结果,此为单样本2检验的结果,2值为3.492,P0.174,故可认为观察频数和期望频数没有显著差别。,注意: 本例使用的数据是原始数据,一

6、个案例代表一个员工的情况。但如果数据是频数格式,即每一行代表一个水平,另外用一个频数变量代表该水平的频数。此时在分析时要首先告诉SPSS具体哪一个变量是频数变量。如何实现呢?利用数据准备中的Weight Cases即可。,拟合问题样本率与已知总体率的比较,例2 某妇女联合会向工会提出质疑,认为该公司在对女性员工的职位安排上存在歧视,因为该公司216名女性雇员中,只有10人为经理,其余206名为办事员;而258名男性雇员中,74名为经理。但是工会说,男女间职位类别比例的差异,只是一个随机误差,并不是真的存在性别歧视。哪种说法才是正确的呢?(数据见employee data.sav),相关问题两个

7、率或构成比的比较,相关问题两个率或构成比的比较,这是一个比较两个性别的职位构成比是否相同的统计学问题,要用Descriptive中的Crosstabs实现,与单个率的比较不同。,相关问题两个率或构成比的比较,分别指定行列变量到Row(s)和Columns中。,相关问题两个率或构成比的比较,相关问题两个率或构成比的比较,相关问题两个率或构成比的比较,分析结果,可见,性别和职位不独立,女性更容易成为办事员,而男性更容易得到经理和监察员的职位。,相关问题两个率或构成比的比较,需要注意的是,卡方检验仅仅告知使用者各类别的构成和分布是否相同,本例中的职务是无序分类变量,监察员和办事员不能比较大小顺序,因

8、此可以进行卡方检验。如果为有序分类变量的话,则卡方检验并不合适,而应用秩和检验。,连续性校正2检验: 仅适用于四格表资料,在n40,所有期望频数均大于1,只有1/5单元格的期望频数大于1小于5时; Fisher精确概率法: 在样本含量40,最小期望频数5时,结论与Pearson 2基本一致;,相关问题两个率或构成比的比较,几种卡方检验的比较:,两分类变量间关联程度的度量,卡方检验可以从定性的角度说明两个变量是否存在关联,当拒绝原假设时,在统计上有把握认为两个变量存在相关。但接下来的问题是,如果两变量之间存在相关性,它们之间的关联程度有多大?针对不同的变量类型,在SPSS中可以计算各种各样的相关

9、指标,而且Crosstabs过程也对此提供了完整的支持,此处只涉及两分类变量间关联程度的指标,更系统的相关程度指标见相关与回归一章。,两分类变量间关联程度的度量,相对危险度RR:是一个概率的比值,指试验组人群反应阳性概率与对照组人群反应阳性概率的比值。数值为1,表明试验因素与反应阳性无关联;小于1时,表明试验因素导致反应阳性的发生率降低;大于1时,表明试验因素导致反应阳性的发生率增加。 优势比OR:是一个比值的比,是反应阳性人群中试验因素有无的比例与反应阴性人群中试验因素有无的比例之比。 当关注的事件发生概率比较小时(0.1),优势比可作为相对危险度的近似。,两分类变量间关联程度的度量,例3

10、某公司实行数据库营销,其杂志销售部每个月向数据库中的人们发送征订邮件,但是回应率极低。经研究发现,报纸订阅(News)和邮件回应Response有相关性,该部门经理想了解报纸订阅回应者回邮件的概率是非订阅者的几倍。数据文件见demo.sav。,两分类变量间关联程度的度量,两分类变量间关联程度的度量,分别指定行列变量到Row(s)和Columns中。,选中可得到RR值,两分类变量间关联程度的度量,两分类变量间关联程度的度量,分析结果,这就是两变量的四格表。,两分类变量间关联程度的度量,分析结果,结果显示,报纸订阅者对于邮件的回应概率是非报纸订阅者的1.668倍,或者说无回应的概率是非报纸订阅者的

11、0.94倍。而OR值为1.774。,在Pearson 卡方检验中,对行变量和列变量的相关性作检验,其中行变量和列变量是一个事物的两个不同属性。 在实际中,还有一种列联表,其行变量和列变量反映的是一个事物的同一属性的相同水平,只是对该属性各水平的区分方法不同。其特征是:行的数目和列的数目总是相同的。如果希望检验这两种区分同一属性的方法给出的结果是否一致,则不应当使用Pearson 2检验,而应该采用Kappa一致性检验对两种方法一致程度进行评价。,一致性检验,一般认为, 当Kappa0.75时,表明两者一致性较好; 0.75Kappa 0.4时,表明一致性一般; Kappa0.4时,表明两者一致

12、性较差。,一致性检验,例4 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统性红斑狼疮患者血清中抗核抗体进行测定,结果见下表,问两种方法的检测结果有无差别?(数据见McNemar.sav),两种方法的检测结果,配对卡方检验,不能忘记哦!,配对卡方检验,在此选入频数变量即可进行下一步的分析。,配对卡方检验,配对卡方检验,配对卡方检验,选中可进行配对卡方检验,配对卡方检验,分析结果,配对卡方检验,分析结果,如果在statistics子对话框中勾选上Kappa复选框,则有以下结果:,注意: Kappa检验会利用列联表的全部信息,而McNemar 检验只会利用非主对角线单元格上的信息。因此,对于一

13、致性较好,即绝大多数数据都在主对角线的大样本列联表,McNemar检验可能会失去实用价值。,配对卡方检验,例5 某零售连锁店对3家分店的客户满意度进行了调查,现希望分析寻求帮助和性别之间有无联系。(数据见cmh.sav),分层卡方检验,分层卡方检验,选入分层变量store,分层卡方检验,进行分层卡方检验,分层卡方检验,首先给出的是层间差异的检验,结果显示,不同分店间,gender与contact的联系是相同的。,分析结果,分层卡方检验,分层卡方检验结果,即考虑了分层因素的影响以后,对gender与contact的检验结果,共给出CMH2检验和MH 2检验两种结果,前者是后者的改进,可见P 值均

14、小于0.05,即可认为性别与求助有关。,分析结果,分层卡方检验,结果显示,ORMH 值为0.636,表明去除了不同分店的混杂效应以后,和女性相比,男性顾客寻求帮助的优势比为0.636,或者说更不容易寻求帮助。,分析结果,1.卡方检验是以2 分布为基础的一种常用假设检验方法,常用作计数资料的显著性检验。 其基本思想是:首先假设观察频数与期望频数没有差别。而统计量2 值表示观察值与理论值之间的偏离程度。当n 比较大时,2 统计量近似服从k-1个自由度的2 分布。在自由度固定时,每个2 值与一个概率值相对应,此概率即为在H0假设成立的前提下,出现这样一个样本或更大差别样本的概率。如果P 值小于或等于

15、显著性水准,则应拒绝H0,接受H1。,小 结,2.关联程度的测量:卡方检验从定性的角度分析是否存在相关,而各种关联指标从定量的角度分析相关的程度大小。不同的指标适合不同类型的变量。 RR值是一个概率的比值,是指试验组人群反应阳性概率与对照组人群反应概率的比值。用于反映试验因素与反应阳性的关联程度。 OR值是比值的比。是反应阳性人群中试验因素有无的比例与反应阴性人群中试验因素有无的比例之比。在下列两个条件均满足时,可用于估计RR值:所关注的事件发生概率比较小(0.1),所设计的研究是病例对照研究。,小 结,3.Kappa一致性检验对两种方法结果的一致程度进行评价;配对检验则用于分析两种分类方法的分类结果是否有差异。,小 结,4.分层卡方检验是把研究对象分解成不同层次,按各层对象来进行行变量与列变量的独立性研究。可在去除分层因素下更准确地对行列变量的独立性进行研究。在SPSS中,Crosstab过程的Statistics子对话框中选中Cochrans and MantelHaenszel statistics会自动给出分层卡方检验的结果。,小 结,ByeBye!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 中学实验

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号