卡方检验应用－金锄头文库

资源描述

《卡方检验应用》由会员分享，可在线阅读，更多相关《卡方检验应用（10页珍藏版）》请在金锄头文库上搜索。

1、卡方检验应用第八章记数数据统计法卡方检验法知识引入在各个研究领域中，有些研究问题只能划分为不同性质的类别，各类别没有量的联系。例如，性别分男女，职业分为公务员、教师、工人、，教师职称又分为教授、副教授、。有时虽有量的关系，因研究需要将其按一定的标准分为不同的类别，例如，学习成绩、能力水平、态度等都是连续数据，只是研究者依一定标准将其划分为优良中差，喜欢与不喜欢等少数几个等级。对这些非连续等距性数据，要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用：拟合性检验和独立性检验。拟合性检验是用

2、于分析实际次数与理论次数是否相同，适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。在计数数据进行统计分析时要特别注意取样的代表性。我们知道，统计分析就是依据样本所提供的信息，正确推论总体的情况。在这一过程中，最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中，所搜集到的有些数据属于定性资料，它们常常是通过调查、访问或问卷获得，除了少数实验可以事先计划外，大部分收集数据的过程是难于控制的。例如，某研究者关于某项教育措施的问卷调查，由于有一部分教师和学生对该项措施存有意见，或对问卷本身有偏见，根本就不填写问卷。这

3、样该研究所能收回的问卷只能代表一部分观点，所以它是一个有偏样本，若据此对总体进行推论，就会产生一定的偏差，势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时，要特别小心谨慎，防止样本的偏倚性，只有具有代表性的样本才能作出正确的推论。第一节卡方拟合性检验一、卡方检验的一般问题卡方检验应用于计数数据的分析，对于总体的分布不作任何假设，因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明，实际观察次数与理论次数，又称期望次数）之差的平方再除以理论次数所得的统计量，近似服从卡方分布，可表示为：这是卡方检验的原始公式，其中当fe越大,近似得越好。显然

4、fo与fe相差越大，卡方值就越大；fo与fe相差越小，卡方值就越小；因此它能够用来表示fo与fe相差的程度。根据这个公式，可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。它主要应用于两种情况：卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题，这里的观测次数是根据样本数据得多的实计数，理论次数则是根据理论或经验得到的期望次数。这一类检验称为拟合性检验。拟合性检验的零假设是观测次数与理论次数之间无差异。其中理论次数的计算一般是根据某种理论，按一定的概率通过样本即实际观测次数来计算。这里所说的某种理论，可能是经验规

5、律，也可能是理论分布。确定理论次数是卡方检验的关键。拟合性检验自由度的确定与两个因素有关：一是分类的项数，二是在计算理论次数时，所用统计量或约束条件的个数，这两者之差即为自由度。由于一般情况下，计算理论次数时只用到“总数”这一统计量，所以自由度一般是分类的项数减1。但在对连续数据分布的配合度检验中，常常会用数据个数、平均数、标准差等统计量来计算理论次数，所以此时的自由度应从总分类项中减去更多的个数。按照检验中理论次数的定义不同，拟合性检验有以下集中应用。二、检验无差假设所谓无差假设，是指各项分类的实计数之间没有差异，也就是说各项分类之间的概率相等，因此理论次数完全按概率相等的条件来计算。

6、即任一项的理论次数都等于总数/分类项数。因此自由度也就等于分类项数减1。随机地将麻将色子抛掷300次，检验该色子的六个面是否均匀。结果1-6点向上的次数依次是，43，49，56，45，66，41。解：每个类的理论次数是 300/6 = 50，代入公式：因此，在0.05的显著性水平下，可以说这个色子的六面是均匀的。随机抽取60名高一学生，问他们文理要不要分科，回答赞成的39人，反对的21人，问对分科的意见是否有显著的差异。解：如果没有显著的差异，则赞成与反对的各占一半，因此是一个无差假设的检验，于是理论次数为60/2=30，代入公式：所以对于文理分科，学生们的态度是有显著的差异的。

7、三、检验假设分布的概率这里的假设分布可以是经验性的，也可以是某理论分布。公式中所需的理论次数则按照这里假设的分布进行计算。国际色觉障碍讨论会宣布，每12个男子中，有一个是先天性色盲。从某校抽取的132名男生中有4人是色盲，问该校男子色盲比率与上述比例是否有显著差异？解：按国际色觉障碍讨论会的统计结果，132人应该有132/12=11人是色盲，剩下的121人非色盲，代入公式有：因此，在0.05和显著性水平下，该校男子色盲比率与国际色觉障碍讨论会的统计结果有显著差异，显然根据比例可知该校的色盲率小于国际色觉障碍讨论会的统计结果。在英语四级考试中，某学生做对了80个四择一选择题中的28题，

8、现在要判断该生是否是完全凭猜测做题。解：假如该生完全凭猜测做题，那么平均而言每道题做对的可能性是1/4，因此80个题中平均而能做对80/4=20题，代入公式有：因此，该生可能会做一些题。四、连续变量分布的拟合性检验对于一组连续数据，经常需要对其次数分布究竟服从哪种理论分布进行探讨，这一方面的主要应用就是在前面经常所提到的总体正态性检验。首先要将测量数据整理成次数分布表和画出次分布图，并据此选择恰当的理论分布。这些理论分布是多种多样的，例如有正态分布、均匀分布等。然后根据选择的理论分布计算出理论次数，就可以计算卡方统计量并进行显著性检验了。若差异显著，说明所选择的理论分布不合适，可以再选

9、一个理论分布进行检验，直至完全拟合。当然有时也只需检验是否与某确定的理论分布相符，如正态性检验。对连续随机变量分布的吻合性检验，关键的步骤是计算理论次数与确定自由度。理论次数的计算是按所选理论分布规律，并利用观测数据的有关统计量来计算各分组理论次数。自由度则是用分组数减去计算理论次数时所用统计量的数目。这种拟合性检验计算较为繁琐，不做要求。五、小理论次数时的连续性校正卡方检验中，当某分类理论次数小于5时，卡方统计量不能很好地满足卡方分布，此时需要对卡方统计量进行校正，称为卡方的连续性校正，其公式如下：尽管采用此方法校正后，卡方统计量能较为接近卡方分布，不过我们仍然建议在实际中最好增大

10、样本的容量，尽量减少出现这种不大服从理论分布的情况。第二节独立性检验卡方检验还可以用于检验两个或两个以上因素之间是否相互影响的问题，这种检验称为独立性检验。例如要讨论血型与性格的关系，血型有A、B、AB、O四类，性格采用心理学上的A型性格来划分，即有A型和B型两种，每个人可能是它们之间交叉所形成的8种类型中的一种，那么倒底它们之间有不有关系，就可以用卡方独立性检验。卡方独立性检验用于检验两个或两个以上因素之间是否相互影响的问题。所谓独立，即无关联，互不影响，就意味着一个因素各个分类之间的比例关系，在另一个因素的各项分类下都是相同的，比如在血型与性格关系中，如果A型性格人群中各血型的比例

11、关系，与B型性格人群中各血型的比例关系相同，就可能说血型与性格相互独立，当然这里的“两者比例相同”在统计的意义下，应表述为“两比例差异不超过误差范围”，因为就算总体之间相互独立，收集到两个比例完全相同的样本的可能是很小很小的，甚至是不可能的。相反，若一个因素各个分类之间的比例关系，在另一个因素的各项分类下是不同的，则它们之间相关。假如A型性格中A型血的比例高于B型性格中A型血的比例，而且达到显著水平，那么就可以说血型与性格之间相关，不相互独立。卡方独立性检验的零假设是各因素之间相互独立。因此理论次数的计算也是基于这一假设，具体计算时，采用列联表的方式，后面将举例说明。某校对学生课外活动内容

12、进行调查，结果整理成下表，表中彩色格子里的数是原始数据的汇总数，括号内的数是理论次数，此外的是原始数据。课外活动内容(因素1) 性别(因素2) 体育 21(15.3) 6(11.7) 27 文娱 11(10.2) 7(7.8) 18 阅读 23(29.5) 29(22.5) 52 小计和(fx) 男生女生小计和(fy) 55 42 97 由于所有学生参加三项活动的比例是27:18:52，因此如果课外活动的选择与性别没有关系的话，男女生参加这三项活动的比例也应是这同一比例，而男女各自的人数可以计算，所以每格内的理论次数的计算方法如下：男生中参加体育活动的理论人数：5527/97=15.

13、3 参加文娱活动的理论人数：5518/97=10.2 参加阅读活动的理论人数：5552/97=29.5 女生中参加体育活动的理论人数：4227/97=11.7 参加文娱活动的理论人数：4218/97= 7.8 参加阅读活动的理论人数：4252/97=22.5 我们将行列的小计和分别用 fx 和 fy 来表示，总人数用 N 来表示时，上述计算理论次数的方法可以表示为： feij = fxi fyj/N 所以，卡方独立性检验的公式可以表示如下，其中最后一个式子比较便于计算，fxy 表示每格的原始数据。由于在计算理论次数时，用了按每个因素分类的小计和，和总和 N ，而总和又可由按每个因素分类的小

14、计和计算得来，因此若从总分类个数RC中减去 R+C，则将总和重复减去了，因此要补 1 个自由度回来，所以最终独立性检验的自由度表示为：上述例题最终计算得：或者：这两个公式的计算结果有一点点差异，这完全是计算误差即四舍五入引起的。 df = (3-1)(2-1) = 2，而20.05(2) = 5.99，所以在0.05的显著性水平下，拒绝零假设，即可以认为性别与课外活动内容有关联，或者说男女生在选择课外活动上存在显著的差异。四格表独立性检验对于两个都只作两项分类的因素，它们的数据整理成的是一个 22 的表格，一般称为四格表，对于四格表教材里给出了一个更简洁的公式：公式中，a、b、c、

15、d的规定要求是a和d必须呈对角线。该公式的含义非常明确，即当对角线单元格中的次数差异越大时，卡方检验越容易显著，自然也就意味着两变量间的关联越密切。掌握了一般的R*C表计算后，四格表计算相对简单地多。这里不再展开。注意，在独立性检验中，同样存在某格的理论次数小于等于 5 的问题，如同拟合性检验中一样，我们仍然建议在实际中最好增大样本的容量，尽量减少出现这种不大服从理论分布的情况。此外，在独立性检验中，若拒绝了零假设，即各因素之间有关联，则如同方差分析中仅判定了存在交互作用一样，只是一个总体的结果，并不能回答具体关联的形式的问题。如果各因素之间独立，则到此为止，若各因素间有关联，还应该作进一步的分析，具体搞清楚各变量的次数间是如何关联的。对此卡方检验有一些办法，但不如参数检验中那样严格。卡方独立性检验一般也仅限于两变量间的关联考察，对于多个名义型变量，往往采用分拆一个变量分别进行独立性检验的办法，然后试图整合多次检验的结果。这种做法就显得更牵强一些。品质相关卡方检验既然是用来解决变量间关联性的，则也可以构造和积差相关或等级相关系数一样的相关程度的度量，称为品质相关。常用的品质相关有以下几种： 1、相关系数相关只适用于四格表，它

展开阅读全文