社会统计学张彦第十三章节卡方检验与方差分析

上传人:E**** 文档编号:91091663 上传时间:2019-06-21 格式:PPT 页数:62 大小:2.07MB
返回 下载 相关 举报
社会统计学张彦第十三章节卡方检验与方差分析_第1页
第1页 / 共62页
社会统计学张彦第十三章节卡方检验与方差分析_第2页
第2页 / 共62页
社会统计学张彦第十三章节卡方检验与方差分析_第3页
第3页 / 共62页
社会统计学张彦第十三章节卡方检验与方差分析_第4页
第4页 / 共62页
社会统计学张彦第十三章节卡方检验与方差分析_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《社会统计学张彦第十三章节卡方检验与方差分析》由会员分享,可在线阅读,更多相关《社会统计学张彦第十三章节卡方检验与方差分析(62页珍藏版)》请在金锄头文库上搜索。

1、第十三章 检验与方差分析,我们前面已经比较系统地讨论了双样本的参数和非参数检验的问题。现在,我们希望利用一般的方法来检验三个以上样本的差异, 检验法和方差分析法就是解决这方面问题的。 检验法可以对拟合优度和独立性等进行检验,方差分析法则可以对多个总体均值是否相等进行检验。后者由于通过各组样本资料之间的方差和组内方差的比较来建立服从F分布的检验统计量,所以又称F检验。,第一节:拟合优度检验 第二节:无关联性检验 第三节:方差分析 第四节:回归方程与相关系数的检验,第一节 拟合优度检验,运用Z检验、t检验等讨论假设检验的问题,一般要求总体服从正态分布,或者在大样本条件下可以利用渐近正态分布理论来描

2、述抽样分布。也就是说,我们都要直接或间接地假定对象总体具有已知的分布形式,然后对总体的未知参数进行假设检验。如果不知道总体的分布形式,就无法运用t检验法等对总体参数进行假设检验。于是,这里有一个前面留下来的尚未讨论的问题很重要,就是怎样检定总体是否具有正态或其他分布形式?拟合优度检验正是就这一问题而言的检验方法。,第十一章最后一节,我们将累计频数检验用于经验分布与理论分布的比较,实际已经提供了拟合优度检验的一种方 法。 拟合优度检验与累计频数拟合优度检验相对应,在 评估从经验上得到的频数和在一组特定的理论假设下期望得到的频数之间是否存在显著差异时,是一种更普遍的检验方法。 现在我们再来看看第七

3、章提到的著名的孟德尔豌豆试验。根据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出现分化,红花植株与白花植株的数目应为31。但由于随机性,观察结果与31理论值总有些差距。因此有必要去考察某一大小的差距是否已构成否定3l理论的充分根据。这正是我们所讨论的拟合优度检验的问题。解决这类问题的工具,是卡皮尔逊在1900年发表的一篇文章中引进的所谓 检验法。,1问题的导出,首先把问题表述成一般模式。设一总体包含c种可区别的个体。根据某种理论或纯粹的假设,第i种个体出现的概率应为某个已知的数Pi(i1, 2,c),有Pi0, 1。这一组概率(P1 ,P3 ,Pc)就构成 了我们的理论分布。现在在该总体中随机

4、地抽取一个容量为n的样本,发现其中第I 种个体的数目为fi (i1,2,c),并有 n。我们 要据此检验理论分布。 用概率论的语言可以这样说,设对象总体中随机变量X有c种取值。当X的取值是xi时,按零假设,其总体分布等于理论分布,即 P( )Pi (i1,2,c) 例如,就孟德尔的31理论来说,c2,P(x1)3/4, P(x2)1/4。现在从该总体中随机地抽取一个容量为n的样本,发现其中xi(i1,2,c)出现的次数为fi(i1,2,c),并有 n。知道了频数也就知 道了频率,即: 出现的频率为 ,并有 1。 现在我们就是要据此经验分布来检验总体分布等于理论分布的零假设。,2拟合优度检验(比

5、率拟合检验),拟合优度检验如何进行?,关键是确定合适的检验统计量以及该统计量所服从的概率分布。这里不可避免地要引进某种人为因素,即人们设计出下面这样的综合性可比指标:,其中k1,k2,kc是适当选取的常数。仔细观察不难 发现,L值大,意味着经验分布与理论分布偏离大;L值小,意味着经验分布与理论分布偏离小。当在某个选定的水平上,经验分布显著偏离理论分布,那么对象总体具有某种分布形式的零假设便被否定。,结论:,用 作为检定Ho成立的检验统计量,理论证明,当n足够大 时,该统计量 服从 分布,它是一种具有已知的并制成表的概率 分布,因此对给定的显著性水平,可求得临界值 ,与 比 较,进而作出检验结论

6、。 显而易见,理论频数fe与观测频数fo越接近, 统计值越小,经验 分布与理论分布拟合程度越好。反之,fe与fo差距越大, 值越 大,经验分布与理论分布拟合程度越差,拟合优度检验由此得 名。,例 孟德尔遗传定律表明:在纯种红花豌豆与白花豌豆杂交后所生的子二代豌豆中,红花对白花之比为3:1。某次种植试验的结果为;红花豌豆176株,白花豌豆48株。试在005的显著性水平上,对孟德尔定律作拟合优度检验。(参见下表),应用举例,3正态拟合检验,例 试对下表所给男青年身高分布的数据作正态拟合检验,选取005。,解,检验的另一个重要应用是对交互分类资料的独立性检验,即列联表检验。在上一章,我们曾多次提到过

7、性别与收入高低有无关联的问题,在实际中类似的问题很多。例如受教育程度与投票行为有无关联?吸烟与寿命长短有无关联?家庭小孩多少与收入多少有无关联?受教育时间长短与收入多少有无关联?血型与某种性格上的差异有无关联?等等,把这类问题上升到一般,就是在列联表的基础上考察变量X与Y有无关联。由于列联表一般是按品质标志把两个变量的频数进行交互分类的,所以: 检验法用于对交互分类资料的独立性检验,有其它方法无法比拟的优点; 如何求得列联表中的理论频数就成了独立性检验的关键。,第二节 无关联性检验,1、独立性、理论频数及自由度,应用此式,不必计算理论频数,计算与 这个检验统计量相联系的自由度,算出 统计量之值

8、并定出其自由度后,就可以依前述的方法,在给定了显著性水平之后,来对X,Y属性无关联的零假设进行检验了。,应用举例,例 检验也适用于定类变量和定类变量的相关统计,即可以用它检定和系数是否显著。就下表所示资料,试以 检验检定性别与收入之间的相关程度是否显著(取0001)。,解,故拒绝H0,即认为总体上性别与收入高低之间不独立,有显著相关关系。,例 在某种流行病流行的时候,共有120个病人进行了治疗,其中40个病人按标准剂量服用某种新药,另有40个病人按标准剂量的2倍服用了这种新药,其余40个病人只按病状治疗(而不是按病因治疗),治疗结果按迅速痊愈、缓慢痊愈、未痊愈分为三类,最后交叉分类的情况列于下

9、表,试问这三种疗法之间有没有差别(取005)。,解 H0:这三种疗法之间没有差别 H1:这三种疗法之间有差别 由于005;自由度k(cl)(r l)224,查 分布表得临界值: 在零假设下,计算检验统计量,计算过程参见后表。 因此 ,故拒绝零假设,即三种疗法之间有显著差别。,第三节 方差分析,方差分析,是一种很重要的分析方法,它可以检验两个以上样本均值之差。方差分析是均值差检验的推广,一般用于处理自变量是一个(或多个)定类变量和因变量是一个定距变量之间的关系。方差分析所包含的假定与均值差检验所包含的假定差不多,例如正态分布、独立随机样本、等方差性等,但检验本身却很不相同。方差分析直接涉及的是方

10、差而不是均值和标准差。同时,比较也不取两种估计量之差,而是取两种估计量的比率。在两种估计量彼此独立的前提下,两种估计量之比率F具有已知的抽样分布,因而可进行很简单的检验。,1总变差及其分解,总变差 :在方差分析中记作SST,它表示 对于总均值 的偏差之平方和。即: SST 式中: ni是第i个样本的容量, n,为什么会形成总变差这个散布度呢? 一是三个样本可能不同,这使全部数据 有三个“中心”; 二是随机抽样误差的影响,使数据在每个中心附近有散布。,总变差分解,可以看出,总变差分解成两部分: 第一部分是各观测值 对其所属类别均值 的偏差的平方和,称为组内变差(Within-groups Sum

11、 of Squares),记作SSW。组内变差反映了数据围绕各“中心”的散布程度,即反映了 因随机波动所产生的变异,与自变量因素无关。换言之,SSW是自变量因素所没有解释的 的变异。因此,又称之为残差。 第二部分是组间平方和 (Between-groups Sum of Squares),记作SSB ,它涉及到诸类别均值 对总均值 的偏差,反映了前表中数据的c个“中心”的散布程度。,弄清了组间变差和组内变差,检验“A1A2A3”(也就是零假设123)的思路也就梳理出来了:关键是比较两种变差是否有显著差异。若第一种变差明显大于第二种变差,则认为家庭因素对孩子图书消费是有影响的;若第一种变差与第二

12、种变差之间无显著区别,则不能认为家庭因素对孩子图书消费有影响。但在统计学上,方差分析不取两者之差而取两者之比来进行这种比较。而且,方差分析不是直接用SSB/SSW作为检验统计量,而是用 可以解释的方差/不能解释的方差 作为检验统计量,即:,2关于自由度,组间平方和代表c个样本均值对总均值的偏差。也就是每个可看作为一个单位,c个可看作为c个单位,有c个自由度,求用去一个自由度。因而,与组间平方和相联系的自由度为c1。再看组内平方和,计算时每列失去一个自由度。因而,与组内平方和相联系的自由度为nc。最后看总平方和,计算总均值时失去一个自由度。因而,与总平方和相联系的自由度为nl。总的来看有:,nl

13、 (nc)+(c1),总自由度组内自由度 + 组间自由度,上式是在在零假设(H0:12c)之下,检验统计量Fo的计算公式。 理论证明:上式服从分子自由度为k1c1、分母自由度为k2(nc)的F分布。于是,给定显著性水平,我们就可以很方便地从F分布表中查到临界值F(c1,nc)。如果出现FoF的情况,我们将在这个显著性水平上拒绝零假设。在实际运用中,方差分析的结果常用一种称为“方差分析表”的标准形式的表格表示出来,其基本形式如表后所示。,为了简化检验统计量Fo的计算,有必要将SST 、SSW、SSB这三个定义式展开,其方法与分解总变差的方法相同。于是有:,3关于检验统计量Fo的计算,注意,由于总

14、变差等于另两个变差之和,所以三个变差中仅需求出两个变差。求出组内平方和比求另两个平方和繁琐得多,故通常我们都是从总平方和减去组间平方和来求组内平方和的。,例 试对下表中的资料,计算SST 、SSW、SSB ,并检验123的零假设(取005)。,解:据题意,n1n2n38,n1+ n2+ n324 组内自由度nc24321 组间自由度c1312 分别计算SST和SSB ,计算过程参见下表。,由于005,查F分布表得临界值 : F(c1,nc)F 0.05 (2,21)347119 故在0.05显著性水平上不否定零假设,即没有充分根据提出这三类家庭的孩子在图书消费方面有显著不同。,例研究某种商品销

15、量与品牌的关系,得下表资料,其中A1,A2,A3表示不同的品牌,数据表示销量。试以显著性水平10判断 品牌对该种商品的销量有无影响。,解 据题意,n1n1+ n2+ n32 + 4 +3 9 组内自由度nc936 组间自由度c1312 分别计算SST和SSB ,计算过程参见前表13.16。,于是得MSB 和 MSW MSBSSB(c1)6.89/23.45 MSW SSW(nc)30/65.00 再根据(1319)式求检验统计量Fo Fo 0.69 1 故在010显著性水平上不否定零假设,即不能判断不同品脾对该种商品的销量有显著影响。,4相关比率,当方差分析的检验呈显著性后,进一步讨论两变量间的相关程度是很自然的。方 差分析中相关程度的测定仍采用PRE法。当不知因变量Y 的取值与自变量X 的取值 A1,A2,A c有关时,最好的预测是以总均值 作为Y 的估计值。此时,估计所 犯的错误将等于SST E1SST

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号