十三章检验与方差分析

上传人:壹****1 文档编号:592522973 上传时间:2024-09-21 格式:PPT 页数:62 大小:1.81MB
返回 下载 相关 举报
十三章检验与方差分析_第1页
第1页 / 共62页
十三章检验与方差分析_第2页
第2页 / 共62页
十三章检验与方差分析_第3页
第3页 / 共62页
十三章检验与方差分析_第4页
第4页 / 共62页
十三章检验与方差分析_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《十三章检验与方差分析》由会员分享,可在线阅读,更多相关《十三章检验与方差分析(62页珍藏版)》请在金锄头文库上搜索。

1、第十三章第十三章 检验与方差分析检验与方差分析 我们前面已经比较系统地讨论了双样本的参数和非参数检我们前面已经比较系统地讨论了双样本的参数和非参数检验的问题。现在,我们希望利用一般的方法来检验三个以上样验的问题。现在,我们希望利用一般的方法来检验三个以上样本的差异,本的差异, 检验法和方差分析法就是解决这方面问题的。检验法和方差分析法就是解决这方面问题的。 检检验法可以对拟合优度和独立性等进行检验,方差分析法则可以验法可以对拟合优度和独立性等进行检验,方差分析法则可以对多个总体均值是否相等进行检验。后者由于通过各组样本资对多个总体均值是否相等进行检验。后者由于通过各组样本资料之间的方差和组内方

2、差的比较来建立服从料之间的方差和组内方差的比较来建立服从F分布的检验统计分布的检验统计量,所以又称量,所以又称F检验。检验。第一节:拟合优度检验第一节:拟合优度检验第二节:无关联性检验第二节:无关联性检验第三节:方差分析第三节:方差分析第四节:回归方程与相关系数的检验第四节:回归方程与相关系数的检验第一节第一节 拟合优度检验拟合优度检验 运用运用Z检验、检验、t检验等讨论假设检验的问题,一般要求总体服从检验等讨论假设检验的问题,一般要求总体服从正态分布,或者在大样本条件下可以利用渐近正态分布理论来描述正态分布,或者在大样本条件下可以利用渐近正态分布理论来描述抽样分布。也就是说,我们都要直接或间

3、接地假定对象总体具有已抽样分布。也就是说,我们都要直接或间接地假定对象总体具有已知的分布形式,然后对总体的未知参数进行假设检验。如果不知道知的分布形式,然后对总体的未知参数进行假设检验。如果不知道总体的分布形式,就无法运用总体的分布形式,就无法运用t检验法等对总体参数进行假设检验。检验法等对总体参数进行假设检验。于是,这里有一个前面留下来的尚未讨论的问题很重要,就是怎样于是,这里有一个前面留下来的尚未讨论的问题很重要,就是怎样检定总体是否具有正态或其他分布形式?拟合优度检验正是就这一检定总体是否具有正态或其他分布形式?拟合优度检验正是就这一问题而言的检验方法。问题而言的检验方法。 n n 第十

4、一章最后一节,我们将累计频数检验用于经验分布与理第十一章最后一节,我们将累计频数检验用于经验分布与理第十一章最后一节,我们将累计频数检验用于经验分布与理第十一章最后一节,我们将累计频数检验用于经验分布与理论分布的比较,实际已经提供了拟合优度检验的一种方法。论分布的比较,实际已经提供了拟合优度检验的一种方法。论分布的比较,实际已经提供了拟合优度检验的一种方法。论分布的比较,实际已经提供了拟合优度检验的一种方法。 拟拟拟拟合优度检验与累计频数拟合优度检验相对应,在评估从经验上得合优度检验与累计频数拟合优度检验相对应,在评估从经验上得合优度检验与累计频数拟合优度检验相对应,在评估从经验上得合优度检验

5、与累计频数拟合优度检验相对应,在评估从经验上得到的频数和在一组特定的理论假设下期望得到的频数之间是否存到的频数和在一组特定的理论假设下期望得到的频数之间是否存到的频数和在一组特定的理论假设下期望得到的频数之间是否存到的频数和在一组特定的理论假设下期望得到的频数之间是否存在显著差异时,是一种更普遍的检验方法。在显著差异时,是一种更普遍的检验方法。在显著差异时,是一种更普遍的检验方法。在显著差异时,是一种更普遍的检验方法。n n 现在我们再来看看第七章提到的著名的孟德尔豌豆试验。根现在我们再来看看第七章提到的著名的孟德尔豌豆试验。根现在我们再来看看第七章提到的著名的孟德尔豌豆试验。根现在我们再来看

6、看第七章提到的著名的孟德尔豌豆试验。根据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出现分化,据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出现分化,据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出现分化,据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出现分化,红花植株与白花植株的数目应为红花植株与白花植株的数目应为红花植株与白花植株的数目应为红花植株与白花植株的数目应为3 3 1 1。但由于随机性。但由于随机性。但由于随机性。但由于随机性, ,观察结果与观察结果与观察结果与观察结果与3 3 1 1理论值总有些差距。因此有必要去考察某一大小的差距是否理论值总有些差距。因此有必要去考察某一大小的

7、差距是否理论值总有些差距。因此有必要去考察某一大小的差距是否理论值总有些差距。因此有必要去考察某一大小的差距是否已构成否定已构成否定已构成否定已构成否定3 3 l l理论的充分根据。这正是我们所讨论的拟合优度理论的充分根据。这正是我们所讨论的拟合优度理论的充分根据。这正是我们所讨论的拟合优度理论的充分根据。这正是我们所讨论的拟合优度检验的问题。解决这类问题的工具,是卡检验的问题。解决这类问题的工具,是卡检验的问题。解决这类问题的工具,是卡检验的问题。解决这类问题的工具,是卡 皮尔逊在皮尔逊在皮尔逊在皮尔逊在19001900年发表年发表年发表年发表的的的的一篇文章中引进的所谓一篇文章中引进的所谓

8、一篇文章中引进的所谓一篇文章中引进的所谓 检验法。检验法。检验法。检验法。 1 1问题的导出问题的导出n 首先把问题表述成一般模式。设一总体包含c种可区别的个体。根据某种理论或纯粹的假设,第i 种个体出现的概率应为某个已知的数Pi ( i1 ,2,c),有Pi 0, 1。这一组概率(P1 ,P2 ,Pc)就构成了我们的理论分布。现在在该总体中随机地抽取一个容量为n的样本,发现其中第 i 种个体的数目为fi (i 1,2,c),并有 n。我们要据此检验理论分布。n 用概率论的语言可以这样说,设对象总体中随机变量X有c种取值。当X的取值是xi 时,按零假设,其总体分布等于理论分布,即P( )Pi

9、( i1,2,c) 例如,就孟德尔的31理论来说,c 2,P(x1)3/4,P(x2)1/4。现在从该总体中随机地抽取一个容量为n的样本,发现其中xi(i1,2,c)出现的次数为fi (i 1,2,c),并有 n。知道了频数也就知道了频率,即: 出现的频率为 ,并有 1。 现在我们就是要据此经验分布来检验总体分布等于理论分布的零假设。 2 2拟合优度检验拟合优度检验( (比率拟合检验比率拟合检验) ) 拟合优度检验如何进行拟合优度检验如何进行? 关键是确定合适的检验统计量以及该统计量所服从的概率分布。这里不可避免地要引进某种人为因素,即人们设计出下面这样的综合性可比指标: 其中k1,k2,kc

10、 是适当选取的常数。仔细观察不难 发现,L值大,意味着经验分布与理论分布偏离大;L值小,意味着经验分布与理论分布偏离小。当在某个选定的水平上,经验分布显著偏离理论分布,那么对象总体具有某种分布形式的零假设便被否定。结论:结论:n n 用用用用 作为检定作为检定作为检定作为检定HHo o成立的检验统计量,理论证明,当成立的检验统计量,理论证明,当成立的检验统计量,理论证明,当成立的检验统计量,理论证明,当n n足够大足够大足够大足够大 时,该统计量时,该统计量时,该统计量时,该统计量 服从服从服从服从 分布,它是一种具有已知的并制成表的概率分布,它是一种具有已知的并制成表的概率分布,它是一种具有

11、已知的并制成表的概率分布,它是一种具有已知的并制成表的概率 分布,因此对给定的显著性水平分布,因此对给定的显著性水平分布,因此对给定的显著性水平分布,因此对给定的显著性水平 ,可求得临界值,可求得临界值,可求得临界值,可求得临界值 ,与,与,与,与 比比比比 较,进而作出检验结论。较,进而作出检验结论。较,进而作出检验结论。较,进而作出检验结论。n n 显而易见,理论频数显而易见,理论频数显而易见,理论频数显而易见,理论频数 fefe 与观测频数与观测频数与观测频数与观测频数 fofo 越接近,越接近,越接近,越接近, 统计值越小,统计值越小,统计值越小,统计值越小,经验分布与理论分布拟合程度

12、越好。反之,经验分布与理论分布拟合程度越好。反之,经验分布与理论分布拟合程度越好。反之,经验分布与理论分布拟合程度越好。反之,fefe 与与与与 fofo 差距越大,差距越大,差距越大,差距越大, 值越大,经验分布与理论分布拟合程度越差,拟合优度检验由此值越大,经验分布与理论分布拟合程度越差,拟合优度检验由此值越大,经验分布与理论分布拟合程度越差,拟合优度检验由此值越大,经验分布与理论分布拟合程度越差,拟合优度检验由此得名。得名。得名。得名。 例例 孟德尔遗传定律表明:在纯种红花豌豆与白花豌豆杂交后孟德尔遗传定律表明:在纯种红花豌豆与白花豌豆杂交后所生的子二代豌豆中,红花对白花之比为所生的子二

13、代豌豆中,红花对白花之比为3 3:1 1。某次种植试验的结果。某次种植试验的结果为;红花豌豆为;红花豌豆176176株,白花豌豆株,白花豌豆4848株。试在株。试在 0 00505的显著性水平上,的显著性水平上,对孟德尔定律作拟合优度检验。(参见下表)对孟德尔定律作拟合优度检验。(参见下表)应用举例应用举例 3 3正态拟合检验正态拟合检验 例例例例 试对下表所给男青年身高分布的数据作正态拟合检验,选取试对下表所给男青年身高分布的数据作正态拟合检验,选取试对下表所给男青年身高分布的数据作正态拟合检验,选取试对下表所给男青年身高分布的数据作正态拟合检验,选取 0 00505。 解解解解 检验的另一

14、个重要应用是对交互分类资料的独立性检验,检验的另一个重要应用是对交互分类资料的独立性检验,即列联表检验。在上一章,我们曾多次提到过性别与收入高低有无即列联表检验。在上一章,我们曾多次提到过性别与收入高低有无关联的问题,在实际中类似的问题很多。例如受教育程度与投票行关联的问题,在实际中类似的问题很多。例如受教育程度与投票行为有无关联为有无关联? ?吸烟与寿命长短有无关联吸烟与寿命长短有无关联? ?家庭小孩多少与收入多少有家庭小孩多少与收入多少有无关联无关联? ?受教育时间长短与收入多少有无关联受教育时间长短与收入多少有无关联? ?血型与某种性格上的血型与某种性格上的差异有无关联差异有无关联? ?

15、等等,把这类问题上升到一般,就是在列联表的基等等,把这类问题上升到一般,就是在列联表的基础上考察变量础上考察变量X X与与Y Y有无关联。由于列联表一般是按品质标志把两个有无关联。由于列联表一般是按品质标志把两个变量的频数进行交互分类的,所以:变量的频数进行交互分类的,所以: 检验法用于对交互分类资料的独立性检验,有其它方法检验法用于对交互分类资料的独立性检验,有其它方法无法比拟的优点;无法比拟的优点; 如何求得列联表中的理论频数就成了独立性检验的关键。如何求得列联表中的理论频数就成了独立性检验的关键。第二节第二节 无关联性检验无关联性检验 1 1、独立性、理论频数及自由度、独立性、理论频数及

16、自由度、独立性、理论频数及自由度、独立性、理论频数及自由度应用此式,不必计算理论频数应用此式,不必计算理论频数计算与计算与 这个检验统计量相这个检验统计量相联系的自由度联系的自由度算出算出 统计量之值并定出其自由度后,就可以依前述的方法,在给定了显著统计量之值并定出其自由度后,就可以依前述的方法,在给定了显著性水平之后,来对性水平之后,来对X,Y属性无关联的零假设进行检验了。属性无关联的零假设进行检验了。 应用举例应用举例 检验也适用于定类变量和定类变量的相关统计,即可检验也适用于定类变量和定类变量的相关统计,即可以用它检定以用它检定和和系数是否显著。就下表所示资料,试以系数是否显著。就下表所

17、示资料,试以 检验检定性别与收入之间的相关程度是否显著检验检定性别与收入之间的相关程度是否显著( (取取0 0001)001)。 解解解解 故拒绝故拒绝故拒绝故拒绝HH0 0,即认为总体上性别与收入高低之间不独立,有显,即认为总体上性别与收入高低之间不独立,有显,即认为总体上性别与收入高低之间不独立,有显,即认为总体上性别与收入高低之间不独立,有显著相关关系。著相关关系。著相关关系。著相关关系。 例例 在某种流行病流行的时候,共有在某种流行病流行的时候,共有120120个病人进行了治疗,其中个病人进行了治疗,其中4040个病人按标准剂量服用某种新药,另有个病人按标准剂量服用某种新药,另有404

18、0个病人按标准剂量的个病人按标准剂量的2 2倍服用了这倍服用了这种新药,其余种新药,其余4040个病人只按病状治疗个病人只按病状治疗( (而不是按病因治疗而不是按病因治疗) ),治疗结果按迅,治疗结果按迅速痊愈、缓慢痊愈、未痊愈分为三类,最后交叉分类的情况列于下表,试速痊愈、缓慢痊愈、未痊愈分为三类,最后交叉分类的情况列于下表,试问这三种疗法之间有没有差别问这三种疗法之间有没有差别( ( 取取0 005)05)。 解解解解 HH0 0:这三种疗法之间没有差别:这三种疗法之间没有差别:这三种疗法之间没有差别:这三种疗法之间没有差别 HH1 1:这三种疗法之间有差别:这三种疗法之间有差别:这三种疗

19、法之间有差别:这三种疗法之间有差别 由于由于由于由于 0 00505;自由度;自由度;自由度;自由度k k( (c cl)(l)(r r l)l)22224 4,查查查查 分布表得临界值:分布表得临界值:分布表得临界值:分布表得临界值: 在零假设下,计算检验统计量,计算过程参见后表。在零假设下,计算检验统计量,计算过程参见后表。在零假设下,计算检验统计量,计算过程参见后表。在零假设下,计算检验统计量,计算过程参见后表。 因此因此因此因此 ,故拒绝零假设,即三种疗法之间有,故拒绝零假设,即三种疗法之间有,故拒绝零假设,即三种疗法之间有,故拒绝零假设,即三种疗法之间有显著差别。显著差别。显著差别。

20、显著差别。第三节第三节 方差分析方差分析 方差分析,是一种很重要的分析方法,它可以检验两个以方差分析,是一种很重要的分析方法,它可以检验两个以上样本均值之差。方差分析是均值差检验的推广,一般用于上样本均值之差。方差分析是均值差检验的推广,一般用于处理自变量是一个(或多个)定类变量和因变量是一个定距处理自变量是一个(或多个)定类变量和因变量是一个定距变量之间的关系。方差分析所包含的假定与均值差检验所包变量之间的关系。方差分析所包含的假定与均值差检验所包含的假定差不多,例如正态分布、独立随机样本、等方差性含的假定差不多,例如正态分布、独立随机样本、等方差性等,但检验本身却很不相同。方差分析直接涉及

21、的是方差而等,但检验本身却很不相同。方差分析直接涉及的是方差而不是均值和标准差。同时,比较也不取两种估计量之差,而不是均值和标准差。同时,比较也不取两种估计量之差,而是取两种估计量的比率。在两种估计量彼此独立的前提下,是取两种估计量的比率。在两种估计量彼此独立的前提下,两种估计量之比率两种估计量之比率F具有已知的抽样分布,因而可进行很简单具有已知的抽样分布,因而可进行很简单的检验。的检验。 1总变差及其分解总变差及其分解 总变差总变差总变差总变差 : :在方差分析中记作在方差分析中记作在方差分析中记作在方差分析中记作SSSST T,它表示,它表示,它表示,它表示 对于总均值对于总均值对于总均值

22、对于总均值 的偏差之的偏差之的偏差之的偏差之平方和平方和平方和平方和。即:即:即:即: SST 式中式中式中式中: : n n n ni i是第是第是第是第i i个样本的容量个样本的容量个样本的容量个样本的容量, , n n n n 为什么会形成总变差这个散布度呢?为什么会形成总变差这个散布度呢?为什么会形成总变差这个散布度呢?为什么会形成总变差这个散布度呢?一是三个样本可能不同,这使全部数据一是三个样本可能不同,这使全部数据一是三个样本可能不同,这使全部数据一是三个样本可能不同,这使全部数据 有三个有三个有三个有三个“ “中心中心中心中心” ”;二是随机抽样误差的影响,使数据在每个中心附近有

23、散布。二是随机抽样误差的影响,使数据在每个中心附近有散布。二是随机抽样误差的影响,使数据在每个中心附近有散布。二是随机抽样误差的影响,使数据在每个中心附近有散布。 总变差分解总变差分解总变差分解总变差分解 可以看出,总变差分解成两部分:可以看出,总变差分解成两部分:可以看出,总变差分解成两部分:可以看出,总变差分解成两部分:n n 第一部分是各观测值第一部分是各观测值第一部分是各观测值第一部分是各观测值 对其所属类别均值对其所属类别均值对其所属类别均值对其所属类别均值 的偏差的偏差的偏差的偏差的平方和,称为的平方和,称为的平方和,称为的平方和,称为组内变差组内变差组内变差组内变差( Withi

24、n-groups Sum of ( Within-groups Sum of ( Within-groups Sum of ( Within-groups Sum of Squares)Squares)Squares)Squares),记作,记作,记作,记作SSSSWW。组内变差反映了数据围绕各。组内变差反映了数据围绕各。组内变差反映了数据围绕各。组内变差反映了数据围绕各“中心中心中心中心”的散布程度,即反映了的散布程度,即反映了的散布程度,即反映了的散布程度,即反映了 因随机波动所产生的变异,因随机波动所产生的变异,因随机波动所产生的变异,因随机波动所产生的变异,与自变量因素无关。换言之与自

25、变量因素无关。换言之与自变量因素无关。换言之与自变量因素无关。换言之, , , ,SSSSWW是自变量因素所没有解是自变量因素所没有解是自变量因素所没有解是自变量因素所没有解释的释的释的释的 的变异。因此,又称之为的变异。因此,又称之为的变异。因此,又称之为的变异。因此,又称之为残差残差残差残差。n n 第二部分是第二部分是第二部分是第二部分是组间平方和组间平方和组间平方和组间平方和 ( Between-groups Sum of ( Between-groups Sum of ( Between-groups Sum of ( Between-groups Sum of Squares)Sq

26、uares)Squares)Squares),记作,记作,记作,记作SSSSB B ,它涉及到诸类别均值,它涉及到诸类别均值,它涉及到诸类别均值,它涉及到诸类别均值 对总均值对总均值对总均值对总均值 的偏差,反映了前表中数据的的偏差,反映了前表中数据的的偏差,反映了前表中数据的的偏差,反映了前表中数据的c c c c个个个个“中心中心中心中心”的散布程的散布程的散布程的散布程度。度。度。度。 弄清了组间变差和组内变差,检验弄清了组间变差和组内变差,检验弄清了组间变差和组内变差,检验弄清了组间变差和组内变差,检验“ “A1A2A3”(A1A2A3”(也也也也就是零假设就是零假设就是零假设就是零假

27、设 1 1 2 2 3)3)的思路也就梳理出来了:关键是比的思路也就梳理出来了:关键是比的思路也就梳理出来了:关键是比的思路也就梳理出来了:关键是比较两种变差是否有显著差异。若第一种变差明显大于第二较两种变差是否有显著差异。若第一种变差明显大于第二较两种变差是否有显著差异。若第一种变差明显大于第二较两种变差是否有显著差异。若第一种变差明显大于第二种变差,则认为家庭因素对孩子图书消费是有影响的;若种变差,则认为家庭因素对孩子图书消费是有影响的;若种变差,则认为家庭因素对孩子图书消费是有影响的;若种变差,则认为家庭因素对孩子图书消费是有影响的;若第一种变差与第二种变差之间无显著区别,则不能认为家第

28、一种变差与第二种变差之间无显著区别,则不能认为家第一种变差与第二种变差之间无显著区别,则不能认为家第一种变差与第二种变差之间无显著区别,则不能认为家庭因素对孩子图书消费有影响。但在统计学上,方差分析庭因素对孩子图书消费有影响。但在统计学上,方差分析庭因素对孩子图书消费有影响。但在统计学上,方差分析庭因素对孩子图书消费有影响。但在统计学上,方差分析不取两者之差而取两者之比来进行这种比较。而且,方差不取两者之差而取两者之比来进行这种比较。而且,方差不取两者之差而取两者之比来进行这种比较。而且,方差不取两者之差而取两者之比来进行这种比较。而且,方差分析不是直接用分析不是直接用分析不是直接用分析不是直

29、接用SSSSB B/ /SSSSWW作为检验统计量,而是用作为检验统计量,而是用作为检验统计量,而是用作为检验统计量,而是用可以解释可以解释可以解释可以解释的方差的方差的方差的方差/ /不能解释的方差不能解释的方差不能解释的方差不能解释的方差作为检验统计量,即:作为检验统计量,即:作为检验统计量,即:作为检验统计量,即: 2关于自由度关于自由度 组间平方和代表组间平方和代表组间平方和代表组间平方和代表c c个样本均值对总均值的偏差。也就个样本均值对总均值的偏差。也就个样本均值对总均值的偏差。也就个样本均值对总均值的偏差。也就是每个可看作为一个单位,是每个可看作为一个单位,是每个可看作为一个单位

30、,是每个可看作为一个单位,c c个可看作为个可看作为个可看作为个可看作为c c个单位,有个单位,有个单位,有个单位,有c c个个个个自由度,求用去一个自由度。因而,与组间平方和相联系自由度,求用去一个自由度。因而,与组间平方和相联系自由度,求用去一个自由度。因而,与组间平方和相联系自由度,求用去一个自由度。因而,与组间平方和相联系的自由度为的自由度为的自由度为的自由度为c c11。再看组内平方和,计算时每列失去一个。再看组内平方和,计算时每列失去一个。再看组内平方和,计算时每列失去一个。再看组内平方和,计算时每列失去一个自由度。因而,与组内平方和相联系的自由度为自由度。因而,与组内平方和相联系

31、的自由度为自由度。因而,与组内平方和相联系的自由度为自由度。因而,与组内平方和相联系的自由度为n nc c。最。最。最。最后看总平方和,计算总均值时失去一个自由度。因而,与后看总平方和,计算总均值时失去一个自由度。因而,与后看总平方和,计算总均值时失去一个自由度。因而,与后看总平方和,计算总均值时失去一个自由度。因而,与总平方和相联系的自由度为总平方和相联系的自由度为总平方和相联系的自由度为总平方和相联系的自由度为n nll。总的来看有。总的来看有。总的来看有。总的来看有: : n nll (n nc c)+ +(c c11)总自由度组内自由度总自由度组内自由度总自由度组内自由度总自由度组内自

32、由度 + + 组间自由度组间自由度组间自由度组间自由度 pp 上式是在上式是在在零假设(H0 0:1 12 2c c)之下,检验统计量Fo o的计算公式。pp 理论证明:上式服从分子自由度为理论证明:上式服从分子自由度为k k1 1c c11、分母自由度为、分母自由度为k k2 2(ncnc)的的F F分布。于是,给定显著性水平分布。于是,给定显著性水平 ,我们就可以很方便地从,我们就可以很方便地从F F分分布表中查到临界值布表中查到临界值F F (c1(c1,nc)nc)。如果出现。如果出现F Fo oF F 的情况,我们将在这的情况,我们将在这个显著性水平上拒绝零假设。在实际运用中,方差分

33、析的结果常用一种个显著性水平上拒绝零假设。在实际运用中,方差分析的结果常用一种称为称为“方差分析表方差分析表”的标准形式的表格表示出来,其基本形式如表后所的标准形式的表格表示出来,其基本形式如表后所示。示。 为了简化检验统计量为了简化检验统计量为了简化检验统计量为了简化检验统计量FoFo的计算,有必要将的计算,有必要将的计算,有必要将的计算,有必要将SSSST T 、SSSSWW、SSSSB B这三个这三个这三个这三个定义式展开,其方法与分解总变差的方法相同。于是有:定义式展开,其方法与分解总变差的方法相同。于是有:定义式展开,其方法与分解总变差的方法相同。于是有:定义式展开,其方法与分解总变

34、差的方法相同。于是有: 3 3关于检验统计量关于检验统计量关于检验统计量关于检验统计量F Fo o的计算的计算的计算的计算 注意,由于总变差等于另两个变差之和,所以三个变差中仅需求出两注意,由于总变差等于另两个变差之和,所以三个变差中仅需求出两个变差。求出组内平方和比求另两个平方和繁琐得多,故通常我们都是从个变差。求出组内平方和比求另两个平方和繁琐得多,故通常我们都是从总平方和减去组间平方和来求组内平方和的。总平方和减去组间平方和来求组内平方和的。 例例 试对下表中的资料,计算试对下表中的资料,计算SSSST T 、SSSSWW、SSSSB B ,并检验,并检验 1 1 2 2 3 3的零假设

35、的零假设( ( 取取0 005)05)。 解:解:解:解:据题意,据题意,n n1 1n n2 2n n3 38 8,n n1 1+ n+ n2 2+ n+ n3 32424 组内自由度组内自由度ncnc2432432121 组间自由度组间自由度c1c131312 2 分别计算分别计算SSSST T和和SSSSB B ,计算过程参见下表。,计算过程参见下表。 由于由于 0 00505,查,查F F分布表得临界值分布表得临界值 : F F ( (c c11,n nc c) )F F 0.05 0.05 (2(2,21)21)3 347471 11919 故在故在0.050.05显著性水平上不否定

36、零假设,即没有充分根据提出这三显著性水平上不否定零假设,即没有充分根据提出这三类家庭的孩子在图书消费方面有显著不同。类家庭的孩子在图书消费方面有显著不同。 例例 研究某种商品研究某种商品销销量与品牌的关系,得下表量与品牌的关系,得下表资资料,其中料,其中A A1 1,A A2 2,A A3 3表示不同的品牌,数据表示表示不同的品牌,数据表示销销量。量。试试以以显显著性水著性水平平1010判断品牌判断品牌对该对该种商品的种商品的销销量有无影响。量有无影响。 解解 据题意,n1n1+ n2+ n32 + 4 + 3 9 组内自由度nc936 组间自由度c1312 分别计算SST和SSB ,计算过程

37、参见前表13.16。 于是得MSB 和 MSW MSBSSB(c1)6.89/23.45 MSW SSW(nc)30/65.00 再根据(1319)式求检验统计量Fo Fo 0.69 1 故在010显著性水平上不否定零假设,即不能判断不同品脾对 该种商品的销量有显著影响。 4相关比率相关比率 当方差分析的检验呈显著性后,进一步讨论两变量间的相关程度是很自然的。方差分析中相关程度的测定仍采用PRE法。当不知因变量Y 的取值与自变量X 的取值A1,A2,A c有关时,最好的预测是以总均值 作为Y 的估计值。此时,估计所犯的错误将等于SST E1 1SST 当已知因变量Y 的取值与自变量X 的取值A

38、1,A2,A c有关后,自然用各样本的均值 作为各类别的预测值,此时预测所产生的误差将等于SSW E2SSW 所以消减误差比例可写成 PRE 正是因为上式,我们把SSB称为已解释的变差。显然,已解释的变差越大,预测Y 所减少的误差就越多,X与Y 之间的关系就越密切。据此,方差分析中把已解释的变差对总变差的比值称为相关比率,用符号 表示 1 可用于一个定类变量与一个定距变量的相关程度的测定,当然也可以用于定序定距变量或定距定距变量的相关程度的测定。 例例 试以表以表13131212的的资料,分析孩子料,分析孩子图书消消费与家庭与家庭类型的关系。型的关系。 解解 据前面例据前面例题中已中已计算的算

39、的结果,已知果,已知SSB2828,SST276276,因而有,因而有 1 1 10.1%10.1% 可可见,就表,就表给资料而言,利用家庭料而言,利用家庭类型型预测孩子孩子图书消消费量,只能削减量,只能削减10.1%10.1%的的预测误差。差。小结:n 相关比率相关比率 研究的是定研究的是定类定距定距变量之量之间的相关程度。由于的相关程度。由于定定类变量不具有数量大小的量不具有数量大小的问题,不存在关系是否,不存在关系是否线性的性的问题。因此,当因此,当 被用于研究定距被用于研究定距定距定距变量之量之间的关系的关系时,不,不仅可以可以作作为线性相关的量度,也可以作性相关的量度,也可以作为非非

40、线性相关的量度。性相关的量度。这意味着,意味着,对线性相关,相关比率性相关,相关比率 与与r2 2( (积差系数之平方差系数之平方) )有相同的有相同的PREPRE性性质;但如果但如果对非非线性相关,用性相关,用积差系数差系数r 来来讨论就不行了。就不行了。n 对于于定定距距定定距距变量量,曲曲线相相关关既既然然要要用用R来来测量量,那那么么反反过来来,同同一一资料料通通过相相关关指指数数R与与积差差系系数数r计算算的的比比较,可可以以判判断断确确定定两两定定距距变量量的的关关系系是是不不是是直直线。如如果果同同时求求出出r与与R,r 等等于于或或略略大大于于R,可可说明明两两变量量关关系系是

41、是直直线的的,用用r去去测量量是是合合适适的的;如果如果rR,则说明两明两变量关系可能是曲量关系可能是曲线的。的。n 首先 ,MSB和MSW可以分别称为组间方差和组内方差,其中(在等方差的假设下)组内方差总是2的无偏估计;而组间方差,只有当诸总体(即各样本所代表的子总体)均值实际上相等时,它才是2的无偏估计。这就是说,如果零假设为真,MSB和MSW之间将没有太大的差别。反之。如果零假设实际不正确,可以期望MSB和MSW的比值大于1。如果这个比值小于1,则不从F分布表中查找临界值F就可以判断零假设不能被否定。n 其次,以上两个例题也可以用均值差检验来处理。均值差检验涉及t分布,可以做三组合的比较

42、即A1与A2,A2与A3,A1与A3。与均值差检验不同,方差分析仅进行一次检验来判定三种类别的家庭(或品牌)在消费(或销售)上彼此是否有显著性差异。方差分析的优点在于,一个检验可以代替多个检验。如果有四个类别,均值差检验需做(43)26次;如果有六个类别,需做(65)215次;如果有十个类别,需做(109)245次。况且,如果做15次均值差检验。其中4次结果具有显著性,这时应当下什么结论?可能很难回答。 5关于方差分析的几点讨论关于方差分析的几点讨论n 第三,方差分析中的自变量X如果是二分变量,也可以采用均值差t检验。在这种情况下,F 的分子自由度是211,分母自由度是n2,这与均值差检验中的

43、t相同。经过计算可知,具有自由度n2的t 2值等于具有分子自由度为1和分母自由度为n2的F 值。比较F 表和t 表也可以核实这一点。换言之,t是分子自由度为l的F 的平方根。这当然意味着,对于样本而言,此时不论采用方差分析或均值差检验,其结果完全相同。n 第四,本节集中讨论了自变量为一个定类变量而因变量为一个定距变量的情况。如果对因变量Y影响的自变量由一个变为两个以上,我们就将面对多元方差分析了。总变差分解的思想可以直接推广至多因素显著性检验。例如就两个自变量(A和B)独立对因变量Y 影响的情况,可以得到下述方差分析表(表1317)。 相关与回归,由于其广泛应用,如今在统计学中是高相关与回归,

44、由于其广泛应用,如今在统计学中是高相关与回归,由于其广泛应用,如今在统计学中是高相关与回归,由于其广泛应用,如今在统计学中是高度发展的分支之一。而从实用的观点来看,线性关系是最简度发展的分支之一。而从实用的观点来看,线性关系是最简度发展的分支之一。而从实用的观点来看,线性关系是最简度发展的分支之一。而从实用的观点来看,线性关系是最简单也是最重要的一种关系。本书第十二章已经对积差系数与单也是最重要的一种关系。本书第十二章已经对积差系数与单也是最重要的一种关系。本书第十二章已经对积差系数与单也是最重要的一种关系。本书第十二章已经对积差系数与回归直线作了比较细致的讨论。但有关假设检验的内容,由回归直

45、线作了比较细致的讨论。但有关假设检验的内容,由回归直线作了比较细致的讨论。但有关假设检验的内容,由回归直线作了比较细致的讨论。但有关假设检验的内容,由于要借助于推论统计的知识方能阐明,所以本书将这部分内于要借助于推论统计的知识方能阐明,所以本书将这部分内于要借助于推论统计的知识方能阐明,所以本书将这部分内于要借助于推论统计的知识方能阐明,所以本书将这部分内容集中放到这一节来加以补充。学过推论统计的人要克制自容集中放到这一节来加以补充。学过推论统计的人要克制自容集中放到这一节来加以补充。学过推论统计的人要克制自容集中放到这一节来加以补充。学过推论统计的人要克制自己免受直线的诱惑,对此,讨论回归系

46、数和积差系数之假设己免受直线的诱惑,对此,讨论回归系数和积差系数之假设己免受直线的诱惑,对此,讨论回归系数和积差系数之假设己免受直线的诱惑,对此,讨论回归系数和积差系数之假设检验将具有重要意义。检验将具有重要意义。检验将具有重要意义。检验将具有重要意义。 第四节第四节 回归方程与相关系数的检验回归方程与相关系数的检验 1回归系数的检验回归系数的检验 检验两个总体变量检验两个总体变量检验两个总体变量检验两个总体变量( (定距定距定距定距定距变量定距变量定距变量定距变量) )是否具有线性关系,主要检验是否具有线性关系,主要检验是否具有线性关系,主要检验是否具有线性关系,主要检验总体的回归系数总体的

47、回归系数总体的回归系数总体的回归系数B B是否等于零。因此,对于总体线性检验的假设可写成是否等于零。因此,对于总体线性检验的假设可写成是否等于零。因此,对于总体线性检验的假设可写成是否等于零。因此,对于总体线性检验的假设可写成如下形式:如下形式:如下形式:如下形式: H0:B0 H1:B0 为了了寻求求检验H0 0的方法,我的方法,我们需要需要对离差平方和离差平方和进行分解。而行分解。而这项工作,前面已工作,前面已经完成。我完成。我们发现,估,估计Y,当不知,当不知Y 和和X 的关系的关系时,对它的最佳估它的最佳估计值只能是只能是 。离差之平方和(。离差之平方和(总变差),正是差),正是不知不

48、知Y 和和X 的关系的关系时,估,估计Y的全部的全部误差差E0 0 E0 SST 做了回做了回归预测之后我之后我们可以用可以用Y Yc c估估计Y Y ( (参参见下下图) )。这时估估计Y Y 的的误差差变为E E1 1( (剩余剩余变差差): ): E1 SSW n 显然,利用然,利用Yc去估去估计Y 比用去比用去 估估计Y 要消减一些要消减一些误差。消减的差。消减的误差差E0 0E1就是被回就是被回归直直线解解释掉的掉的误差差( (回回归变差差) )。 n 从第十二章已从第十二章已经讨论过的回的回归变差和剩余差和剩余变差的意差的意义来看,一个来看,一个回回归方程效果的好坏,取决于它方程效

49、果的好坏,取决于它们两者之两者之间的比的比较。已解。已解释的回的回归变差越大,用差越大,用Yc 去估去估计Y 比用去比用去 估估计Y 消消减的减的误差就越多,回差就越多,回归预测的效果也就越好。依此,并按上一的效果也就越好。依此,并按上一节方差分析的思想,在方差分析的思想,在H0 0成立的条成立的条件下,件下,检验回回归直直线的的统计量可构造量可构造为 E0E1Fo F(1,n2)自由度问题自由度问题 p 因回因回归变差中差中仅含一个自含一个自变量量X,故自由度,故自由度为l l。而。而总变差所含自由度差所含自由度为(n1 1),从而由,从而由总自由度自由度组内内自由度自由度+ +组间自由度,

50、得剩余自由度,得剩余变差的自由度差的自由度为( (n2)2)。p 对选定定显著性水平著性水平,可,可查表得表得临界界值F。若出。若出现FoF(1,n2)的情况,的情况,则拒拒绝H0,即即认为回回归方程中方程中X变量量对Y的解的解释力是力是显著的;若著的;若出出现FoF(1,n2)的情况,的情况,则不能不能拒拒绝H0,即即认为回回归方程中方程中X 变量量对Y 没有的没有的显著的解著的解释力。力。 例例 对 例例12125 511所建立的回所建立的回归方程方程进行回行回归直直线的的检验( (取取0 005)05)。 解解 根据表12.22和例12.5.1的计算结果可知: 48, 252, 52.5

51、, 299.75, 268.5 a0.475,b0975,n12 299.750.47552.50975268.5 13.02 (0.975)2252 5704 计算算检验统计量量 Fo 43.81 对0 00505,查F F 表得表得临界界值 F F(1(1,n n2)2)F F0 00505 (1 (1,10)10)4 4969643.8143.81 所以拒所以拒绝H H0 0,即可以,即可以认为对总体配置回体配置回归直直线是是 有意有意义的。的。 2 2积差系数的检验积差系数的检验积差系数的检验积差系数的检验 pp 对于定距对于定距对于定距对于定距定距变量,上一章讨论的积差系数是就样本而

52、言的。如定距变量,上一章讨论的积差系数是就样本而言的。如定距变量,上一章讨论的积差系数是就样本而言的。如定距变量,上一章讨论的积差系数是就样本而言的。如同样本均值、成数不能完全代表总体均值、成数一样,样本积差系数同样本均值、成数不能完全代表总体均值、成数一样,样本积差系数同样本均值、成数不能完全代表总体均值、成数一样,样本积差系数同样本均值、成数不能完全代表总体均值、成数一样,样本积差系数r r 也不就是总体积差系数也不就是总体积差系数也不就是总体积差系数也不就是总体积差系数 。但在社会研究中,要想确切了解两总体变量。但在社会研究中,要想确切了解两总体变量。但在社会研究中,要想确切了解两总体变

53、量。但在社会研究中,要想确切了解两总体变量 ( (定距定距定距定距定距变量定距变量定距变量定距变量) )间的积差系数是很间的积差系数是很间的积差系数是很间的积差系数是很 难的。所以,通常需要通过样本难的。所以,通常需要通过样本难的。所以,通常需要通过样本难的。所以,通常需要通过样本积差系数的统计检验来认识总体的积差系数积差系数的统计检验来认识总体的积差系数积差系数的统计检验来认识总体的积差系数积差系数的统计检验来认识总体的积差系数 。pp 设有两变量设有两变量设有两变量设有两变量X X 和和和和Y Y,它们的积差系数记为,它们的积差系数记为,它们的积差系数记为,它们的积差系数记为 。当。当。当

54、。当 0 0时,表示时,表示时,表示时,表示X X和和和和Y Y不不不不具有线性相关关系,当具有线性相关关系,当具有线性相关关系,当具有线性相关关系,当 00时,表示时,表示时,表示时,表示X X和和和和Y Y 具有线性相关关系。具有线性相关关系。具有线性相关关系。具有线性相关关系。pp 实践证明,样本积差系数实践证明,样本积差系数实践证明,样本积差系数实践证明,样本积差系数r r 值比较大时,并不等于总体积差系数值比较大时,并不等于总体积差系数值比较大时,并不等于总体积差系数值比较大时,并不等于总体积差系数 也也也也比较大。尤其是样本中所含观测值较少时,更可能出现这种情况。例如,比较大。尤其

55、是样本中所含观测值较少时,更可能出现这种情况。例如,比较大。尤其是样本中所含观测值较少时,更可能出现这种情况。例如,比较大。尤其是样本中所含观测值较少时,更可能出现这种情况。例如,当当当当X X与与与与Y Y各只有两个样本数据时,积差系数总是为各只有两个样本数据时,积差系数总是为各只有两个样本数据时,积差系数总是为各只有两个样本数据时,积差系数总是为1 1,但显然这不,但显然这不,但显然这不,但显然这不 能说明变量间一定完全相关。也就是说,有时即使样本积差系数很能说明变量间一定完全相关。也就是说,有时即使样本积差系数很能说明变量间一定完全相关。也就是说,有时即使样本积差系数很能说明变量间一定完

56、全相关。也就是说,有时即使样本积差系数很 大,也并不一定就表明总体积差系数大,也并不一定就表明总体积差系数大,也并不一定就表明总体积差系数大,也并不一定就表明总体积差系数 也一定很大。总体积差系数也一定很大。总体积差系数也一定很大。总体积差系数也一定很大。总体积差系数 的情况,只有在对样本积差系数进行统计显著性检验后,才能得出结论。的情况,只有在对样本积差系数进行统计显著性检验后,才能得出结论。的情况,只有在对样本积差系数进行统计显著性检验后,才能得出结论。的情况,只有在对样本积差系数进行统计显著性检验后,才能得出结论。 那么判断线性相关的那么判断线性相关的“显著显著”与与“不显著不显著”的检

57、验统计的检验统计量如何构造呢量如何构造呢? ? 统计理论证明,样本积差系数是总体积差系数的一个无统计理论证明,样本积差系数是总体积差系数的一个无统计理论证明,样本积差系数是总体积差系数的一个无统计理论证明,样本积差系数是总体积差系数的一个无偏估计量,有偏估计量,有偏估计量,有偏估计量,有: : =, = 而且当而且当而且当而且当 0 0时,样本容量越大,时,样本容量越大,时,样本容量越大,时,样本容量越大,r r(显然为一随机变量)(显然为一随机变量)(显然为一随机变量)(显然为一随机变量)的抽样分布越接近于自由度为的抽样分布越接近于自由度为的抽样分布越接近于自由度为的抽样分布越接近于自由度为

58、nn2 2的的的的t t分布(见前图)。因而分布(见前图)。因而分布(见前图)。因而分布(见前图)。因而有检验统计量有检验统计量有检验统计量有检验统计量 : : tor t(n2) 积差系数差系数检验的假的假设为: : H0 0:0 (0 (两两总体不具有体不具有线性相关关系性相关关系) ) H1 1:0 (0 (两两总体具有体具有线性相关关系性相关关系) ) 对选定的定的显著性水平著性水平,查t分布表得分布表得临界界值t/2/2(n22), ,与与统计值to作比作比较。若。若 ,则表明表明r在在统计上是上是显著的,即著的,即总体体积差系数差系数显著地不同于零;著地不同于零; ,则说明明r在在

59、统计上不上不显著,即著,即X与与Y间并不存在并不存在线性相关关系。性相关关系。 例例例例12124 411已对表已对表已对表已对表12122121所示资料求出积差系数,所示资料求出积差系数,所示资料求出积差系数,所示资料求出积差系数,试在试在试在试在0.050.05显著性水平上作总体相关检验。显著性水平上作总体相关检验。显著性水平上作总体相关检验。显著性水平上作总体相关检验。 表表表表12.2112.21 解解 建立假建立假设 H0:0 H1:0 已知已知r r0 0902902,n n1212,于是得,于是得 tor 0 0902902 6 6608608 对0 00505,查表得表得临界界

60、值 t / / 2 2(n2 2)t0 0。025025(10)(10)2 22282286 6608608 故拒故拒绝H0H0,接受,接受H1H1,即,即认为员工的工工的工龄和技和技术考核分之考核分之间存在存在线 性相关。性相关。 但是,但是,为了使用者的方便,上述了使用者的方便,上述检验现已已简化化为使用相关系数使用相关系数r进 行直接行直接检验。附表。附表1212是以是以r的抽的抽样分布分布编制的相关系数表,只要制的相关系数表,只要给出出显 著性水平著性水平和自由度和自由度kn2 2,便可以在表中直接,便可以在表中直接查出相出相应的的临界界值 r( (n2)2)。 解解 已知已知r0 0

61、902902,n1212,对0 00505,k 122 21010,从附表,从附表1212中中查得得 r( (n2)2)r(10)(10)0 05765760 0902902 故拒故拒绝零假零假设,即在,即在0 00505显著性水平上可以著性水平上可以认为员工的工工的工龄和技和技术考核分之考核分之间存在存在线性相关。性相关。 例例: 用附表用附表12直接对上例进行积差系数检验。直接对上例进行积差系数检验。 小结:小结:小结:小结:n 上一小上一小节,我,我们讲的是回的是回归系数的系数的检验,实际上那只是上那只是线性回性回归方程的方程的检验。而。而这一小一小节讨论积差系数的差系数的检验,也是要确

62、,也是要确认总体体线性性相关的存在。因而假相关的存在。因而假设H0:B0与假与假设H0:0等价。也就是等价。也就是说,如果如果样本本积差系数差系数r 通通过了了检验( (t 检验) ),也必然,也必然导致回致回归系数系数b能通能通过检验( (F检验) )。实际上上F公式与公式与t 公式是有公式是有对应关系的。关系的。 Fo t 2 2 n 即具有自由度即具有自由度n2 2的的 t 2 2值等于具有分子自由度等于具有分子自由度1 1和分母自由度和分母自由度n2 2的的F 值。也正是由于。也正是由于这个原因,有的教科个原因,有的教科书就是用就是用t 统计量来量来检验回假回假设的。而如果有了的。而如

63、果有了r 检验表表( (附表附表12)12),问题就就变得更得更为简单,计算算Fo值并并进行行F 检验也都不必要了。也都不必要了。 估计估计估计估计Y Y 当不知当不知当不知当不知Y Y Y Y 和和和和X X X X 有关系时,对它的最佳估计值有关系时,对它的最佳估计值有关系时,对它的最佳估计值有关系时,对它的最佳估计值只能是只能是只能是只能是 ,估计的全部误差是,估计的全部误差是,估计的全部误差是,估计的全部误差是 ; 当知道当知道当知道当知道Y Y Y Y 和和和和X X X X 有关系时,可以改用有关系时,可以改用有关系时,可以改用有关系时,可以改用YcYcYcYc 来估计来估计来估计

64、来估计Y Y Y Y,此时估计的误差减少为,此时估计的误差减少为,此时估计的误差减少为,此时估计的误差减少为 。 当知道当知道当知道当知道Y Y和和和和X X有关系后,用有关系后,用有关系后,用有关系后,用YcYc来估计来估计来估计来估计Y Y固然可以消减不固然可以消减不固然可以消减不固然可以消减不少估计误差,这也不过是点估计。而如果我们能在拟合值少估计误差,这也不过是点估计。而如果我们能在拟合值少估计误差,这也不过是点估计。而如果我们能在拟合值少估计误差,这也不过是点估计。而如果我们能在拟合值YcYc上下设置一个合适区间,那么上下设置一个合适区间,那么上下设置一个合适区间,那么上下设置一个合

65、适区间,那么Y Y被估计到的可能性便会被估计到的可能性便会被估计到的可能性便会被估计到的可能性便会大大增加。大大增加。大大增加。大大增加。 3回归方程的区间估计回归方程的区间估计 回归方程区间估计提出的背景 在回在回在回在回 归线两侧设置一个估计区间总是容易做到的,归线两侧设置一个估计区间总是容易做到的,归线两侧设置一个估计区间总是容易做到的,归线两侧设置一个估计区间总是容易做到的,但问题是我们需要对估计的信度和效度作通盘考虑。为但问题是我们需要对估计的信度和效度作通盘考虑。为但问题是我们需要对估计的信度和效度作通盘考虑。为但问题是我们需要对估计的信度和效度作通盘考虑。为此,我们必须了解此,我

66、们必须了解此,我们必须了解此,我们必须了解Y Y在在在在YcYc两侧的分布特征以及两侧的分布特征以及两侧的分布特征以及两侧的分布特征以及Y Y在在在在YcYc两侧两侧两侧两侧的分散程度。的分散程度。的分散程度。的分散程度。 由于由于误差差为正正态分布的原理分布的原理(即中心极限定理即中心极限定理),当,当样本容量本容量n大于大于30时,我,我们可以作如下假定(参可以作如下假定(参见前前图):): 1)Y 的的实际观测值在在对应的每个估的每个估计值Yc周周围都是正都是正态分布,越靠分布,越靠近近Yc的地方,的地方,Y值出出现的机会越多,反之出的机会越多,反之出现的机会越少;的机会越少; 2)所有

67、正)所有正态分布都具有相同的分布都具有相同的标准差,即所准差,即所谓的同方差性。的同方差性。 于是,除了重温于是,除了重温过去的知去的知识,只有一个具体,只有一个具体问题要解决:要解决:为了了测定定回回归线的代表性,有必要参照的代表性,有必要参照标准差的意准差的意义,引,引进一个离中一个离中趋势的量的量度度估估计标准准误差,差,记作作SY/X ,用来反映,用来反映围绕回回归线的的Y值的离散程的离散程度。在度。在这里,求算里,求算估估计标准准误差具有差具有第九章中第九章中求算抽求算抽样平均平均误差同差同样的的意意义。 当知道当知道Y和和X有关系有关系时,用,用Yc 来估来估计Y,估估计的的误差差

68、为剩余剩余变差差 ,即即SSW。所以,。所以,估估计标准准误差差显然然为剩余方差剩余方差MSW的平方根,即的平方根,即 SY/X 直接采用直接采用上上式来式来计算算估估计标准准误差差比比较麻麻烦,实际计算算时,一般用下,一般用下式(前面已式(前面已经证明明) ) SY/X 例例例例 就表就表就表就表12.2112.21所示资料,在所示资料,在所示资料,在所示资料,在 例例例例12125 51 1 的基础上,根据员的基础上,根据员的基础上,根据员的基础上,根据员工的工龄和技术考核分所建立的回归直线方程,求算估计标准误工的工龄和技术考核分所建立的回归直线方程,求算估计标准误工的工龄和技术考核分所建

69、立的回归直线方程,求算估计标准误工的工龄和技术考核分所建立的回归直线方程,求算估计标准误差。差。差。差。 解解 就表就表12.21所示所示资料,在料,在 例例12125 511 的基的基础上,参照上,参照 例例l3l34 411的的计算算结果,已知果,已知 13.02 13.02 SY/X 1.141.14 所以,用回所以,用回归线0.475 + 0.975X估估计因因变量量Y时的估的估计标准准误差差为1.14(分)。(分)。 有了估计标准误差,再结合回归方程,就可以对因变量Y进行估计和推断了。具体来说,就是建立回归估计的置信区间(参见第九章“区间估计”一节),借以确定回归方程预测或控制Y的范

70、围。现在根据上述两个假定,并参见第七章图76,的取值或预测区间可以这样期望: (1)取取 1SY/X ,那么在散点,那么在散点图上上约有有6826的的观测点落在其点落在其间(参参见图133)。 (2)取取 2SY/X ,那么在散点,那么在散点图上上约有有9546的的观测点落在其点落在其间(参参见图133)。 (3)取取 3SY/X ,那么在散点,那么在散点图上上约有有9973的的观测点落在其点落在其间(参参见图133)。 例例 试以表试以表12.21中的资料为例,说明回归置信区间建立的方法。中的资料为例,说明回归置信区间建立的方法。 解解 根据例1251和上例计算的结果,已知 0.475 + 0.975X SY/X1.14 假定自变量工龄X为5(年),得技术考核分的拟合值 0.475 + 0.97555.35 那么 + 1SY/X 5.35 + 1.14649 1SY/X 5.351.14421 即对工龄为5年的员工,他们的技术考核分在421分至649分之间的概率为6826%。 + 2SY/X 5.35 + 21.14763 2SY/X5.3521.14307 即对工龄为5年的员工,他们的技术考核分在307分至763分之间的概率为9546%。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号