绔鐩稿叧涓庡洖褰掑垎鏋课件

上传人:汽*** 文档编号:567254041 上传时间:2024-07-19 格式:PPT 页数:86 大小:450.50KB
返回 下载 相关 举报
绔鐩稿叧涓庡洖褰掑垎鏋课件_第1页
第1页 / 共86页
绔鐩稿叧涓庡洖褰掑垎鏋课件_第2页
第2页 / 共86页
绔鐩稿叧涓庡洖褰掑垎鏋课件_第3页
第3页 / 共86页
绔鐩稿叧涓庡洖褰掑垎鏋课件_第4页
第4页 / 共86页
绔鐩稿叧涓庡洖褰掑垎鏋课件_第5页
第5页 / 共86页
点击查看更多>>
资源描述

《绔鐩稿叧涓庡洖褰掑垎鏋课件》由会员分享,可在线阅读,更多相关《绔鐩稿叧涓庡洖褰掑垎鏋课件(86页珍藏版)》请在金锄头文库上搜索。

1、统计学导论统计学导论曾五一曾五一 肖红叶肖红叶 主编主编1绔鐩稿叧涓庡洖褰掑垎鏋第五章第五章 相关与回归分析相关与回归分析 n第一节第一节 相关与回归分析的基本概念相关与回归分析的基本概念 n第二节第二节 简单线性相关与回归分析简单线性相关与回归分析 n第三节第三节 多元线性相关与回归分析多元线性相关与回归分析 n第四节第四节 Excel在相关与回归分析中的应用在相关与回归分析中的应用 2绔鐩稿叧涓庡洖褰掑垎鏋第一节第一节 相关与回归分析的基本概念相关与回归分析的基本概念n一、函数关系与相关关系一、函数关系与相关关系n二、相关关系的种类二、相关关系的种类n三、相关分析与回归分析三、相关分析与回

2、归分析n四、相关图四、相关图3绔鐩稿叧涓庡洖褰掑垎鏋一、函数关系与相关关系一、函数关系与相关关系函数关系函数关系当一个或几个变量取一定的值时,另一当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种关系为确个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。例如,商品的销售收入与该商定性的函数关系。例如,商品的销售收入与该商品的销售量以及该商品价格之间的关系。品的销售量以及该商品价格之间的关系。相关关系相关关系当一个或几个相互联系的变量取一定数当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但值时,与之相对应的另一变量的值虽然不确定,但它仍

3、按某种规律在一定的范围内变化。它仍按某种规律在一定的范围内变化。 变量间的这变量间的这种相互关系,称为具有不确定性的相关关系。例如,种相互关系,称为具有不确定性的相关关系。例如,劳动生产率与工资水平的关系。劳动生产率与工资水平的关系。4绔鐩稿叧涓庡洖褰掑垎鏋变量之间的函数关系和相关关系,在一定条变量之间的函数关系和相关关系,在一定条件下是可以互相转化的。件下是可以互相转化的。n本来具有函数关系的变量,当存在观测误差时,本来具有函数关系的变量,当存在观测误差时,其函数关系往往以相关的形式表现出来。其函数关系往往以相关的形式表现出来。n而具有相关关系的变量之间的联系,如果我们而具有相关关系的变量之

4、间的联系,如果我们对它们有了深刻的规律性认识,并且能够把影对它们有了深刻的规律性认识,并且能够把影响因变量变动的因素全部纳入方程,这时的相响因变量变动的因素全部纳入方程,这时的相关关系也可能转化为函数关系。关关系也可能转化为函数关系。一、函数关系与相关关系一、函数关系与相关关系5绔鐩稿叧涓庡洖褰掑垎鏋n相关关系也具有某种变动规律性,所以,相关关系也具有某种变动规律性,所以,相关关系经常可以用一定的函数形式去相关关系经常可以用一定的函数形式去近似地描述。客观现象的函数关系可以近似地描述。客观现象的函数关系可以用数学分析的方法去研究,而研究客观用数学分析的方法去研究,而研究客观现象的相关关系必须借

5、助于统计学中的现象的相关关系必须借助于统计学中的相关与回归分析方法。相关与回归分析方法。一、函数关系与相关关系一、函数关系与相关关系6绔鐩稿叧涓庡洖褰掑垎鏋二、相关关系的种类二、相关关系的种类 按相关的程度可分为完全相关、不完全相关和不相关。按相关的程度可分为完全相关、不完全相关和不相关。n当一种现象的数量变化完全由另一个现象的数量当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相变化所确定时,称这两种现象间的关系为完全相关。在这种场合,相关关系便成为函数关系。因关。在这种场合,相关关系便成为函数关系。因此也可以说函数关系是相关关系的一个特例。此也可以说函数关

6、系是相关关系的一个特例。n当两个现象彼此互不影响,其数量变化各自独立当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。时,称为不相关现象。n两个现象之间的关系介于完全相关和不相关之间,两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种不称为不完全相关,一般的相关现象都是指这种不完全相关。完全相关。7绔鐩稿叧涓庡洖褰掑垎鏋按相关的方向可分为正相关和负相关。按相关的方向可分为正相关和负相关。n当一个现象的数量增加(或减少),另一当一个现象的数量增加(或减少),另一个现象的数量也随之增加(或减少)时,个现象的数量也随之增加(或减少)时,称为正相关。例如,

7、消费水平随收入的增称为正相关。例如,消费水平随收入的增加而提高。加而提高。n当一个现象的数量增加(或减少),而另当一个现象的数量增加(或减少),而另一个现象的数量向相反方向变动时,称为一个现象的数量向相反方向变动时,称为负相关。例如商品流转的规模愈大,流通负相关。例如商品流转的规模愈大,流通费用水平则愈低。费用水平则愈低。二、相关关系的种类二、相关关系的种类 8绔鐩稿叧涓庡洖褰掑垎鏋n按相关的形式可分为线性相关和非线性相关。按相关的形式可分为线性相关和非线性相关。n按所研究的变量多少可分为单相关、复相关按所研究的变量多少可分为单相关、复相关和偏相关。和偏相关。n两个变量之间的相关,称为两个变量

8、之间的相关,称为单相关单相关。n当所研究的是一个变量对两个或两个以上其他变当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为量的相关关系时,称为复相关复相关。n在某一现象与多种现象相关的场合,假定其他变在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为量不变,专门考察其中两个变量的相关关系称为偏相关。例如,在假定人们的收入水平不变的条偏相关。例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是件下,某种商品的需求与其价格水平的关系就是一种一种偏相关偏相关。二、相关关系的种类二、相关关系的种类 9绔鐩稿叧涓庡洖褰掑垎鏋三、相关

9、分析与回归分析三、相关分析与回归分析 n相关分析相关分析是用一个指标来表明现象间相互依是用一个指标来表明现象间相互依存关系的密切程度。存关系的密切程度。n回归分析回归分析是根据相关关系的具体形态,选择是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间一个合适的数学模型,来近似地表达变量间的平均变化关系。的平均变化关系。n相关分析和回归分析有着密切的相关分析和回归分析有着密切的联系联系,它们,它们不仅具有共同的研究对象,而且在具体应用不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。时,常常必须互相补充。10绔鐩稿叧涓庡洖褰掑垎鏋相关分析与回归分析之间的区别相关分析与

10、回归分析之间的区别相关分析相关分析研究变量之间相关的方向和相关的程研究变量之间相关的方向和相关的程度。回归分析则是研究变量之间相互关系的度。回归分析则是研究变量之间相互关系的具体形式,它对具有相关关系的变量之间的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学表数量联系进行测定,确定一个相关的数学表达式,根据这个数学方程式可以从已知量来达式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供一个重推测未知量,从而为估算和预测提供一个重要的方法。要的方法。11绔鐩稿叧涓庡洖褰掑垎鏋相关分析相关分析不能指出变量间相互关系的具体形式,也无不能指出变量间相互关系

11、的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。法从一个变量的变化来推测另一个变量的变化情况。可以不必确定变量中哪个是自变量,哪个是因变量,可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变量可以都是随机变量。而回归分析则其所涉及的变量可以都是随机变量。而回归分析则必须事先研究确定具有相关关系的变量中哪个为自必须事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变量。一般地说,回归分析中因变变量,哪个为因变量。一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机量是随机的,而把自变量作为研究时给定的非随机变量。变量。n在应用项关于回归分析方法对客观现象

12、进行研究时,在应用项关于回归分析方法对客观现象进行研究时,一定要始终注意一定要始终注意把定性分析和定量分析结合把定性分析和定量分析结合起来,起来,在定性分析的基础上开展定量分析。在定性分析的基础上开展定量分析。相关分析与回归分析之间的区别相关分析与回归分析之间的区别12绔鐩稿叧涓庡洖褰掑垎鏋把定性分析和定量分析结合把定性分析和定量分析结合n【例【例7-1】教堂数与监狱服刑人数同步增长。】教堂数与监狱服刑人数同步增长。(引自吴柏林引自吴柏林现代统计学,吴南图书出版有限公司,年版。现代统计学,吴南图书出版有限公司,年版。)n美国印第安纳州的地区教会想要筹款兴建新教堂,提出教堂美国印第安纳州的地区教

13、会想要筹款兴建新教堂,提出教堂能洁净人们的心灵,减少犯罪,降低监狱服刑人数的口号。能洁净人们的心灵,减少犯罪,降低监狱服刑人数的口号。为了增进民众参与的热诚和信心,教会的神父收集了近为了增进民众参与的热诚和信心,教会的神父收集了近年的教堂数与在监狱服刑的人数进行统计分析。结果却令教年的教堂数与在监狱服刑的人数进行统计分析。结果却令教会大吃一惊。最近年教堂数与监狱服刑人数呈显著的正会大吃一惊。最近年教堂数与监狱服刑人数呈显著的正相关。那么是否可以由此得出,教堂建得越多,就可能带来相关。那么是否可以由此得出,教堂建得越多,就可能带来更多的犯罪呢?经过统计学家和教会神父深入讨论,并进一更多的犯罪呢?

14、经过统计学家和教会神父深入讨论,并进一步收集近年的当地人口变动资料和犯罪率等资料作进一步收集近年的当地人口变动资料和犯罪率等资料作进一步分析,发现监狱服刑人数的增加和教堂数的增加都与人口步分析,发现监狱服刑人数的增加和教堂数的增加都与人口的增加有关。教堂数的增加并非监狱服刑人数增加的原因。的增加有关。教堂数的增加并非监狱服刑人数增加的原因。至此,教会人士总算松了一口气。至此,教会人士总算松了一口气。13绔鐩稿叧涓庡洖褰掑垎鏋四、相关图四、相关图 n相关图相关图又称散点图。它是又称散点图。它是以直角坐标系的横轴代表以直角坐标系的横轴代表变量变量X,纵轴代表变量,纵轴代表变量Y,将将两个变量间相对

15、应的变量两个变量间相对应的变量值用坐标点的形式描绘出值用坐标点的形式描绘出来,用来反映两变量之间来,用来反映两变量之间相关关系的图形。相关关系的图形。 14绔鐩稿叧涓庡洖褰掑垎鏋第二节第二节 简单线性相关与回归分析简单线性相关与回归分析 n一、相关系数及其检验一、相关系数及其检验n二、标准的一元线性回归模型二、标准的一元线性回归模型n三、一元线性回归模型的估计三、一元线性回归模型的估计n四、一元线性回归模型的检验四、一元线性回归模型的检验n五、一元线性回归模型预测五、一元线性回归模型预测15绔鐩稿叧涓庡洖褰掑垎鏋一、相关系数及其检验一、相关系数及其检验(一)相关系数的定义(一)相关系数的定义

16、n总体相关系数的定义式是总体相关系数的定义式是 总体相关系数是反映两变量之间线性相关程度的一种特征值,总体相关系数是反映两变量之间线性相关程度的一种特征值,表现为一个常数。表现为一个常数。 n样本相关系数的定义公式是样本相关系数的定义公式是 上式中,上式中, 和和 分别是分别是和和的样本平均数。的样本平均数。样本相关系数是根据样本观测值计算的,抽取的样本不同,样本相关系数是根据样本观测值计算的,抽取的样本不同,其具体的数值也会有所差异。样本相关系数是总体相关系数其具体的数值也会有所差异。样本相关系数是总体相关系数的一致估计量。的一致估计量。 16绔鐩稿叧涓庡洖褰掑垎鏋(二)相关系数的特点(二)

17、相关系数的特点 r的取值介于的取值介于-1与与1之间之间1、当、当r=0时,与的样本观测值之间没有时,与的样本观测值之间没有线性线性关系。关系。2、在大多数情况下,、在大多数情况下,0r0时,与为时,与为正相关正相关,当,当r0时,时,与与为为负相关负相关。3、如果、如果r=1,则表明,则表明与与完全线性相关,当完全线性相关,当r=1时,称为时,称为完全正相关完全正相关,而,而-1时,称为时,称为完全负相关完全负相关。4、是对变量之间线性相关关系的度量。是对变量之间线性相关关系的度量。r=0,并不意味着,并不意味着与与之间不存在其他类型的关系。对于二者之间可能存在的之间不存在其他类型的关系。对

18、于二者之间可能存在的非线性相关关系,需要利用其他指标去进行分析。非线性相关关系,需要利用其他指标去进行分析。17绔鐩稿叧涓庡洖褰掑垎鏋(三)相关系数的计算(三)相关系数的计算 相关系数的计算相关系数的计算 n具体计算样本相关系数时,通常利用以下公具体计算样本相关系数时,通常利用以下公式:式: 18绔鐩稿叧涓庡洖褰掑垎鏋【例【例7-2】1992年年-2003年我国城镇居民人均年消费性支出和人均年可支配收入有年我国城镇居民人均年消费性支出和人均年可支配收入有关资料如下,试计算消费性支出与可支配收入间的相关系数。关资料如下,试计算消费性支出与可支配收入间的相关系数。(三)相关系数的计算(三)相关系数

19、的计算 19绔鐩稿叧涓庡洖褰掑垎鏋n【例【例7-2】表】表7-1是是 1992年年-2003年我国城镇居民人均年我国城镇居民人均年消费性支出和人均年可支配收入的有关资料,试年消费性支出和人均年可支配收入的有关资料,试计算消费性支出与可支配收入的样本相关系数。计算消费性支出与可支配收入的样本相关系数。(三)相关系数的计算(三)相关系数的计算 20绔鐩稿叧涓庡洖褰掑垎鏋(四)相关系数的检验(四)相关系数的检验 n对总体相关系数对总体相关系数 是否等于进行检验。是否等于进行检验。n计算相关系数计算相关系数r的的值:值:n根据给定的显著性水平和自由度(根据给定的显著性水平和自由度(n-2),查找),查

20、找分布表中相应的临界值分布表中相应的临界值t/2。若。若tt/2,表明,表明在统计上是显著的。在统计上是显著的。 若若tt/2,表明,表明在统计在统计上是不显著的。上是不显著的。21绔鐩稿叧涓庡洖褰掑垎鏋(四)相关系数的检验(四)相关系数的检验 【例【例7-3】假设根据对样本观测数据计算出某公司的股票价格】假设根据对样本观测数据计算出某公司的股票价格与气温的样本相关系数与气温的样本相关系数r=0.5,试问是否可以根据的显著水,试问是否可以根据的显著水平认为该公司的股票与气温之间存在一定程度的线性相关关系平认为该公司的股票与气温之间存在一定程度的线性相关关系?解:解:0:;1:的检验值的检验值

21、查表可知:显著水平为,自由度为的临界值查表可知:显著水平为,自由度为的临界值t/2=2.776 ,上上式中的式中的t值小于值小于2.776,因此,因此,不能通过显著性检验。这就是说,不能通过显著性检验。这就是说,尽管根据样本观测值计算的尽管根据样本观测值计算的达到达到0.5,但是由于样本单位过少,但是由于样本单位过少,这一结论并不可靠,它不足以证明该公司的股票与气温之间存这一结论并不可靠,它不足以证明该公司的股票与气温之间存在一定程度的线性相关关系。在一定程度的线性相关关系。22绔鐩稿叧涓庡洖褰掑垎鏋二、标准的一元线性回归模型二、标准的一元线性回归模型 (一)总体回归函数(一)总体回归函数 n

22、上式被称为总体回归函数。式中的上式被称为总体回归函数。式中的1和和2是未知的是未知的参数,又叫回归系数。参数,又叫回归系数。t和和t分别是分别是和和的第的第个观测值。个观测值。u t是随机误差项,又称随机干扰项,它是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他是一个特殊的随机变量,反映未列入方程式的其他各种因素对各种因素对的影响。的影响。 23绔鐩稿叧涓庡洖褰掑垎鏋(二)样本回归函数(二)样本回归函数 在现实问题研究中,由于所要研究的现象的总体单位数一般是在现实问题研究中,由于所要研究的现象的总体单位数一般是很多的,在许多场合甚至是无限的,因此无法掌握因变量很多的

23、,在许多场合甚至是无限的,因此无法掌握因变量总体的全部取值。也就是说,总体回归函数事实上是未知的,总体的全部取值。也就是说,总体回归函数事实上是未知的,需要利用样本的信息对其进行估计。需要利用样本的信息对其进行估计。一元线性回归模型的样本回归线可表示为:一元线性回归模型的样本回归线可表示为: 式中式中 的是样本回归线上与的是样本回归线上与t相对应的相对应的值,可视为值,可视为(t)的估计;的估计; 是样本回归函数的截距系数,是样本回归函数的截距系数, 是样本回归函数是样本回归函数的斜率系数,它们是对总体回归系数的斜率系数,它们是对总体回归系数1和和2的估计。的估计。24绔鐩稿叧涓庡洖褰掑垎鏋n

24、实际观测到的因变量实际观测到的因变量t值,并不完全等于值,并不完全等于 ,如果,如果用用t表示二者之差表示二者之差(), 则有:则有:n (,(,.)n上式称为样本回归函数。式中上式称为样本回归函数。式中t称为残差。称为残差。(二)样本回归函数(二)样本回归函数 25绔鐩稿叧涓庡洖褰掑垎鏋样本回归函数与总体回归函数之间的间的区别样本回归函数与总体回归函数之间的间的区别1、总体回归线总体回归线是未知的,它只有一条。而样本是未知的,它只有一条。而样本回归线则是根据样本数据拟合的,每抽取一回归线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。组样本,便可以拟合一条样本回归线。2、总

25、体回归函数中的、总体回归函数中的1和和2是是未知的参数未知的参数,表,表现为常数。而样本回归函数中的现为常数。而样本回归函数中的 和和 是是随随机变量机变量,其具体数值随所抽取的样本观测值,其具体数值随所抽取的样本观测值不同而变动。不同而变动。(二)样本回归函数(二)样本回归函数 26绔鐩稿叧涓庡洖褰掑垎鏋样本回归函数与总体回归函数之间的区别样本回归函数与总体回归函数之间的区别3、总体回归函数中的、总体回归函数中的u t是是t与未知的总与未知的总体回归线之间的纵向距离,它是不可直体回归线之间的纵向距离,它是不可直接观测的。接观测的。样本回归函数中的样本回归函数中的t是是t与样本回归线之间与样本

26、回归线之间的纵向距离,当根据样本观测值拟合出样的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出本回归线之后,可以计算出t的具体数值。的具体数值。 (二)样本回归函数(二)样本回归函数 27绔鐩稿叧涓庡洖褰掑垎鏋(三三)误差项的标准假定误差项的标准假定 n假定:误差项的期望值为,即对所有的总有假定:误差项的期望值为,即对所有的总有n假定:误差项的方差为常数,即对所有的总有假定:误差项的方差为常数,即对所有的总有n假定:误差项之间不存在序列相关关系,其协方假定:误差项之间不存在序列相关关系,其协方差为零,即当差为零,即当时有:时有:28绔鐩稿叧涓庡洖褰掑垎鏋(三三)误差项的标准假定误差

27、项的标准假定 n假定:自变量是给定的变量,与随机误差项线性假定:自变量是给定的变量,与随机误差项线性无关。无关。n假定:随机误差项服从正态分布。假定:随机误差项服从正态分布。满足以上标准假定的一元线性模型,称为标准的一满足以上标准假定的一元线性模型,称为标准的一元线性回归模型。元线性回归模型。29绔鐩稿叧涓庡洖褰掑垎鏋三、一元线性回归模型的估计三、一元线性回归模型的估计 (一)回归系数的点估计(一)回归系数的点估计n所谓最小二乘法就是根据这一思路,是通过使残差所谓最小二乘法就是根据这一思路,是通过使残差平方和为最小来估计回归系数的一种方法。平方和为最小来估计回归系数的一种方法。 30绔鐩稿叧涓

28、庡洖褰掑垎鏋三、一元线性回归模型的估计三、一元线性回归模型的估计 (一)回归系数的点估计(一)回归系数的点估计加以整理后有加以整理后有以上方程组称为正规方程组或标准方程组,式中的以上方程组称为正规方程组或标准方程组,式中的是样本容量。求解这一方程组可得:是样本容量。求解这一方程组可得: 31绔鐩稿叧涓庡洖褰掑垎鏋(一)回归系数的点估计(一)回归系数的点估计n【例【例7-】我们利用例】我们利用例7-2的表的表7-1中已给出我国历年中已给出我国历年城镇居民人均消费支出和人均可支配收入的数据,城镇居民人均消费支出和人均可支配收入的数据,来估计我国城镇居民的边际消费倾向和基础消费水来估计我国城镇居民的

29、边际消费倾向和基础消费水平。平。n解:解:t12tut=50.07312-0.751162.976120.231032绔鐩稿叧涓庡洖褰掑垎鏋(一)回归系数的点估计(一)回归系数的点估计n【例【例7-】我们利用例】我们利用例7-2的表的表7-1中已给出我国历年中已给出我国历年城镇居民人均消费支出和人均可支配收入的数据,城镇居民人均消费支出和人均可支配收入的数据,来估计我国城镇居民的边际消费倾向和基础消费水来估计我国城镇居民的边际消费倾向和基础消费水平。平。n样本回归方程为:样本回归方程为: n上式中:上式中:0.7511是边际消费倾向,表示人均可支配收是边际消费倾向,表示人均可支配收入每增加入每

30、增加1千元,人均消费支出会增加千元,人均消费支出会增加0.7511千元;千元;0.2310是基本消费水平,即与收入无关最基本的人均是基本消费水平,即与收入无关最基本的人均消费为消费为0.2310千元。千元。 33绔鐩稿叧涓庡洖褰掑垎鏋(二)总体方差的估计(二)总体方差的估计 数学上可以证明,数学上可以证明,2的无偏估计的无偏估计S2可由下式给出:可由下式给出: 式中,分子是残差平方和式中,分子是残差平方和,分母是自由度,其中是样本观测值分母是自由度,其中是样本观测值的个数,是一元线性回归方程中回归系数的个数。)的个数,是一元线性回归方程中回归系数的个数。)S2的的正平方根又叫做回归估计的标准误

31、差。正平方根又叫做回归估计的标准误差。一般采用以下公式计算残差平方和:一般采用以下公式计算残差平方和:上式的推导过程如下:上式的推导过程如下: 34绔鐩稿叧涓庡洖褰掑垎鏋n【例【例7-】根据例】根据例7-中给出的有关数据和例中给出的有关数据和例7-中已得到的回归系数估计值,计算我国城镇居民消中已得到的回归系数估计值,计算我国城镇居民消费函数的总体方差费函数的总体方差S2和回归估计标准差和回归估计标准差S。n解:根据例解:根据例7-中给出的有关数据和例中给出的有关数据和例7-中已得中已得到的回归系数估计值,可得:到的回归系数估计值,可得: =232.7719-0.231050.073-0.751

32、1294.4539=0.0407S2=0.0407/(12-2)=0.00407 进而有:进而有:S=0.0638 (二)总体方差的估计(二)总体方差的估计 35绔鐩稿叧涓庡洖褰掑垎鏋(三)最小二乘估计量的性质(三)最小二乘估计量的性质按照最小二乘法求得的估计总体回归系数的数学公式按照最小二乘法求得的估计总体回归系数的数学公式是样本观测值的函数,通常称之为最小二乘估计量。是样本观测值的函数,通常称之为最小二乘估计量。可以证明,在标准假定能够得到满足的条件下,回归可以证明,在标准假定能够得到满足的条件下,回归系数的最小二乘估计量的期望值等于其真值,即有:系数的最小二乘估计量的期望值等于其真值,即

33、有:其方差为:其方差为: 和和 的期望值与方差的推导过程基本类似。的期望值与方差的推导过程基本类似。36绔鐩稿叧涓庡洖褰掑垎鏋数学上可以证明:最小二乘估计量是因变量观测值数学上可以证明:最小二乘估计量是因变量观测值t的线性函的线性函数,其期望值等于总体回归系数的真值。因此,最小二乘估数,其期望值等于总体回归系数的真值。因此,最小二乘估计量是总体回归系数的线性无偏估计量。数学上还可以进一计量是总体回归系数的线性无偏估计量。数学上还可以进一步证明,在所有的线性无偏估计量中,回归系数的最小二乘步证明,在所有的线性无偏估计量中,回归系数的最小二乘估计量的方差最小;同时随着样本容量的增大,其方差会不估计

34、量的方差最小;同时随着样本容量的增大,其方差会不断缩小。也就是说,回归系数的最小二乘估计量是最优线性断缩小。也就是说,回归系数的最小二乘估计量是最优线性无偏估计量和一致估计量。无偏估计量和一致估计量。高斯高斯-马尔可夫定理表明,在标准的假定条件下,最小二乘估计马尔可夫定理表明,在标准的假定条件下,最小二乘估计量是一种最佳的估计方式。但是应当明确,这并不意味着根量是一种最佳的估计方式。但是应当明确,这并不意味着根据这一方式计算的每一个具体的估计值都比根据其他方式计据这一方式计算的每一个具体的估计值都比根据其他方式计算的具体估计值更接近真值,而只是表明如果反复多次进行算的具体估计值更接近真值,而只

35、是表明如果反复多次进行估计值计算或是扩大样本的容量进行估计值计算,按最佳估估计值计算或是扩大样本的容量进行估计值计算,按最佳估计方式计算的估计值接近真值的可能性(概率)最大。计方式计算的估计值接近真值的可能性(概率)最大。 (三)最小二乘估计量的性质(三)最小二乘估计量的性质37绔鐩稿叧涓庡洖褰掑垎鏋(四)回归系数的区间估计(四)回归系数的区间估计 n根据第五章中介绍的关于参数区间估计的原理,可根据第五章中介绍的关于参数区间估计的原理,可得到以下回归系数区间估计的公式:得到以下回归系数区间估计的公式: (j =1,2)n式中,式中, 是回归系数估计的样本标准误差,是回归系数估计的样本标准误差,

36、 是是显著水平为显著水平为,自由度为,自由度为(n-2)的分布双侧临界值。的分布双侧临界值。38绔鐩稿叧涓庡洖褰掑垎鏋【例【例7-6】利用例】利用例7-的有关资料和例的有关资料和例7-与例与例7-的结果,对的结果,对例例7-中估计的我国城镇居民边际消费倾向进行置信度为中估计的我国城镇居民边际消费倾向进行置信度为95的区间估计。的区间估计。解:解:查分布表可知:显著水平为,自由度为查分布表可知:显著水平为,自由度为10的分布双的分布双侧临界值是侧临界值是2.228,前面已求得,前面已求得 ,将其代入回归,将其代入回归系数区间估计的公式系数区间估计的公式 ,可得:,可得:(四)回归系数的区间估计(

37、四)回归系数的区间估计 39绔鐩稿叧涓庡洖褰掑垎鏋四、一元线性回归模型的检验四、一元线性回归模型的检验 (一)(一) 回归模型检验的种类回归模型检验的种类回归模型的检验包括理论意义检验、一级检验和二级检验。回归模型的检验包括理论意义检验、一级检验和二级检验。理论意义检验主要涉及参数估计值的符号和取值区间,如果它理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。例如,在前面所举的消费模型不能很好地解释现实的现象。例如,在前面所举的消费函数中,函数中,2的取值区

38、间应在至之间。的取值区间应在至之间。在对实际的社会经济现象进行回归分析时,常常会遇到经济意在对实际的社会经济现象进行回归分析时,常常会遇到经济意义检验不能通过的情况。造成这一结果的主要原因是:社会义检验不能通过的情况。造成这一结果的主要原因是:社会经济的统计数据无法像自然科学中的统计数据那样通过有控经济的统计数据无法像自然科学中的统计数据那样通过有控制的实验去取得,因而所观测的样本容量有可能偏小,不具制的实验去取得,因而所观测的样本容量有可能偏小,不具有足够的代表性,或者不能满足标准线性回归分析所要求的有足够的代表性,或者不能满足标准线性回归分析所要求的假定条件假定条件。40绔鐩稿叧涓庡洖褰掑

39、垎鏋一级检验一级检验又称统计学检验,它是利用统计学中的抽样又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验。一级检验是对所有现拟合程度评价和显著性检验。一级检验是对所有现象进行回归分析时都必须通过的检验。象进行回归分析时都必须通过的检验。二级检验二级检验又称经济计量学检验,它是对标准线性回归又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验、多重共线性检验等。序列相关检验、异方差性检验、多重共

40、线性检验等。二级检验对于社会经济现象的定量分析具有特别重二级检验对于社会经济现象的定量分析具有特别重要的意义。要的意义。四、一元线性回归模型的检验四、一元线性回归模型的检验 41绔鐩稿叧涓庡洖褰掑垎鏋(二)拟合程度的评价(二)拟合程度的评价n总离差平方和的分解总离差平方和的分解对任一实际观测值对任一实际观测值t总有:总有: 对上式两边取平方并求和,得到:对上式两边取平方并求和,得到: 可以证明:可以证明: 从而有:从而有: 即即 四、一元线性回归模型的检验四、一元线性回归模型的检验 42绔鐩稿叧涓庡洖褰掑垎鏋上式中,是总离差平方和;是由回归直线可以解上式中,是总离差平方和;是由回归直线可以解释

41、的那一部分离差平方和,称为回归平方和;是用回释的那一部分离差平方和,称为回归平方和;是用回归直线无法解释的离差平方和,称为残差平方和。式子两边归直线无法解释的离差平方和,称为残差平方和。式子两边同除以,得:同除以,得:显而易见,各个样本观测点与样本回归直线靠得越紧,显而易见,各个样本观测点与样本回归直线靠得越紧,SSR在在SST中所占的比例就越大。因此,可定义这一比例为决定系中所占的比例就越大。因此,可定义这一比例为决定系数,即有:数,即有:决定系数是对回归模型拟合程度的综合度量,决定系数越大,决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。决定系数越小,则模型对样本的

42、拟合程模型拟合程度越高。决定系数越小,则模型对样本的拟合程度越差。度越差。 四、一元线性回归模型的检验四、一元线性回归模型的检验 43绔鐩稿叧涓庡洖褰掑垎鏋(二)拟合程度的评价(二)拟合程度的评价n决定系数决定系数r2具有如下特性:具有如下特性:n1决定系数决定系数r2具有非负性。具有非负性。 由决定系数的定义式可知,由决定系数的定义式可知, r2的分子分母均的分子分母均是不可能为负值的平方和,因此其比值必大于零。是不可能为负值的平方和,因此其比值必大于零。(但是在回归模型中不包括截距项的场合,(但是在回归模型中不包括截距项的场合, 由于由于总离差平方和的分解公式不成立,按该式计算的总离差平方

43、和的分解公式不成立,按该式计算的r2有可能小于。有可能小于。 )n2决定系数的取值范围为决定系数的取值范围为 r2 。n3决定系数是样本观测值的函数,它也是一个统决定系数是样本观测值的函数,它也是一个统计量。计量。n4在一元线性回归模型中,决定系数是单相关系在一元线性回归模型中,决定系数是单相关系数的平方。数的平方。44绔鐩稿叧涓庡洖褰掑垎鏋(二)拟合程度的评价(二)拟合程度的评价n【例【例7-7】利用例】利用例7-5中计算的残差平方和,计中计算的残差平方和,计算例算例7-3所拟合的样本回归方程的决定系数。所拟合的样本回归方程的决定系数。n解:解:上式中的上式中的SST是利用表是利用表7-1中

44、给出的数据按下中给出的数据按下式计算的:式计算的:45绔鐩稿叧涓庡洖褰掑垎鏋(三)显著性检验(三)显著性检验 n所谓回归系数的显著性检验,就是根据样本所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行估计的结果对总体回归系数的有关假设进行检验。检验。n下面我们以下面我们以2的检验为例,介绍回归系数显著的检验为例,介绍回归系数显著性检验的基本步骤:性检验的基本步骤:46绔鐩稿叧涓庡洖褰掑垎鏋1t 检验检验(1)提出假设。)提出假设。 对回归系数进行显著性检验,所提出的假设对回归系数进行显著性检验,所提出的假设的一般形式是:的一般形式是: 式中,式中,o表示原假设;表示原

45、假设;1表示备择假设;表示备择假设; 是假设的总体回归系数的真值。在许多回归是假设的总体回归系数的真值。在许多回归分析的计算机程序里,常常令分析的计算机程序里,常常令 0。这是因。这是因为为2 是否为,可以表明是否为,可以表明对对是否有显著是否有显著的影响。的影响。(三)显著性检验(三)显著性检验 47绔鐩稿叧涓庡洖褰掑垎鏋(2)确定显著水平)确定显著水平。显著水平的大小应根据犯哪一类错误可能带显著水平的大小应根据犯哪一类错误可能带来损失的大小确定。一般情况下可取来损失的大小确定。一般情况下可取0.05。(3)计算回归系数的值。)计算回归系数的值。 上式中,是回归系数估计的标准误差。上式中,是

46、回归系数估计的标准误差。 (三)显著性检验(三)显著性检验 48绔鐩稿叧涓庡洖褰掑垎鏋(4)确定临界值。)确定临界值。t检验的临界值是由显著水平和自由度检验的临界值是由显著水平和自由度df决定的。决定的。 这这时应该注意,原假设和备择假设设定的方式不同,时应该注意,原假设和备择假设设定的方式不同,据以判断的接受域和拒绝域也不相同。例如,对据以判断的接受域和拒绝域也不相同。例如,对0:2=0,1:20,进行的是双侧进行的是双侧检验;而对检验;而对0:2=0.9,1:2k。我们称这条假定为标准假定。我们称这条假定为标准假定6。66绔鐩稿叧涓庡洖褰掑垎鏋 (一)回归系数的估计(一)回归系数的估计 n

47、多元线性回归模型中回归系数的估计同样采用最小二乘法。多元线性回归模型中回归系数的估计同样采用最小二乘法。设设n根据微积分中求极小值的原理,可知残差平方和存在极小根据微积分中求极小值的原理,可知残差平方和存在极小值,欲使达到最小,值,欲使达到最小,对对 的偏导数必须等于零。的偏导数必须等于零。将对将对 求偏导数,并令其等于零,加以整理后可求偏导数,并令其等于零,加以整理后可得到以下个方程式:得到以下个方程式: n以上元一次方程组称为正规方程组或标准方程组,通过求以上元一次方程组称为正规方程组或标准方程组,通过求解这一方程组便可以得到解这一方程组便可以得到 。 67绔鐩稿叧涓庡洖褰掑垎鏋(二)总体

48、方差的估计(二)总体方差的估计 n多元线性回归模型中的多元线性回归模型中的2也是利用残差平方和除以其自由度也是利用残差平方和除以其自由度来估计的。即有:来估计的。即有:n上式中,上式中,n是样本观测值的个数;是样本观测值的个数;k是方程中回归系数的个数;是方程中回归系数的个数;数学上可以证明,数学上可以证明,S2是是2的无偏估计。的无偏估计。S2的正平方根的正平方根S又叫做又叫做回归估计的标准误差。回归估计的标准误差。 S越小表明样本回归方程的代表性越越小表明样本回归方程的代表性越强。强。n在编制计算机程序时,残差平方和一般不是按照其定义式计在编制计算机程序时,残差平方和一般不是按照其定义式计

49、算,而是利用以下公式计算:算,而是利用以下公式计算:n上式是残差平方和的矩阵形式。式中上式是残差平方和的矩阵形式。式中Y是因变量样本观测值是因变量样本观测值向量;向量;X是自变量样本观测值矩阵;是自变量样本观测值矩阵; 是回归系数估计值向是回归系数估计值向量的转置向量。量的转置向量。 68绔鐩稿叧涓庡洖褰掑垎鏋三、多元线性回归模型的检验和预测三、多元线性回归模型的检验和预测 (一)拟合程度的评价(一)拟合程度的评价n利用利用R2来评价多元线性回归方程的拟合程度,必须注意以下来评价多元线性回归方程的拟合程度,必须注意以下问题。问题。n由决定系数的定义可知,由决定系数的定义可知, R2的大小取决于

50、残差平方和的大小取决于残差平方和 在在总离差平方和总离差平方和 中所占的比重。在样本容量一定的条中所占的比重。在样本容量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和则件下,总离差平方和与自变量的个数无关,而残差平方和则会随着模型中自变量个数的增加不断减少,至少不会增加。会随着模型中自变量个数的增加不断减少,至少不会增加。因此,因此, R2是自变量个数的非递减函数。是自变量个数的非递减函数。 在一元线性回归模型在一元线性回归模型中,所有模型包含的变量数目都相同,如果所使用的样本容中,所有模型包含的变量数目都相同,如果所使用的样本容量也一样,决定系数便可以直接作为评价拟合程度的尺度。

51、量也一样,决定系数便可以直接作为评价拟合程度的尺度。然而在多元线性回归模型中,各回归模型所含的变量的数目然而在多元线性回归模型中,各回归模型所含的变量的数目未必相同,以未必相同,以R2的大小作为衡量拟合优劣的尺度是不合适的。的大小作为衡量拟合优劣的尺度是不合适的。 69绔鐩稿叧涓庡洖褰掑垎鏋n在多元回归分析中,人们更常用的评价指标是所谓的修正自在多元回归分析中,人们更常用的评价指标是所谓的修正自由度的决定系数。由度的决定系数。 该指标的定义如下:该指标的定义如下:n式中,式中,n是样本容量;是样本容量;k是模型中回归系数的个数。(是模型中回归系数的个数。( n -)和(和( n - k )实际

52、上分别是总离差平方和与残差平方和的自由)实际上分别是总离差平方和与残差平方和的自由度。度。70绔鐩稿叧涓庡洖褰掑垎鏋n修正自由度的决定系数具有以下特点:修正自由度的决定系数具有以下特点:n1. 。因为。因为k1,所以根据,所以根据 和和R2各自的定义式可各自的定义式可以得出这一结论。对于给定的以得出这一结论。对于给定的R2值和值和n值,值, k值越大值越大 越越小。在进行回归分析时,一般总是希望以尽可能少的自变小。在进行回归分析时,一般总是希望以尽可能少的自变量去达到尽可能高的拟合程度。量去达到尽可能高的拟合程度。 作为综合评价这两方作为综合评价这两方面情况的一项指标显然比面情况的一项指标显然

53、比R2更为合适。更为合适。n2. 小于小于1,但未必都大于,但未必都大于0。在拟合极差的场合,有可。在拟合极差的场合,有可能取负值。能取负值。 71绔鐩稿叧涓庡洖褰掑垎鏋【例【例7-10】假设有】假设有7年的年度统计资料,现利用其对同一因变量年的年度统计资料,现利用其对同一因变量拟合了两个样本回归方程。方程一中:拟合了两个样本回归方程。方程一中:k=6, R2=0.82;方程;方程二中:二中:k=2, R2 =0.80。试对这两个回归方程的拟合程度做出。试对这两个回归方程的拟合程度做出评价。评价。解:如果仅从解:如果仅从R2考察,似乎方程一的拟合程度更佳。但是,由考察,似乎方程一的拟合程度更佳

54、。但是,由于两个方程选用的自变量个数不同,这一结论是不正确的。于两个方程选用的自变量个数不同,这一结论是不正确的。将上列数据代入修正自由度的决定系数将上列数据代入修正自由度的决定系数 公式,可得:公式,可得:方程一的方程一的 =1-(7-1)/(7-6)(1-0.82)=-0.08方程二的方程二的 =1-(7-1)/(7-2)(1-0.80)=0.76由此可见,方程二的实际拟合程度远远优于方程一。由此可见,方程二的实际拟合程度远远优于方程一。72绔鐩稿叧涓庡洖褰掑垎鏋(二二)显著性检验显著性检验n1回归系数的显著性检验回归系数的显著性检验n多元回归中进行这一检验的目的主要是为了检验与各回归系多

55、元回归中进行这一检验的目的主要是为了检验与各回归系数对应的自变量对因变量的影响是否显著,以便对自变量的数对应的自变量对因变量的影响是否显著,以便对自变量的取舍做出正确的判断。一般来说,当发现某个自变量的影响取舍做出正确的判断。一般来说,当发现某个自变量的影响不显著时,应将其从模型中删除。这样才能够做到以尽可能不显著时,应将其从模型中删除。这样才能够做到以尽可能少的自变量去达到尽可能高的拟合优度。少的自变量去达到尽可能高的拟合优度。n多元模型中回归系数的检验同样采用检验和多元模型中回归系数的检验同样采用检验和P检验,其原检验,其原理和基本步骤与一元回归模型基本相同,这里不再赘述。下理和基本步骤与

56、一元回归模型基本相同,这里不再赘述。下面仅给出回归系数显著性检验统计量的一般计算公式。面仅给出回归系数显著性检验统计量的一般计算公式。 73绔鐩稿叧涓庡洖褰掑垎鏋 j=1,2,kn式中,式中, 是回归系数的估计值,是回归系数的估计值, 是的标准差的估计值,是的标准差的估计值,其按下式计算:其按下式计算:n式中,式中, 是是(XX)-1的第的第j个对角线元素,个对角线元素,S2是随机误差项方是随机误差项方差的估计值。上式的差的估计值。上式的 t 统计量背后的原假设是统计量背后的原假设是0:j=0,因,因此此 t 的绝对值越大表明的绝对值越大表明j为为0的可能性越小,即表明相应的自的可能性越小,即

57、表明相应的自变量对因变量的影响是显著的。变量对因变量的影响是显著的。74绔鐩稿叧涓庡洖褰掑垎鏋n2回归方程的显著性检验回归方程的显著性检验必须在方差分析的基础上利用检验进行。其具体必须在方差分析的基础上利用检验进行。其具体的方法步骤可归纳如下:的方法步骤可归纳如下:n(1)假设总体回归方程不显著,即有)假设总体回归方程不显著,即有H0:23k0n (2)进行方差分析,列出回归方差分析表(见下)进行方差分析,列出回归方差分析表(见下表)表)75绔鐩稿叧涓庡洖褰掑垎鏋回归模型方差分析表回归模型方差分析表n表中,表中, 回归平方和的取值受个回归系数估计值的影响,同回归平方和的取值受个回归系数估计值的

58、影响,同时又要服从时又要服从 的约束条件,因此其自由度是的约束条件,因此其自由度是k-1。残差。残差平方和取决于平方和取决于n个因变量的观测值,同时又要服从个因变量的观测值,同时又要服从k个正规方个正规方程式的约束,因此其自由度是程式的约束,因此其自由度是n-k。 回归平方和与残差平方回归平方和与残差平方和各除以自身的自由度得到的是样本方差。和各除以自身的自由度得到的是样本方差。76绔鐩稿叧涓庡洖褰掑垎鏋(3)根据方差分析的结果求统计量,即)根据方差分析的结果求统计量,即数学上可以证明,在随机误差项服从正态分布同时数学上可以证明,在随机误差项服从正态分布同时原假设成立的条件下,服从于自由度为原

59、假设成立的条件下,服从于自由度为(k-1)和和(n-k)的分布。的分布。(4)根据自由度和给定的显著性水平)根据自由度和给定的显著性水平,查,查F分布表中分布表中的理论临界值的理论临界值F。当。当F F时,拒绝原假设,即认时,拒绝原假设,即认为总体回归函数中各自变量与因变量的线性回归关为总体回归函数中各自变量与因变量的线性回归关系显著。当系显著。当F F时,接受原假设,即认为总体回归时,接受原假设,即认为总体回归函数中,自变量与因变量的线性关系不显著,因而函数中,自变量与因变量的线性关系不显著,因而所建立的回归模型没有意义。所建立的回归模型没有意义。 77绔鐩稿叧涓庡洖褰掑垎鏋(三)多元线性回

60、归预测(三)多元线性回归预测n在通过各种检验的基础上,多元线性回归模型可以在通过各种检验的基础上,多元线性回归模型可以用于预测。多元线性回归预测与一元线性回归预测用于预测。多元线性回归预测与一元线性回归预测的原理是一致的,其基本公式如下:的原理是一致的,其基本公式如下:n式中,式中,Xjf(j=2,3,k)是给定的是给定的Xj在预测期的具体在预测期的具体数值;数值; 是已估计出的样本回归系数;是已估计出的样本回归系数; 是是Xj给定时给定时的预测值。的预测值。n该方程的矩阵形式为:该方程的矩阵形式为:78绔鐩稿叧涓庡洖褰掑垎鏋式中:式中:n多元线性回归预测标准误差的计算公式如下:多元线性回归预

61、测标准误差的计算公式如下:式中,式中,S是回归方程估计的标准误差。是回归方程估计的标准误差。n多元线性回归预测多元线性回归预测f的(的()的置信区间可由下式给出:)的置信区间可由下式给出:式中,式中,t/2是显著水平为是显著水平为的的t分布双侧临界值。分布双侧临界值。 79绔鐩稿叧涓庡洖褰掑垎鏋四、复相关系数和偏相关系数四、复相关系数和偏相关系数 (一)复相关系数(一)复相关系数n样本复相关系数(以下简称复相关系数)的定义式如下:样本复相关系数(以下简称复相关系数)的定义式如下:n实际计算复相关系数时,一般不直接根据其定义式,而是先实际计算复相关系数时,一般不直接根据其定义式,而是先计算出决定

62、系数,然后再求决定系数的平方根。计算出决定系数,然后再求决定系数的平方根。n复相关系数只取正值。因此,复相关系数只是反映一个变量复相关系数只取正值。因此,复相关系数只是反映一个变量Y与其他多个变量与其他多个变量X2,X3,Xk之间线性相关程度的指标,之间线性相关程度的指标,而不能反映其相互之间线性相关的方向。而不能反映其相互之间线性相关的方向。n复相关系数的取值区间为:复相关系数的取值区间为:R。80绔鐩稿叧涓庡洖褰掑垎鏋(二)偏相关系数(二)偏相关系数在对其他变量的影响进行控制的条件下,衡量多个变量中某两个在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度和相关方

63、向的指标称为变量之间的线性相关程度和相关方向的指标称为偏相关系数偏相关系数。在多变量相关的场合,由于变量之间存在错综复杂的关系,因此在多变量相关的场合,由于变量之间存在错综复杂的关系,因此偏相关系数与偏相关系数与单相关系数单相关系数在数值上可能相差很大,有时甚至符在数值上可能相差很大,有时甚至符号都可能相反。单相关系数受其他因素的影响,反映的往往是号都可能相反。单相关系数受其他因素的影响,反映的往往是表面的非本质的联系,而偏相关系数则较能说明现象之间真实表面的非本质的联系,而偏相关系数则较能说明现象之间真实的联系。的联系。例如例如,一种商品的需求既受收入水平的影响又受其价,一种商品的需求既受收

64、入水平的影响又受其价格的影响。按照经济学理论,在一定的收入水平下,该商品的格的影响。按照经济学理论,在一定的收入水平下,该商品的价格越高,商品的需求量就越小。也就是说,需求与价格之间价格越高,商品的需求量就越小。也就是说,需求与价格之间应当是负相关。可是,在现实经济生活中,由于收入和价格常应当是负相关。可是,在现实经济生活中,由于收入和价格常常都有不断提高的趋势,如果不考虑收入对需求的影响,仅仅常都有不断提高的趋势,如果不考虑收入对需求的影响,仅仅利用需求和价格的时间序列数据去计算单相关系数,就有可能利用需求和价格的时间序列数据去计算单相关系数,就有可能得出价格越高需求越大的错误结论。得出价格

65、越高需求越大的错误结论。81绔鐩稿叧涓庡洖褰掑垎鏋n样本单相关系数也可定义为两个样本回归系数的乘积的开方,样本单相关系数也可定义为两个样本回归系数的乘积的开方,即即:n上式中上式中r的符号应与回归系数的符号一致。回归系数为正数时,的符号应与回归系数的符号一致。回归系数为正数时, r取正值;回归系数为负数时,取正值;回归系数为负数时, r取负值。取负值。n样本偏相关系数也可以按照类似的形式来定义,即偏相关系样本偏相关系数也可以按照类似的形式来定义,即偏相关系数等于两个相应的偏回归系数的几何平均数。数等于两个相应的偏回归系数的几何平均数。n为简明起见,下面举变量的偏相关分析为例。设有个变为简明起见

66、,下面举变量的偏相关分析为例。设有个变量量X1、X2和和X3。个变量各自以另两个变量为自变量拟合的。个变量各自以另两个变量为自变量拟合的样本回归方程如下:样本回归方程如下:82绔鐩稿叧涓庡洖褰掑垎鏋n利用以上偏回归系数,个变量之间的偏相利用以上偏回归系数,个变量之间的偏相关系数可定义如下:关系数可定义如下:n偏相关系数的取值范围与单相关系数一样也偏相关系数的取值范围与单相关系数一样也是在是在-1至至+1之间,其符号与相应的偏回归系之间,其符号与相应的偏回归系数相同。数相同。83绔鐩稿叧涓庡洖褰掑垎鏋n以上偏相关系数的定义可以推广到个变量的场合。在进行以上偏相关系数的定义可以推广到个变量的场合。

67、在进行实际的客观现象的定量分析时,人们所关心的通常是某一个实际的客观现象的定量分析时,人们所关心的通常是某一个因变量因变量Y 与多个自变量之间的偏相关程度。这时若令与多个自变量之间的偏相关程度。这时若令Y为为X1,则则Y与各自变量的偏相关系数的一般形式可表现为:与各自变量的偏相关系数的一般形式可表现为:式中,式中, 是是Y对对Xj的偏回归系数;的偏回归系数; 是是Xj对对Y的偏回归系数。的偏回归系数。 表示表示k个变量情况下个变量情况下Y与与Xj的偏相关系数,的偏相关系数,它反映其他自变量保持不变时它反映其他自变量保持不变时Y与与Xj的净相关程度。的净相关程度。 84绔鐩稿叧涓庡洖褰掑垎鏋第四

68、节第四节 Excel在相关与回归分析中的应用在相关与回归分析中的应用 n【例【例7-11】Checkers Pizza公司是美国休斯顿附近公司是美国休斯顿附近Westbury镇上仅有的从事家庭比萨饼送货业务的两镇上仅有的从事家庭比萨饼送货业务的两家公司之一,另一家竞争者欧文公司也提供同样的家公司之一,另一家竞争者欧文公司也提供同样的产品与服务。此外,麦当劳连锁店提供的汉堡包等产品与服务。此外,麦当劳连锁店提供的汉堡包等服务属于替代性商品,同样与公司存在竞争关系。服务属于替代性商品,同样与公司存在竞争关系。n公司的经理安妮知道她的顾客对于价格是非常敏感公司的经理安妮知道她的顾客对于价格是非常敏感

69、的,镇上的比萨饼购买者很关注她与她的竞争者的的,镇上的比萨饼购买者很关注她与她的竞争者的价格变化。安妮决定估计她的比萨饼经验需求函数。价格变化。安妮决定估计她的比萨饼经验需求函数。她收集了过去她收集了过去24个月的有关数据(个月的有关数据(参见参见Excel文件文件)。)。 注:本案例数据引自美国注:本案例数据引自美国S.Charles Maurice和和Christopher R.Thomas 管理经济学(第管理经济学(第7版)中译本版)中译本207页,页,.陈章武陈章武等译,机械工业出版社等译,机械工业出版社2003年年8月。月。85绔鐩稿叧涓庡洖褰掑垎鏋n要求要求 :n1绘制本公司比萨饼

70、的需求量与价格的相关图。绘制本公司比萨饼的需求量与价格的相关图。n2估计以下线性需求模型的参数,并进行统计检验;估计以下线性需求模型的参数,并进行统计检验;n3计算本公司比萨饼的需求量与上述模型中其他各变量的单相计算本公司比萨饼的需求量与上述模型中其他各变量的单相关系数;计算本公司比萨饼的需求量与小镇居民人均收入的偏关系数;计算本公司比萨饼的需求量与小镇居民人均收入的偏相关系数。相关系数。n4假定小镇居民的人均年收入为假定小镇居民的人均年收入为29000美元,欧文公司和麦当美元,欧文公司和麦当劳公司商品的价格分别为:劳公司商品的价格分别为:10.5美元和美元和1.3美元,本公司价格维美元,本公司价格维持持9.75美元,试预测本公司比萨饼的需求量,并给出置信度为美元,试预测本公司比萨饼的需求量,并给出置信度为95%的预测区间。的预测区间。 答案见答案见Excel文件文件86绔鐩稿叧涓庡洖褰掑垎鏋

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号