统计学课件:第4章 相关与回归

上传人:公**** 文档编号:570090590 上传时间:2024-08-01 格式:PPT 页数:60 大小:2.33MB
返回 下载 相关 举报
统计学课件:第4章 相关与回归_第1页
第1页 / 共60页
统计学课件:第4章 相关与回归_第2页
第2页 / 共60页
统计学课件:第4章 相关与回归_第3页
第3页 / 共60页
统计学课件:第4章 相关与回归_第4页
第4页 / 共60页
统计学课件:第4章 相关与回归_第5页
第5页 / 共60页
点击查看更多>>
资源描述

《统计学课件:第4章 相关与回归》由会员分享,可在线阅读,更多相关《统计学课件:第4章 相关与回归(60页珍藏版)》请在金锄头文库上搜索。

1、第四章第四章 相关和回归分析相关和回归分析n第一节第一节 相关关系和相关分析的内容相关关系和相关分析的内容n第二节第二节 相关图表和简单相关系数相关图表和简单相关系数n第三节第三节 简单线性回归分析简单线性回归分析n第四节第四节 非线性回归方程非线性回归方程一、函数关系与相关关系一、函数关系与相关关系1.函数关系函数关系当一个或几个变量取一定的值当一个或几个变量取一定的值时,另一个变量有确定值与之时,另一个变量有确定值与之相对应,我们称这种关系为确相对应,我们称这种关系为确定性的函数关系。定性的函数关系。第一节第一节 相关关系和相关分析的内容相关关系和相关分析的内容(函数关系)(函数关系)(1

2、)是一一对应的确定关系)是一一对应的确定关系(2)设设有有两两个个变变量量 x 和和 y ,变变量量 y 随随变变量量 x 一一起起变变化化,并并完完全全依依赖赖于于 x ,当当变变量量 x 取取某某个个数数值值时时, y 依依确确定定的的关关系系取取相相应应的的值值,则则称称 y 是是 x 的的函函数数,记记为为 y = f (x),其其中中 x 称称为为自自变变量,量,y 称为因变量称为因变量(3)各观测点落在一条线上)各观测点落在一条线上 x xy y变量间的关系变量间的关系(函数关系)(函数关系) 函数关系的例子函数关系的例子某某种种商商品品的的销销售售额额(y)与与销销售售量量(x)

3、之之间间的的关关系可表示为系可表示为 y = p x (p 为单价为单价)圆圆的的面面积积(S)与与半半径径之之间间的的关关系系可可表表示示为为S = r2 企企业业的的原原材材料料消消耗耗额额(y)与与产产量量(x1) 、单单位位产产量量消消耗耗(x2) 、原原材材料料价价格格(x3)之之间间的的关关系系可可表示为表示为y = x1 x2 x3 2. 相关关系:相关关系: 当一个或几个相互联系的变当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律量的值虽然不确定,但它仍按某种规律在一定的范围内变化。在一定的范围内变化

4、。现象之间客观存在的不严格、不确现象之间客观存在的不严格、不确定的数量依存关系。定的数量依存关系。变量间的关系变量间的关系(相关关系)(相关关系)(1)变变量量间间关关系系不不能能用用函函数数关关系精确表达;系精确表达;(2)一一个个变变量量的的取取值值不不能能由由另另一个变量唯一确定;一个变量唯一确定;(3)当当变变量量 x 取取某某个个值值时时,变变量量 y 的取值可能有几个;的取值可能有几个;(4)各观测点分布在直线周围。)各观测点分布在直线周围。x xy y(相关关系)(相关关系) 相关关系的例子相关关系的例子商品的消费量商品的消费量(y)与居民收入与居民收入(x)之间的关系之间的关系

5、商品的消费量商品的消费量(y)与物价与物价(x)之间的关系之间的关系粮粮食食亩亩产产量量(y)与与施施肥肥量量(x1) 、降降雨雨量量(x2) 、温度温度(x3)之间的关系之间的关系收入水平收入水平(y)与受教育程度与受教育程度(x)之间的关系之间的关系父亲身高父亲身高(y)与子女身高与子女身高(x)之间的关系之间的关系n相关关系也具有某种变动规律性,所以,相相关关系也具有某种变动规律性,所以,相关关系经常可以用一定的函数形式去近似地关关系经常可以用一定的函数形式去近似地描述。描述。n客观现象的函数关系可以用数学分析的方法客观现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系则

6、是借去研究,而研究客观现象的相关关系则是借助于统计学中的相关与回归分析方法。助于统计学中的相关与回归分析方法。n指出下列现象之间属于相关关系还是函数关系?指出下列现象之间属于相关关系还是函数关系?n1.商品流转规模越大,流通费用率越低。商品流转规模越大,流通费用率越低。n2.秤砣的误差越大,所权衡的误差也越大。秤砣的误差越大,所权衡的误差也越大。n3.测量次数越多,其平均长度越接近于实际长度。测量次数越多,其平均长度越接近于实际长度。n4.物体体积随着温度升高而膨胀,随着压力加大而物体体积随着温度升高而膨胀,随着压力加大而收缩。收缩。n5.车辆使用年限越长,修理费用增长越快。车辆使用年限越长,

7、修理费用增长越快。n6.圆的半径越大,其面积也越大。圆的半径越大,其面积也越大。n7.广告费用支出越多,商品销售额也有增长倾向。广告费用支出越多,商品销售额也有增长倾向。n8.机械化程度越高,劳动生产率一般也越高。机械化程度越高,劳动生产率一般也越高。二、相关关系的种类二、相关关系的种类1.按相关的程度可分为完全相关、不完全相关和不相按相关的程度可分为完全相关、不完全相关和不相关。关。当一种现象的数量变化完全由另一个现象的数当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相量变化所确定时,称这两种现象间的关系为完全相关。在这种场合,相关关系便成为函数关系。因此

8、关。在这种场合,相关关系便成为函数关系。因此也可以说函数关系是相关关系的一个特例。也可以说函数关系是相关关系的一个特例。当两个现象彼此互不影响,其数量变化各自独当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。立时,称为不相关现象。两个现象之间的关系介于完全相关和不相关之两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种间,称为不完全相关,一般的相关现象都是指这种不完全相关。不完全相关。 2.按相关形式划分可以分为线性相关和非线性相关。按相关形式划分可以分为线性相关和非线性相关。 图中(图中(1)、()、(2)为线性相关,()为线性相关,(3)、(

9、)、(4)为非线性相关)为非线性相关 3.按相关的方向划分可分为正相关和负相关。按相关的方向划分可分为正相关和负相关。n(1)正相关:两个相关现象间,当一个变量的数)正相关:两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之值增加(或减少)时,另一个变量的数值也随之增加(或减少),即同方向变化。增加(或减少),即同方向变化。 例如收入与消费的关系。例如收入与消费的关系。n(2)负相关:当一个变量的数值增加(或减少)负相关:当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增加)时,而另一个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。趋势变化,

10、即反方向变化。 例如物价与消费的关系。例如物价与消费的关系。n4.按相关关系涉及的因素多少划分分为单相关、复按相关关系涉及的因素多少划分分为单相关、复相关和偏相关。相关和偏相关。n两个变量之间的相关,称为单相关。两个变量之间的相关,称为单相关。n当所研究的是一个变量对两个或两个以上其他变当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。量的相关关系时,称为复相关。n在某一现象与多种现象相关的场合,假定其他变在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为量不变,专门考察其中两个变量的相关关系称为偏相关。例如,在假定人们的收入水平不变的条偏

11、相关。例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是件下,某种商品的需求与其价格水平的关系就是一种偏相关。一种偏相关。三、相关分析的内容三、相关分析的内容n1.确定相关关系的存在,相关关系呈现的的形态和确定相关关系的存在,相关关系呈现的的形态和方向,相关的密切程度。方向,相关的密切程度。n绘制相关图表,计算相关系数。绘制相关图表,计算相关系数。n2.确定相关系数的数学表达式确定相关系数的数学表达式回归分析。回归分析。n3.确定因变量估计值误差的程度。确定因变量估计值误差的程度。n拟合程度的评价拟合程度的评价n计算估计标准误计算估计标准误第二节第二节 相关图表和简单

12、相关系数相关图表和简单相关系数n 一、相关表一、相关表n1.简单相关表:将自变量简单相关表:将自变量x的数值按照从小到大的顺序,并配合因变量的数值按照从小到大的顺序,并配合因变量y的的数值一一对应而平行排列的表。数值一一对应而平行排列的表。n例:为了研究分析某种劳务产品完成量与其单位产品成本之间的关系,例:为了研究分析某种劳务产品完成量与其单位产品成本之间的关系,调查调查30个同类服务公司得到的原始数据如表。个同类服务公司得到的原始数据如表。整理后有整理后有n2.分组相关表:按自变量分组相关表:按自变量x分组,并计算次数分组,并计算次数f,对应的因,对应的因变量变量y不分组,计算其平均数。不分

13、组,计算其平均数。n二、相关图:又称散点图。将二、相关图:又称散点图。将x置于横轴上,置于横轴上,y置置于纵轴上,将(于纵轴上,将(x,y)绘于坐标图上。绘于坐标图上。三、简单相关系数的计算三、简单相关系数的计算n 1.简单相关系数:在线性条件下说明两个变量之间相简单相关系数:在线性条件下说明两个变量之间相关关系密切程度的统计分析指标关关系密切程度的统计分析指标,简称相关系数,通常简称相关系数,通常用用 表示。表示。n 2.计算:计算:计算相关系数的计算相关系数的“积差法积差法”3.相关系数的特点相关系数的特点(1)的取值介于与之间,的取值介于与之间, r 的取值范围是的取值范围是 -1,1(

14、2)在大多数情况下,在大多数情况下,|,即,即与与的样的样本观测值之间存在着一定的线性关系,当本观测值之间存在着一定的线性关系,当时,时,与为正相关,当与为正相关,当时,时,与与为负相关。为负相关。 |的数值愈接近于的数值愈接近于1,表示,表示x与与y直线相关程度愈高;直线相关程度愈高;反之,反之, |的数值愈接近于的数值愈接近于0,表示,表示x与与y直线相关直线相关程度愈低。通常判断的标准是程度愈低。通常判断的标准是: |0.3称为微弱称为微弱相关,相关,0.3 |0.5称为低度相关,称为低度相关,0. |0.8称为显著相关称为显著相关 ,0.8 |1称为高度相关称为高度相关或强相关。或强相

15、关。(3)如果)如果|=1,则表明,则表明与与完全线性相完全线性相关,当关,当=1时,称为完全正相关,时,称为完全正相关, 而而=-1时,称为完全负相关。时,称为完全负相关。(4)是对变量之间线性相关关系的度量。是对变量之间线性相关关系的度量。 =0只是表明两个变量之间不存在线性关系,只是表明两个变量之间不存在线性关系,它并不意味着它并不意味着与与之间不存在其他类型的之间不存在其他类型的关系。关系。 相关关系的测度相关关系的测度(相关系数取值及其意义)(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关完全负相关无线性相关无线性相关完全正相关完全正相关负相关程度增加负相关程度增

16、加负相关程度增加负相关程度增加r正相关程度增加正相关程度增加正相关程度增加正相关程度增加相关系数只度量变量间的线性关系,因此,弱相相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;关不一定表明变量间没有关系;极端值可能影响相关系数。极端值可能影响相关系数。警惕伪相关。警惕伪相关。相关关系可能是伪相关,即两变量的相关只是相关关系可能是伪相关,即两变量的相关只是表面上的表面上的, ,它实际上由第三变量引起,当第三变它实际上由第三变量引起,当第三变量消失时量消失时, ,相关关系亦随之消失。相关关系亦随之消失。请看下例。请看下例。伪相关的例子:教堂数与监狱服刑人数同步增长伪相关的例

17、子:教堂数与监狱服刑人数同步增长n美国印第安美国印第安纳州的地区教会想要筹款州的地区教会想要筹款兴建新教堂,建新教堂,提出教堂能提出教堂能洁净人人们的心灵,减少犯罪,降低的心灵,减少犯罪,降低监狱服刑人数的口号。服刑人数的口号。n为了增了增进民众参与的民众参与的热诚和信心,教会的神父收和信心,教会的神父收集了近集了近15年的教堂数与在年的教堂数与在监狱服刑的人数服刑的人数进行行统计分析。分析。n结果却令教会大吃一惊。最近果却令教会大吃一惊。最近15年教堂数与年教堂数与监狱服刑人数呈服刑人数呈显著的正相关。著的正相关。n那么是否可以由此得出,教堂建得越多,就可能那么是否可以由此得出,教堂建得越多

18、,就可能带来更多的犯罪呢?来更多的犯罪呢?2024/8/124n经过统计学家和教会神父深入讨论,并进一步收经过统计学家和教会神父深入讨论,并进一步收集近集近15年的当地人口变动资料和犯罪率等资料作年的当地人口变动资料和犯罪率等资料作进一步分析,发现:进一步分析,发现:n监狱服刑人数的增加和教堂数的增加都与人口监狱服刑人数的增加和教堂数的增加都与人口的增加有关。的增加有关。n教堂数的增加并非监狱服刑人数增加的原因。教堂数的增加并非监狱服刑人数增加的原因。n至此,教会人士总算松了一口气至此,教会人士总算松了一口气。2024/8/125还可以有:还可以有:1234第三节第三节 简单线性回归分析线性回

19、归分析相关分析与回归分析的关系相关分析与回归分析的关系一元线性回归模型一元线性回归模型拟合程度的评价拟合程度的评价估计标准误估计标准误2024/8/128n1877年年 弗弗朗西斯朗西斯高尔高尔顿爵士顿爵士 在遗在遗传学研究过传学研究过程中测量了程中测量了1078个父亲个父亲及成年儿子及成年儿子的身高,它的身高,它们之间的数们之间的数量关系如图量关系如图1:2024/8/129“回归回归”一词的由来:一词的由来:多数点子位于角多数点子位于角平分斜线的两侧平分斜线的两侧椭圆形面积之内,椭圆形面积之内,落在斜线上的点落在斜线上的点子极少,即儿子子极少,即儿子与父亲身高完全与父亲身高完全相同的极少。

20、相同的极少。由点子落在斜线由点子落在斜线周围还说明,高周围还说明,高个子的父亲有着个子的父亲有着较高身材的儿子,较高身材的儿子,而矮个子父亲的而矮个子父亲的儿子身材也比较儿子身材也比较矮。矮。同时,我们也看到同时,我们也看到一些远离斜线的点一些远离斜线的点子,这些点子反映子,这些点子反映的是父亲的身高与的是父亲的身高与儿子的身高相差甚儿子的身高相差甚远的情况。比如高远的情况。比如高个子的父亲有矮儿个子的父亲有矮儿子的情况,或者矮子的情况,或者矮父亲有高个儿子的父亲有高个儿子的情况。情况。45线线n作作相关分析相关分析知道,父亲身高和儿子身高的相关系数为知道,父亲身高和儿子身高的相关系数为0.5

21、01,表明高个子的父亲会有较高的儿子,而低个子父亲的儿子也比表明高个子的父亲会有较高的儿子,而低个子父亲的儿子也比较低,但这种相关关系并不明显。较低,但这种相关关系并不明显。n那么,父子身高之间有什么规律呢?经过对那么,父子身高之间有什么规律呢?经过对1078对父子身高数对父子身高数据的计算,得到:据的计算,得到:n父亲的平均身高父亲的平均身高 =67.6英寸英寸68英寸英寸n儿子的平均身高儿子的平均身高 =68.7英寸英寸69英寸英寸n儿子的平均身高比父亲高一英寸,表明下一代的平均身高比儿子的平均身高比父亲高一英寸,表明下一代的平均身高比上一代要高上一代要高?n这样,我们会自然地猜测这样,我

22、们会自然地猜测72英寸的父亲平均会有英寸的父亲平均会有73英寸的儿子;英寸的儿子;64英寸的父亲平均会有英寸的父亲平均会有65英寸的儿子。英寸的儿子。2024/8/130图图2中斜虚线是从父子身中斜虚线是从父子身高推测的关系,即高推测的关系,即58英寸英寸父亲有父亲有59英寸的儿子,英寸的儿子,59英寸的父亲有英寸的父亲有60英寸的儿英寸的儿子等等。子等等。图图2中的实线是回归线。中的实线是回归线。2024/8/131在父亲身高在父亲身高64英寸和英寸和72英寸处的两个条形虚线,英寸处的两个条形虚线,表明表明64英寸高父亲和英寸高父亲和72英寸高父亲的儿子们身英寸高父亲的儿子们身高的分布情况高

23、的分布情况回归回归regression平均身高平均身高图图2表明表明64英寸高父亲的儿子们的身高多数高于英寸高父亲的儿子们的身高多数高于65英寸,英寸,即即较矮父亲的儿子们多少比父亲身材要高较矮父亲的儿子们多少比父亲身材要高。而而72英寸高父亲的儿子们身高多数低于英寸高父亲的儿子们身高多数低于73英寸,甚至多数英寸,甚至多数低于与父亲同样高度的低于与父亲同样高度的72英寸,即英寸,即较高父亲的儿子们多数较高父亲的儿子们多数比父亲身材要矮。比父亲身材要矮。这种现象称为这种现象称为“回归效应回归效应”即回归到一般高度的效应。即回归到一般高度的效应。2024/8/132 一、回归分析与相关分析的关系

24、一、回归分析与相关分析的关系1.相关分析相关分析就是用一个指标来表明现象间相互就是用一个指标来表明现象间相互依存关系的密切程度。广义的相关依存关系的密切程度。广义的相关分析包括相关关系的分析(狭义的分析包括相关关系的分析(狭义的相关分析)和回归分析。相关分析)和回归分析。2.回归分析回归分析是指对具有相关关系的现象,根据是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式)合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变,用来近似地表达变量间的平均变化关系的一种统计分析方法。化关系的一种统计分析方法。 相关分析相

25、关分析回归分析回归分析区区别别 不必确定自变量和不必确定自变量和因变量因变量必须事先确定哪个为自变必须事先确定哪个为自变量,哪个为因变量量,哪个为因变量不能指出变量间相不能指出变量间相互关系的具体形式互关系的具体形式能确切的指出变量之间相能确切的指出变量之间相互关系的具体形式互关系的具体形式变量一般都是随机变量一般都是随机变量变量因变量是随机的,自变量因变量是随机的,自变量则作为研究时给定的非随则作为研究时给定的非随机变量机变量联联系系 相关分析是回归分析的基础和前提;相关分析是回归分析的基础和前提;回归分析是相关分析的深入和继续。回归分析是相关分析的深入和继续。2024/8/134二、简单线

26、性回归方程二、简单线性回归方程n 回归方程:回归方程: 经整理,得到以下标准方程组经整理,得到以下标准方程组解该方程组可得解该方程组可得 b表示自变量表示自变量x每变动一个计量单位每变动一个计量单位时时,因变量因变量y的平均变动值,称的平均变动值,称回归系回归系数数。当。当b的符号为正时,的符号为正时,x和和y按相同按相同方向变动,是正相关关系;当方向变动,是正相关关系;当b的符的符号为负时,自变量号为负时,自变量x和因变量和因变量y按相反按相反方向变动,是负相关关系。方向变动,是负相关关系。例:现以前例的资料配合回归直线,计算如下:例:现以前例的资料配合回归直线,计算如下: b表示人口增加量

27、每增加(或减少)表示人口增加量每增加(或减少)1千人,该种千人,该种食品的年需求量平均来说增加(或减少)食品的年需求量平均来说增加(或减少)0.530十吨十吨即即5.301吨。吨。 根据回归方程,还可以给出自变量的某一数值来估根据回归方程,还可以给出自变量的某一数值来估计或预测因变量平均可能值。例如,当人口增长量为计或预测因变量平均可能值。例如,当人口增长量为400千人时,该食品的年需求量为千人时,该食品的年需求量为用用Excel进行回归分析进行回归分析n第第1步:选择步:选择“工具工具”下拉菜单下拉菜单n第第2步:选择步:选择“数据分析数据分析”选项选项n第第3步:在分析工具中选择步:在分析

28、工具中选择“回归回归”,然后选择,然后选择“确确定定”n第第4步:当对话框出现时步:当对话框出现时 在在“Y值输入区域值输入区域”方框内键入方框内键入Y的数据区域的数据区域 在在“X值输入区域值输入区域”方框内键入方框内键入X的数据区域的数据区域 在在“置信度置信度”选项中给出所需的数值选项中给出所需的数值 在在“输出选项输出选项”中选择输出区域中选择输出区域 在在“残差残差”分析选项中选择所需的选项分析选项中选择所需的选项Excel的输出结果的输出结果直线回归方程中的回归系数与相关系数的关系直线回归方程中的回归系数与相关系数的关系:三、一元线性回归模型的检验三、一元线性回归模型的检验2024

29、/8/141n回归模型的检验包括理论意义检验、一级检验和二回归模型的检验包括理论意义检验、一级检验和二级检验。级检验。n理论意义检验主要涉及参数估计值的符号和取值区间,如理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。就说明模型不能很好地解释现实的现象。 n一级检验又称统计学检验,它是利用统计学中的抽样理论一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评来检验样本回归方程的可靠性,具体又可分为拟合程度评价和

30、显著性检验。一级检验是对所有现象进行回归分析时价和显著性检验。一级检验是对所有现象进行回归分析时都必须通过的检验。都必须通过的检验。n二级检验又称计量经济学检验,它是对标准线性回归模型二级检验又称计量经济学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验、多重共线性检验等。验、异方差性检验、多重共线性检验等。 所谓拟合优度,是指样本观测值聚集在样所谓拟合优度,是指样本观测值聚集在样本回归线周围的本回归线周围的紧密程度紧密程度。测量紧密程度最常用的数量尺度测量紧密程度最常用的数量尺度是是样本样本判判定

31、系数定系数(又称(又称决定系数决定系数)。它是建立在对总离差平方和进行分解的它是建立在对总离差平方和进行分解的基础之上的。基础之上的。2024/8/142拟合优度的评价拟合优度的评价总离差平方和的分解总离差平方和的分解n因变量因变量 y 的取值是不同的,的取值是不同的,y 取值的这种波取值的这种波动称为变差。变差来源于两个方面:动称为变差。变差来源于两个方面:n由于自变量由于自变量 x 的取值不同造成的;的取值不同造成的;n除除 x 以外的其他因素以外的其他因素(如如x对对y的非线性影响、测的非线性影响、测量误差等量误差等)的影响。的影响。n对一个具体的观测值来说,离差的大小可以对一个具体的观

32、测值来说,离差的大小可以通过该实际观测值与其均值之差通过该实际观测值与其均值之差 来表示。来表示。离差平方和的分解(图示)离差平方和的分解(图示)x xy yy y 离差分解图离差分解图离差平方和的分解(三个平方和的关系)离差平方和的分解(三个平方和的关系)n n1、从图上看有、从图上看有n2、两端平方后求和有、两端平方后求和有SST = SSR + SSE残差平方和残差平方和(SSE)回归平方和回归平方和(SSR)总离差平方和总离差平方和(SST)离差平方和的分解离差平方和的分解 (三个平方和的意义)(三个平方和的意义)n总离差平方和总离差平方和(SST)n反映因变量的反映因变量的 n 个观

33、察值与其均值的总离差个观察值与其均值的总离差n回归平方和回归平方和(SSR)n反映自变量反映自变量 x 的变化对因变量的变化对因变量 y 取值变化的影响,取值变化的影响,或者说,是由于或者说,是由于 x 与与 y 之间的线性关系引起的之间的线性关系引起的 y 的取值变化,也称为可解释的离差平方和。的取值变化,也称为可解释的离差平方和。n残差平方和残差平方和(SSE)n反映除反映除 x 以外的其他因素对以外的其他因素对 y 取值的影响,也称取值的影响,也称为不可解释的离差平方和或剩余离差平方和。为不可解释的离差平方和或剩余离差平方和。样本决定系数(判定系数样本决定系数(判定系数 )n1.回归平方

34、和占总离差平方和的比例:回归平方和占总离差平方和的比例:n2.反映回归直线的拟合程度。反映回归直线的拟合程度。n3.取值范围在取值范围在 0 , 1 之间。之间。n4. 1,说明回归方程拟合的越好;,说明回归方程拟合的越好; 0,说,说明回归方程拟合的越差。明回归方程拟合的越差。n5.在一元线性回归模型中,判定系数等于相关系在一元线性回归模型中,判定系数等于相关系数的平方,即数的平方,即coefficient of determination四、估计标准误差四、估计标准误差n 1.定义:是反映观测值与其估定义:是反映观测值与其估计值的平均差异程度的指标。计值的平均差异程度的指标。 可得简化式可

35、得简化式2.在大样本在大样本(n足够大足够大)情况下:情况下:n 3.作用作用n (1)说明以回归方程的估计值的代表性大小。)说明以回归方程的估计值的代表性大小。n (2)说明)说明x 和和y 的相关性大小。的相关性大小。 这时有这时有定性分析定性分析是依据研究者的理论知识和实践经是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关验,对客观现象之间是否存在相关关系、何种关系以及自变量因变量关系、何种关系以及自变量因变量的确定作出判断。的确定作出判断。定量分析定量分析在定性分析的基础上,通过编制在定性分析的基础上,通过编制相相关表关表、绘制、绘制相关图相关图、计算、计算相关系数相关系数

36、等方法,来判断现象之间相关的方等方法,来判断现象之间相关的方向、形态及密切程度,以及相应的向、形态及密切程度,以及相应的回归方程的拟合。回归方程的拟合。五、正确运用回归分析的条件五、正确运用回归分析的条件 在定性的基础上再进行定量分析。在定性的基础上再进行定量分析。第四节非线性相关与回归分析第四节非线性相关与回归分析n一、非线性函数形式的确定一、非线性函数形式的确定n在对实际的客观现象进行定量分析时,选择回归方在对实际的客观现象进行定量分析时,选择回归方程的具体形式应遵循以下原则:程的具体形式应遵循以下原则:n首先,方程形式应与有关实质性科学的基本理论相一致。首先,方程形式应与有关实质性科学的

37、基本理论相一致。例如,采用幂函数的形式,能够较好地表现生产函数;采例如,采用幂函数的形式,能够较好地表现生产函数;采用多项式方程能够较好地反映总成本与总产量之间的关系用多项式方程能够较好地反映总成本与总产量之间的关系等等。等等。n其次,方程有较高的拟合程度。因为只有这样,才能说明其次,方程有较高的拟合程度。因为只有这样,才能说明回归方程可以较好地反映现实经济的运行情况。回归方程可以较好地反映现实经济的运行情况。n最后,方程的数学形式要尽可能简单。如果几种形式都能最后,方程的数学形式要尽可能简单。如果几种形式都能基本符合上述两项要求,则应该选择其中数学形式较简单基本符合上述两项要求,则应该选择其

38、中数学形式较简单的一种。一般来说,数学形式越简单,其可操作性就越强。的一种。一般来说,数学形式越简单,其可操作性就越强。n(一)抛物线函数(一)抛物线函数n(二)双曲线函数(二)双曲线函数n(三)幂函数(三)幂函数n(四)指数函数(四)指数函数n(五)对数函数(五)对数函数n(六)形曲线函数(六)形曲线函数n(七)多项式方程(七)多项式方程几种常见的非线性模型几种常见的非线性模型n 指数函数指数函数2.线性化方法线性化方法两端取对数得:两端取对数得:lny = ln + x令:令:y = lny,则有,则有y = ln + x1.基本形式基本形式:3.图像图像 几种常见的非线性模型几种常见的非

39、线性模型n 幂函数幂函数2.线性化方法线性化方法两端取对数得:两端取对数得:lg y = lg + lg x令:令:y = lgy,x= lg x,则则y = lg + x1.基本形式:基本形式:3.图像图像00 1 1 1 1 = 1= 1-1-1 0 0 -1 -1 =-1 =-1 几种常见的非线性模型几种常见的非线性模型n 对数函数对数函数2.线性化方法线性化方法x= lgx , 则有则有y = + x1.基本形式:基本形式:3.图像图像 0 0 0 0 几种常见的非线性模型几种常见的非线性模型n S 型曲线型曲线2.线性化方法线性化方法令:令:y = 1/y,x= e-x, 则有则有y

40、 = + x1.基本形式:基本形式:3.图像图像非线性回归非线性回归(实例)(实例)【例】为为研研究究生生产产率率与与废废品品率率之之间间的的关关系系,记记录数据如下表。试拟合适当的模型。录数据如下表。试拟合适当的模型。废品率与生产率的关系废品率与生产率的关系生产率(周/单位)x1000200030003500 4000 4500 5000废品率(%)y5.26.56.88.110.210.313.0非线性回归非线性回归(实例)(实例)生产率与废品率的散点图生产率与废品率的散点图非线性回归非线性回归(实例)(实例)1.用线性模型:用线性模型:y =a bx,有,有y = 2.671+0.0018x2.用指数模型:用指数模型:y = x ,有,有y =4.05 (1.0002)x3.比较比较直直线线的的残残差差平平方方和和5.3371指指数数模模型型的的残差平方和残差平方和6.11。直线模型略好于指数模型。直线模型略好于指数模型

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号