统计学原理:新第六章 相关与回归

上传人:公**** 文档编号:568771150 上传时间:2024-07-26 格式:PPT 页数:97 大小:4.74MB
返回 下载 相关 举报
统计学原理:新第六章 相关与回归_第1页
第1页 / 共97页
统计学原理:新第六章 相关与回归_第2页
第2页 / 共97页
统计学原理:新第六章 相关与回归_第3页
第3页 / 共97页
统计学原理:新第六章 相关与回归_第4页
第4页 / 共97页
统计学原理:新第六章 相关与回归_第5页
第5页 / 共97页
点击查看更多>>
资源描述

《统计学原理:新第六章 相关与回归》由会员分享,可在线阅读,更多相关《统计学原理:新第六章 相关与回归(97页珍藏版)》请在金锄头文库上搜索。

1、第六章第六章 相关和回归分析相关和回归分析n第一节第一节 相关关系和相关分析的内容相关关系和相关分析的内容n第二节第二节 相关图表和简单相关系数相关图表和简单相关系数n第三节第三节 简单线性回归分析简单线性回归分析n第四节第四节 非线性回归方程非线性回归方程一、函数关系与相关关系一、函数关系与相关关系1.函数关系函数关系当一个或几个变量取一定的值当一个或几个变量取一定的值时,另一个变量有确定值与之时,另一个变量有确定值与之相对应,我们称这种关系为确相对应,我们称这种关系为确定性的函数关系。定性的函数关系。第一节第一节 相关关系和相关分析的内容相关关系和相关分析的内容(函数关系)(函数关系)(1

2、)是一一对应的确定关系)是一一对应的确定关系(2)设设有有两两个个变变量量 x 和和 y ,变变量量 y 随随变变量量 x 一一起起变变化化,并并完完全全依依赖赖于于 x ,当当变变量量 x 取取某某个个数数值值时时, y 依依确确定定的的关关系系取取相相应应的的值值,则则称称 y 是是 x 的的函函数数,记记为为 y = f (x),其其中中 x 称称为为自自变变量,量,y 称为因变量称为因变量(3)各观测点落在一条线上)各观测点落在一条线上 x xy y变量间的关系变量间的关系(函数关系)(函数关系) 函数关系的例子函数关系的例子某某种种商商品品的的销销售售额额(y)与与销销售售量量(x)

3、之之间间的的关关系可表示为系可表示为 y = p x (p 为单价为单价)圆圆的的面面积积(S)与与半半径径之之间间的的关关系系可可表表示示为为S = r2 企企业业的的原原材材料料消消耗耗额额(y)与与产产量量(x1) 、单单位位产产量量消消耗耗(x2) 、原原材材料料价价格格(x3)之之间间的的关关系系可可表示为表示为y = x1 x2 x3 2. 相关关系:相关关系: 当一个或几个相互联系的变当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律量的值虽然不确定,但它仍按某种规律在一定的范围内变化。在一定的范围内变化

4、。现象之间客观存在的不严格、不确现象之间客观存在的不严格、不确定的数量依存关系。定的数量依存关系。变量间的关系变量间的关系(相关关系)(相关关系)(1)变变量量间间关关系系不不能能用用函函数数关系精确表达;关系精确表达;(2)一一个个变变量量的的取取值值不不能能由由另一个变量唯一确定;另一个变量唯一确定;(3)当当变变量量 x 取取某某个个值值时时,变量变量 y 的取值可能有几个;的取值可能有几个;(4)各各观观测测点点分分布布在在直直线线(或曲线)周围。(或曲线)周围。 x xy y(相关关系)(相关关系) 相关关系的例子相关关系的例子商品的消费量商品的消费量(y)与居民收入与居民收入(x)

5、之间的关系之间的关系商品的消费量商品的消费量(y)与物价与物价(x)之间的关系之间的关系粮粮食食亩亩产产量量(y)与与施施肥肥量量(x1) 、降降雨雨量量(x2) 、温度温度(x3)之间的关系之间的关系收入水平收入水平(y)与受教育程度与受教育程度(x)之间的关系之间的关系父亲身高父亲身高(y)与子女身高与子女身高(x)之间的关系之间的关系n相关关系也具有某种变动规律性,所以,相相关关系也具有某种变动规律性,所以,相关关系经常可以用一定的函数形式去近似地关关系经常可以用一定的函数形式去近似地描述。描述。n客观现象的函数关系可以用数学分析的方法客观现象的函数关系可以用数学分析的方法去研究,而研究

6、客观现象的相关关系必须借去研究,而研究客观现象的相关关系必须借助于统计学中的相关与回归分析方法。助于统计学中的相关与回归分析方法。n指出下列现象之间属于相关关系还是函数关系?指出下列现象之间属于相关关系还是函数关系?n1.商品流转规模越大,流通费用率越低。商品流转规模越大,流通费用率越低。n2.秤砣的误差越大,所权衡的误差也越大。秤砣的误差越大,所权衡的误差也越大。n3.测量次数越多,其平均长度越接近于实际长度。测量次数越多,其平均长度越接近于实际长度。n4.物体体积随着温度升高而膨胀,随着压力加大而物体体积随着温度升高而膨胀,随着压力加大而收缩。收缩。n5.车辆使用年限越长,修理费用增长越快

7、。车辆使用年限越长,修理费用增长越快。n6.圆的半径越大,其面积也越大。圆的半径越大,其面积也越大。n7.广告费用支出越多,商品销售额也有增长倾向。广告费用支出越多,商品销售额也有增长倾向。n8.机械化程度越高,劳动生产率一般也越高。机械化程度越高,劳动生产率一般也越高。二、相关关系的种类二、相关关系的种类1.按相关的程度可分为完全相关、不完全相关和不相按相关的程度可分为完全相关、不完全相关和不相关。关。当一种现象的数量变化完全由另一个现象的数当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相量变化所确定时,称这两种现象间的关系为完全相关。在这种场合,相关关系

8、便成为函数关系。因此关。在这种场合,相关关系便成为函数关系。因此也可以说函数关系是相关关系的一个特例。也可以说函数关系是相关关系的一个特例。当两个现象彼此互不影响,其数量变化各自独当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。立时,称为不相关现象。两个现象之间的关系介于完全相关和不相关之两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种间,称为不完全相关,一般的相关现象都是指这种不完全相关。不完全相关。 2.按相关形式划分可以分为线性相关和非线性相关。按相关形式划分可以分为线性相关和非线性相关。 图中(图中(1)、()、(2)为线性相关,()为

9、线性相关,(3)、()、(4)为非线性相关)为非线性相关 3.按相关的方向划分可分为正相关和负相关。按相关的方向划分可分为正相关和负相关。n(1)正相关:两个相关现象间,当一个变量的数)正相关:两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之值增加(或减少)时,另一个变量的数值也随之增加(或减少),即同方向变化。增加(或减少),即同方向变化。 例如收入与消费的关系。例如收入与消费的关系。n(2)负相关:当一个变量的数值增加(或减少)负相关:当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增加)时,而另一个变量的数值相反地呈减少(或增加)趋势变化,即反

10、方向变化。趋势变化,即反方向变化。 例如物价与消费的关系。例如物价与消费的关系。n4.按相关关系涉及的因素多少划分分为单相关、复按相关关系涉及的因素多少划分分为单相关、复相关和偏相关。相关和偏相关。n两个变量之间的相关,称为单相关。两个变量之间的相关,称为单相关。n当所研究的是一个变量对两个或两个以上其他变当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。量的相关关系时,称为复相关。n在某一现象与多种现象相关的场合,假定其他变在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为量不变,专门考察其中两个变量的相关关系称为偏相关。例如,在假定人们

11、的收入水平不变的条偏相关。例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是件下,某种商品的需求与其价格水平的关系就是一种偏相关。一种偏相关。三、相关分析的内容三、相关分析的内容n1.确定相关关系的存在,相关关系呈现的的形态和确定相关关系的存在,相关关系呈现的的形态和方向,相关的密切程度。方向,相关的密切程度。n绘制相关图表,计算相关系数。绘制相关图表,计算相关系数。n2.确定相关系数的数学表达式确定相关系数的数学表达式回归分析。回归分析。n3.确定因变量估计值误差的程度。确定因变量估计值误差的程度。n拟合程度的评价拟合程度的评价n计算估计标准误计算估计标准误第二节第

12、二节 相关图表和简单相关系数相关图表和简单相关系数n 一、相关表一、相关表n1.简单相关表:将自变量简单相关表:将自变量x的数值按照从小到大的顺序,并配合因变量的数值按照从小到大的顺序,并配合因变量y的的数值一一对应而平行排列的表。数值一一对应而平行排列的表。n例:为了研究分析某种劳务产品完成量与其单位产品成本之间的关系,例:为了研究分析某种劳务产品完成量与其单位产品成本之间的关系,调查调查30个同类服务公司得到的原始数据如表。个同类服务公司得到的原始数据如表。整理后有整理后有n2.分组相关表:按自变量分组相关表:按自变量x分组,并计算次数分组,并计算次数f,对应的因变量,对应的因变量y不分组

13、,计算其平均数不分组,计算其平均数。n二、相关图:又称散点图。将二、相关图:又称散点图。将x置于横轴上,置于横轴上,y置置于纵轴上,将(于纵轴上,将(x,y)绘于坐标图上。绘于坐标图上。三、相关系数及其检验三、相关系数及其检验(一一)相关系数的定义相关系数的定义简单相关系数:在线性条件下说明两个变量简单相关系数:在线性条件下说明两个变量之间相关关系密切程度的统计分析指标,简之间相关关系密切程度的统计分析指标,简称相关系数。称相关系数。若若相相关关系系数数是是根根据据总总体体全全部部数数据据计计算算的的,称为总体相关系数,记为称为总体相关系数,记为若若是是根根据据样样本本数数据据计计算算的的,则

14、则称称为为样样本本相相关系数,记为关系数,记为 r7-187-197-20样本相关系数的定义公式实质样本相关系数的定义公式实质7-21(二二)相关系数的特点相关系数的特点(1)的取值介于与之间,的取值介于与之间, r 的取值范围是的取值范围是 -1,1(2)在大多数情况下,)在大多数情况下,|,即,即与与的的样本观测值之间存在着一定的线性关系,当样本观测值之间存在着一定的线性关系,当时,与为正相关,当时,与为正相关,当时,时,与与为负相为负相关。关。 |的数值愈接近于的数值愈接近于1,表示,表示x与与y直线相关程度愈直线相关程度愈高;反之,高;反之, |的数值愈接近于的数值愈接近于0,表示,表

15、示x与与y直直线相关程度愈低。线相关程度愈低。经验认为:经验认为:(3)如果)如果|=1,则表明,则表明与与完全线性相完全线性相关,当关,当=1时,称为完全正相关,时,称为完全正相关, 而而=-1时,称为完全负相关。时,称为完全负相关。(4)是对变量之间线性相关关系的度量。是对变量之间线性相关关系的度量。 =0只是表明两个变量之间不存在线性关系,只是表明两个变量之间不存在线性关系,它并不意味着它并不意味着与与之间不存在其他类型的之间不存在其他类型的关系。关系。 相关关系的测度相关关系的测度(相关系数取值及其意义)(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关完全负相关无线

16、性相关无线性相关完全正相关完全正相关负相关程度增加负相关程度增加负相关程度增加负相关程度增加r正相关程度增加正相关程度增加正相关程度增加正相关程度增加(三三)相关系数的计算相关系数的计算7-26计算相关系数计算相关系数的的“积差法积差法”7-27 例:下表是有关例:下表是有关15个地区某种食物需求量和地区人口个地区某种食物需求量和地区人口增加量的资料。增加量的资料。7-28计算公式还可以有:计算公式还可以有:7-29(四)相关系数的显著性检验(四)相关系数的显著性检验 n1.检验两个变量之间是否存在线性相关关检验两个变量之间是否存在线性相关关系系n2.采用采用 t 检验检验n3.检验的步骤为检

17、验的步骤为n提出假设:提出假设:H0: ;H1: 07-30n n 计算检验的统计量:计算检验的统计量:计算检验的统计量:计算检验的统计量:n 确定显著性水平确定显著性水平 ,并作出决策,并作出决策 若若 t t,拒绝,拒绝H0 若若 t =48.385t t(15-2)=2.160(15-2)=2.160,拒绝,拒绝,拒绝,拒绝HH0 0,该,该,该,该种食物需求量和地区人口增加量种食物需求量和地区人口增加量之间的相关之间的相关之间的相关之间的相关关系显著。关系显著。关系显著。关系显著。相关系数只度量变量间的线性关系,因此,弱相相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有

18、关系;关不一定表明变量间没有关系;极端值可能影响相关系数。极端值可能影响相关系数。警惕伪相关。警惕伪相关。请看下例。请看下例。n美国印第安美国印第安纳纳州的地区教会想要筹款州的地区教会想要筹款兴兴建新教堂,建新教堂,提出教堂能提出教堂能洁净洁净人人们们的心灵,减少犯罪,降低的心灵,减少犯罪,降低监监狱狱服刑人数的口号。服刑人数的口号。n为为了增了增进进民众参与的民众参与的热诚热诚和信心,教会的神父收和信心,教会的神父收集了近集了近15年的教堂数与在年的教堂数与在监狱监狱服刑的人数服刑的人数进进行行统统计计分析。分析。n结结果却令教会大吃一惊。最近果却令教会大吃一惊。最近15年教堂数与年教堂数与

19、监狱监狱服刑人数呈服刑人数呈显显著的正相关。著的正相关。n那么是否可以由此得出,教堂建得越多,就可能那么是否可以由此得出,教堂建得越多,就可能带带来更多的犯罪呢?来更多的犯罪呢?2024/7/2633n经过统计学家和教会神父深入讨论,并进一步收集经过统计学家和教会神父深入讨论,并进一步收集近近15年的当地人口变动资料和犯罪率等资料作进年的当地人口变动资料和犯罪率等资料作进一步分析,发现:一步分析,发现:n监狱服刑人数的增加和教堂数的增加都与人口监狱服刑人数的增加和教堂数的增加都与人口的增加有关。的增加有关。n教堂数的增加并非监狱服刑人数增加的原因。教堂数的增加并非监狱服刑人数增加的原因。n至此

20、,教会人士总算松了一口气至此,教会人士总算松了一口气。相关关系可能是伪相关,即两变量的相关只是相关关系可能是伪相关,即两变量的相关只是表面上的表面上的, ,它实际上由第三变量引起,当第三变它实际上由第三变量引起,当第三变量消失时量消失时, ,相关关系亦随之消失。相关关系亦随之消失。2024/7/26341234第三节第三节 简单简单线性回归分析线性回归分析相关分析与回归分析的关系相关分析与回归分析的关系一元线性回归模型一元线性回归模型拟合程度的评价拟合程度的评价估计标准误估计标准误2024/7/2635n1877年年 弗弗朗西斯朗西斯高尔高尔顿爵士顿爵士 在遗在遗传学研究过传学研究过程中测量了

21、程中测量了1078个父亲个父亲及成年儿子及成年儿子的身高,它的身高,它们之间的数们之间的数量关系如图量关系如图1:2024/7/2636“回归回归”一词的由来:一词的由来:多数点子位于角平分斜线的两侧椭圆形面积之内,落在斜线上的点子极少,即儿子与父亲身高完全相同的极少。由点子落在斜线周围还说明,高个子的父亲有着较高身材的儿子,而矮个子父亲的儿子身材也比较矮。同时,我们也看到同时,我们也看到一些远离斜线的点一些远离斜线的点子,这些点子反映子,这些点子反映的是父亲的身高与的是父亲的身高与儿子的身高相差甚儿子的身高相差甚远的情况。比如高远的情况。比如高个子的父亲有矮儿个子的父亲有矮儿子的情况,或者矮

22、子的情况,或者矮父亲有高个儿子的父亲有高个儿子的情况。情况。45线n作作相关分析相关分析知道,父亲身高和儿子身高的相关系数为知道,父亲身高和儿子身高的相关系数为0.501,表明高个子的父亲会有较高的儿子,而低个子父亲的儿子也比表明高个子的父亲会有较高的儿子,而低个子父亲的儿子也比较低,但这种相关关系并不明显。较低,但这种相关关系并不明显。n那么,父子身高之间有什么规律呢?经过对那么,父子身高之间有什么规律呢?经过对1078对父子身高数对父子身高数据的计算,得到:据的计算,得到:n父亲的平均身高父亲的平均身高 =67.6英寸英寸68英寸英寸(172cm)n儿子的平均身高儿子的平均身高 =68.7

23、英寸英寸69英寸英寸(174.5cm)n儿子的平均身高比父亲高一英寸,表明下一代的平均身高比儿子的平均身高比父亲高一英寸,表明下一代的平均身高比上一代要高上一代要高?n这样,就会自然地猜测这样,就会自然地猜测72英寸英寸(182.88cm) 的父亲平均会有的父亲平均会有73英寸英寸(185.42cm)的儿子;的儿子;64英寸英寸(162.56)的父亲平均会的父亲平均会有有65英寸英寸(165.1)的儿子。的儿子。2024/7/2637图2中斜虚线是从父子身高推测的关系,即58英寸父亲有59英寸的儿子,59英寸的父亲有60英寸的儿子等等。图2中的实线是回归线。2024/7/2638在父亲身高64

24、英寸和72英寸处的两个条形虚线,表明64英寸高父亲和72英寸高父亲的儿子们身高的分布情况回归回归regression平均身高平均身高图图2表明表明64英寸高父亲的儿子们的身高多数高于英寸高父亲的儿子们的身高多数高于65英寸,英寸,即即较矮父亲的儿子们多数比父亲身材要高较矮父亲的儿子们多数比父亲身材要高。而而72英寸高父亲的儿子们身高多数低于英寸高父亲的儿子们身高多数低于73英寸,甚至多数英寸,甚至多数低于与父亲同样高度的低于与父亲同样高度的72英寸,即英寸,即较高父亲的儿子们多数较高父亲的儿子们多数比父亲身材要矮。比父亲身材要矮。这种现象称为这种现象称为“回归效应回归效应”即回归到一般高度的效

25、应。即回归到一般高度的效应。2024/7/2639 一、回归分析与相关分析的关系一、回归分析与相关分析的关系1.相关分析相关分析就是用一个指标来表明现象间相互就是用一个指标来表明现象间相互依存关系的密切程度。广义的相关依存关系的密切程度。广义的相关分析包括相关关系的分析(狭义的分析包括相关关系的分析(狭义的相关分析)和回归分析。相关分析)和回归分析。2.回归分析回归分析是指对具有相关关系的现象,根据是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式)合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变,用来近似地表

26、达变量间的平均变化关系的一种统计分析方法。化关系的一种统计分析方法。 相关分析相关分析回归分析回归分析区区别别 不必确定自变量和不必确定自变量和因变量因变量必须事先确定哪个为自变必须事先确定哪个为自变量,哪个为因变量量,哪个为因变量不能指出变量间相不能指出变量间相互关系的具体形式互关系的具体形式能确切的指出变量之间相能确切的指出变量之间相互关系的具体形式互关系的具体形式变量一般都是随机变量一般都是随机变量变量因变量是随机的,自变量因变量是随机的,自变量则作为研究时给定的非随则作为研究时给定的非随机变量机变量联联系系 相关分析是回归分析的基础和前提;相关分析是回归分析的基础和前提;回归分析是相关

27、分析的深入和继续。回归分析是相关分析的深入和继续。2024/7/2641二、标准的一元线性回归模型二、标准的一元线性回归模型 当当变变量量之之间间存存在在显显著著的的相相关关关关系系时时,可可以以利利用用一一定的数学模型对其进行回归分析。其内容是:定的数学模型对其进行回归分析。其内容是:从从一一组组样样本本数数据据出出发发,确确定定变变量量之之间间的的数数学学关关系系式式。对对这这些些关关系系式式的的可可信信程程度度进进行行各各种种统统计计检检验验,并并从从影影响响某某一一特特定定变变量量的的诸诸多多变变量量中中找找出出哪哪些些变变量量的影响显著,哪些不显著。的影响显著,哪些不显著。利利用用所

28、所求求的的关关系系式式,根根据据一一个个或或几几个个变变量量的的取取值值来来预预测测或或控控制制另另一一个个特特定定变变量量的的取取值值,并并给给出出这这种预测或控制的精确程度。种预测或控制的精确程度。2024/7/2642回归模型的类型回归模型的类型回归模型回归模型多元回归多元回归一元回归一元回归线性线性回归回归非线性非线性回归回归线性线性回归回归非线性非线性回归回归在回归分析中,最简单的模型是只有一个因变量和一个自变量的线性回归模型,即一元线性回归模型2024/7/2643一个自变量一个自变量两个及两个以上自变量两个及两个以上自变量(一)总体回归模型(一)总体回归模型Y X80100 12

29、0 140 160 180 200220240260每周家每周家庭消费庭消费支出支出Y55657980102 110 12013513715060708493107 115 13613714515265749095110 120 140140155175708094103 116 130 144152165178758598108 118 135 14515717518088113 125 140160189185115162191共计共计325462 445 707 678 750 685 1043 966 1211条件期条件期望望657789101 113 125 137149161173

30、X X :每周家庭收入(美元):每周家庭收入(美元)下表是一个村子全部下表是一个村子全部6060户家庭的每周家庭消费支出与每周可支配收入的数据户家庭的每周家庭消费支出与每周可支配收入的数据2024/7/2644XY每周消费支出(美元)每周收入(美元)总体回归线80120160140180200220240260在几何意义上,总体回归线就是当自变量取给定值时因变量的期望值的轨迹。2024/7/2645XY2024/7/2646总体回归函数XY(二)样本回归模型(二)样本回归模型2024/7/2647样本回归方程下表是从总体中抽取的两个样本的数据。下表是从总体中抽取的两个样本的数据。2024/7/

31、2648根据两个不同样本的回归线根据两个不同样本的回归线2024/7/2649样本回归函数与总体回归函数的区别样本回归函数与总体回归函数的区别2024/7/2650(三)误差项的基本标准假定(三)误差项的基本标准假定这这一假定是一假定是说说,凡是模型不,凡是模型不显显含的并因而含的并因而归归属于属于ui的的因素,因素,对对Y的均的均值值都没有系都没有系统统的影响的影响,或者,或者说说它它们对们对Y的平均影响的平均影响为为零。零。2024/7/2651这个假定的解释如下:如果各误差项存在序列相关,那么Yi不仅依赖于Xi,而且依赖于ui-1,因为ui-1在一定程度上决定了ui。因此,有此假定就只考

32、虑Xi对Yi的系统性影响,而不去担心由于u之间的相关而造成的其他可能作用于Y的影响。2024/7/26522024/7/2653作此假定的理由是:在表述总体回归函数时,就假定了X 和u对Y 有各自的(并且可加的)影响。如果X 和u是相关的,当二者是正相关时, u增大(减小) X 会相应的增大(减小),此时就不可能评估它们各自对Y的影响。n作此假定的理由是:如果误差项服从正作此假定的理由是:如果误差项服从正态分布,那么态分布,那么Y 就服从正态分布,此时就服从正态分布,此时1就服从正态分布,那么在作回归系数就服从正态分布,那么在作回归系数显著性检验时构造的统计量就服从正态显著性检验时构造的统计量

33、就服从正态分布。分布。2024/7/2654xy(Xn , Yn)(X1 , Y1)(X2 , Y2)(Xi , Yi)三、一元线性模型的估计三、一元线性模型的估计(一)回归系数的点估计(一)回归系数的点估计OLSOLS法法要使得样本回归函数尽可能的靠近实际的Y,就就要使残差平要使残差平方和尽可能方和尽可能的小。的小。2024/7/2655希望Y的估计值从整体上来看尽可能地接近其实际观测值。n设设n将对求偏导数,并令将对求偏导数,并令其等于零,可得其等于零,可得:n加以整理后有:加以整理后有: 回归系数的估计的最小二乘法公式回归系数的估计的最小二乘法公式n解方程组解方程组可得求解可得求解 和和

34、 的标准方程如下:的标准方程如下:在正态假定下在正态假定下OLS估计量的性质估计量的性质n正态分布的一个性质是,正态分布变量正态分布的一个性质是,正态分布变量的任何线性函数都是正态分布的。的任何线性函数都是正态分布的。n假定假定5:误差项是一个服从正态分布的:误差项是一个服从正态分布的随机变量,且独立,即随机变量,且独立,即 。n因变量因变量Y是误差项的一个线性函数,而是误差项的一个线性函数,而估计量估计量 和和 又是又是Y的线性函数,因此的线性函数,因此这两个估计量也服从正态分布这两个估计量也服从正态分布。2024/7/2658在正态假定下,在正态假定下,OLS两估计量的统计性质是:两估计量

35、的统计性质是:n它们是它们是无偏无偏的,即的,即n它们有最小的方差,即它们是它们有最小的方差,即它们是有效估计量有效估计量。n随着样本含量无限地增大,估计量将收敛到随着样本含量无限地增大,估计量将收敛到它们的真值。因此,它们它们的真值。因此,它们具有一致性具有一致性。因此,可以说最小二乘估计量是最优无偏估因此,可以说最小二乘估计量是最优无偏估计量。计量。2024/7/2659例:最小二乘估计例:最小二乘估计n例:下表是有关例:下表是有关15个地区某种食物需求量和地区人口增加量的资料。对个地区某种食物需求量和地区人口增加量的资料。对样本回归函数样本回归函数 中的参数的计算过程:中的参数的计算过程

36、:n上式中上式中 ,称为回归系数,表示人口增加量每,称为回归系数,表示人口增加量每增加(或减少)增加(或减少)1千人,该种食品的年需求量平千人,该种食品的年需求量平均来说增加(或减少)均来说增加(或减少)0.5301十吨即十吨即5.301吨。吨。n 根据回归方程,还可以给出自变量的某一数值根据回归方程,还可以给出自变量的某一数值来估计或预测因变量平均可能值。例如,当人来估计或预测因变量平均可能值。例如,当人口增长量为口增长量为400千人时,该食品的年需求量为千人时,该食品的年需求量为 例:最小二乘估计例:最小二乘估计用用Excel进行回归分析进行回归分析n第第1步:选择步:选择“工具工具”下拉

37、菜单下拉菜单n第第2步:选择步:选择“数据分析数据分析”选项选项n第第3步:在分析工具中选择步:在分析工具中选择“回归回归”,然后选择,然后选择“确确定定”n第第4步:当对话框出现时步:当对话框出现时 在在“Y值输入区域值输入区域”方框内键入方框内键入Y的数据区域的数据区域 在在“X值输入区域值输入区域”方框内键入方框内键入X的数据区域的数据区域 在在“置信度置信度”选项中给出所需的数值选项中给出所需的数值 在在“输出选项输出选项”中选择输出区域中选择输出区域 在在“残差残差”分析选项中选择所需的选项分析选项中选择所需的选项Excel的输出结果的输出结果直线回归方程中的回归系数与相关系数的关系

38、直线回归方程中的回归系数与相关系数的关系:(二)总体方差的估计(二)总体方差的估计2024/7/2665总体随机误差项的方差除了两个回归系数外,一元线性回归模型还包括了另一个未知参数,即总体随机误差项的方差 。由于随机误差项本身是不能直接观察的,因此,需要用样本回归函数的残差平方和 与其自由度之比来代替。即:为什么是n-2?为什么自由度是为什么自由度是n-2?n因为变量需要满足以下两个条件,所以因为变量需要满足以下两个条件,所以能够自由取值的变量的个数是能够自由取值的变量的个数是n-2个。个。2024/7/26662024/7/2667 能够衡量因变量的实际值与其估计值离差能够衡量因变量的实际

39、值与其估计值离差的一般水平。的一般水平。它越小表明回归线越有代表性。它越小表明回归线越有代表性。要和“抽样标准误”区别2024/7/2668证明:由最小二乘法得到例:仍用前例计算回归估计标准误差例:仍用前例计算回归估计标准误差2024/7/2669用简化式计算的结果为:用简化式计算的结果为:2024/7/2670三、一元线性回归模型的检验三、一元线性回归模型的检验2024/7/2671n回归模型的检验包括理论意义检验、一级检验和二回归模型的检验包括理论意义检验、一级检验和二级检验。级检验。n理论意义检验主要涉及参数估计值的符号和取值区间,如理论意义检验主要涉及参数估计值的符号和取值区间,如果它

40、们与实质性科学的理论以及人们的实践经验不相符,果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。就说明模型不能很好地解释现实的现象。 n一级检验又称统计学检验,它是利用统计学中的抽样理论一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验。一级检验是对所有现象进行回归分析时价和显著性检验。一级检验是对所有现象进行回归分析时都必须通过的检验。都必须通过的检验。n二级检验又称经济计量学检验,它是对标准线性回归模型二级检验又称经济计量学检验,它是对标准线

41、性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验、多重共线性检验等。验、异方差性检验、多重共线性检验等。 所谓拟合优度,是指样本观测值聚集在所谓拟合优度,是指样本观测值聚集在样本回归线周围的样本回归线周围的紧密程度紧密程度。测量紧密程度最常用的数量尺度是建立测量紧密程度最常用的数量尺度是建立在离差平方和基础上的在离差平方和基础上的样本判定系数样本判定系数(又称(又称决定系数决定系数)。)。2024/7/2672(一)拟合优度的评价(一)拟合优度的评价总离差平方和的分解总离差平方和的分解n因变量因变量 y 的取值是不同

42、的,的取值是不同的,y 取值的这种波取值的这种波动称为变差。变差来源于两个方面:动称为变差。变差来源于两个方面:n由于自变量由于自变量 x 的取值不同造成的;的取值不同造成的;n除除 x 以外的其他因素以外的其他因素(如如x对对y的非线性影响、测的非线性影响、测量误差等量误差等)的影响。的影响。n对一个具体的观测值来说,离差的大小可以对一个具体的观测值来说,离差的大小可以通过该实际观测值与其均值之差通过该实际观测值与其均值之差 来表示。来表示。离差平方和的分解(图示)离差平方和的分解(图示)x xy yy y 离差分解图离差分解图来自残差来自回归离差平方和的分解(三个平方和的关系)离差平方和的

43、分解(三个平方和的关系)n n1、从图上看有、从图上看有n2、两端平方后求和有、两端平方后求和有SST = SSR + SSE残差平方和残差平方和(SSE)回归平方和回归平方和(SSR)总离差平方和总离差平方和(SST)离差平方和的分解离差平方和的分解 (三个平方和的意义)(三个平方和的意义)n总离差平方和总离差平方和(SST)n反映因变量的反映因变量的 n 个观察值与其均值的总离差个观察值与其均值的总离差n回归平方和回归平方和(SSR)n反映自变量反映自变量 x 的变化对因变量的变化对因变量 y 取值变化的影响,取值变化的影响,或者说,是由于或者说,是由于 x 与与 y 之间的线性关系引起的

44、之间的线性关系引起的 y 的取值变化,也称为可解释的离差平方和。的取值变化,也称为可解释的离差平方和。n残差平方和残差平方和(SSE)n反映除反映除 x 以外的其他因素对以外的其他因素对 y 取值的影响,也称取值的影响,也称为不可解释的离差平方和或剩余离差平方和。为不可解释的离差平方和或剩余离差平方和。样本决定系数(判定系数样本决定系数(判定系数 )n1.回归平方和占总离差平方和的比例:回归平方和占总离差平方和的比例:n2.反映回归直线的拟合程度。反映回归直线的拟合程度。n3.取值范围在取值范围在 0 , 1 之间。之间。n4. 1,说明回归方程拟合的越好;,说明回归方程拟合的越好; 0,说,

45、说明回归方程拟合的越差。明回归方程拟合的越差。n5.在一元线性回归模型中,判定系数等于相关系在一元线性回归模型中,判定系数等于相关系数的平方,即数的平方,即判定系数与相关系数的区别判定系数与相关系数的区别n一元一元线线性在回性在回归归分析中,分析中, r2是一个比是一个比r更有更有意意义义的度量,因的度量,因为为前者告前者告诉诉我我们们在因在因变变量的量的变变异中由解异中由解释变释变量的部分占怎量的部分占怎样样一个比例,一个比例,因而因而对对一个一个变变量的量的变变异在多大程度上决定另异在多大程度上决定另一个一个变变量的量的变变异,提供了一个异,提供了一个总总的度量的度量。而。而后者没有后者没

46、有这这种价种价值值。n判定系数无方向性,相关系数则有方向,其判定系数无方向性,相关系数则有方向,其方向方向 与样本回归系数与样本回归系数 相同。相同。2024/7/2678(二)显著性检验(二)显著性检验n显著性检验包括两方面的内容:一是对各回归系数的显著性显著性检验包括两方面的内容:一是对各回归系数的显著性检验;二是对整个回归方程的显著性检验。检验;二是对整个回归方程的显著性检验。n1. 回归方程的显著性检验:主要是检验因变量回归方程的显著性检验:主要是检验因变量Y与多个自变量与多个自变量(X1、X2、Xk)的线性关系是否显著,即回归模型总)的线性关系是否显著,即回归模型总体回归函数的线性关

47、系是否显著。原假设与备择假设如下:体回归函数的线性关系是否显著。原假设与备择假设如下:使用使用F检验检验n2. 回归系数的显著性检验:对每个回归系数分别进行单独的检回归系数的显著性检验:对每个回归系数分别进行单独的检验,主要用于检验每个自变量对因变量的影响是否显著。如果验,主要用于检验每个自变量对因变量的影响是否显著。如果某个自变量没有通过检验,就意味着这个自变量对因变量的影某个自变量没有通过检验,就意味着这个自变量对因变量的影响不显著,没有必要将其放入回归模型中。原假设与备择假设响不显著,没有必要将其放入回归模型中。原假设与备择假设如下:如下:使用使用t检验检验n需要注意:需要注意:n可以看

48、出,对于一元线性回归模型来讲,回归方可以看出,对于一元线性回归模型来讲,回归方程的检验与回归系数的检验是等价的。程的检验与回归系数的检验是等价的。n在多元线性回归模型中,回归方程检验(在多元线性回归模型中,回归方程检验(F检验)检验)通过,并不意味着每个自变量同因变量的关系均通过,并不意味着每个自变量同因变量的关系均显著,这要通过回归系数检验(显著,这要通过回归系数检验(t检验)来完成。检验)来完成。回归系数的显著性检验回归系数的显著性检验n检验每个自变量对因变量检验每个自变量对因变量 的影响是否显著的影响是否显著n理论基础是回归系数理论基础是回归系数 的抽样分布的抽样分布n在一元线性回归中,

49、等价于回归方程的显著在一元线性回归中,等价于回归方程的显著性检验。性检验。n在一元线性回归中,在一元线性回归中,1的检验更为重要,只的检验更为重要,只介绍介绍1的检验。的检验。n 是根据最小二乘法求出的样本统计量,它是根据最小二乘法求出的样本统计量,它有自己的分布有自己的分布n 的分布具有如下性质的分布具有如下性质n分布形式:正态分布分布形式:正态分布n数学期望:数学期望:n标准差:标准差:n由于由于 无未知,需用其估计量无未知,需用其估计量Sy来代替得到来代替得到 的估计的标准差的估计的标准差样本统计量样本统计量 的分布的分布样本统计量样本统计量 的分布的分布 的抽样分布的抽样分布回归系数的

50、显著性检验方法回归系数的显著性检验方法n提出假设提出假设nH0: 1 = 0nH1: 1 0n计算检验的统计量计算检验的统计量n确定显著性水平确定显著性水平 ,并进行决策,并进行决策n t t,拒绝,拒绝H0; t t=2.16,拒拒绝绝H0,表表明明人人口口增增加加量量对食物需求量有显著影响对食物需求量有显著影响对前例(对前例(食物需求量食物需求量Y和地区人口增加量和地区人口增加量X)的)的回归系数进行显著性检验回归系数进行显著性检验( 0.05)例:回归系数的显著性检验例:回归系数的显著性检验回归系数的显著性检验回归系数的显著性检验-Excel输出的结果输出的结果定性分析定性分析是依据研究

51、者的理论知识和实践经是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关验,对客观现象之间是否存在相关关系、何种关系以及自变量因变量关系、何种关系以及自变量因变量的确定作出判断。的确定作出判断。定量分析定量分析在定性分析的基础上,通过编制在定性分析的基础上,通过编制相相关表关表、绘制、绘制相关图相关图、计算、计算相关系数相关系数等方法,来判断现象之间相关的方等方法,来判断现象之间相关的方向、形态及密切程度,以及相应的向、形态及密切程度,以及相应的回归方程的拟合。回归方程的拟合。四、正确运用回归分析的条件四、正确运用回归分析的条件 在定性的基础上再进行定量分析。在定性的基础上再进行定量分

52、析。第四节非线性相关与回归分析第四节非线性相关与回归分析n一、非线性函数形式的确定一、非线性函数形式的确定n在对实际的客观现象进行定量分析时,选择回归方在对实际的客观现象进行定量分析时,选择回归方程的具体形式应遵循以下原则:程的具体形式应遵循以下原则:n首先,方程形式应与有关实质性科学的基本理论相一致。首先,方程形式应与有关实质性科学的基本理论相一致。例如,采用幂函数的形式,能够较好地表现生产函数;采例如,采用幂函数的形式,能够较好地表现生产函数;采用多项式方程能够较好地反映总成本与总产量之间的关系用多项式方程能够较好地反映总成本与总产量之间的关系等等。等等。n其次,方程有较高的拟合程度。因为

53、只有这样,才能说明其次,方程有较高的拟合程度。因为只有这样,才能说明回归方程可以较好地反映现实经济的运行情况。回归方程可以较好地反映现实经济的运行情况。n最后,方程的数学形式要尽可能简单。如果几种形式都能最后,方程的数学形式要尽可能简单。如果几种形式都能基本符合上述两项要求,则应该选择其中数学形式较简单基本符合上述两项要求,则应该选择其中数学形式较简单的一种。一般来说,数学形式越简单,其可操作性就越强。的一种。一般来说,数学形式越简单,其可操作性就越强。n(一)抛物线函数(一)抛物线函数n(二)双曲线函数(二)双曲线函数n(三)幂函数(三)幂函数n(四)指数函数(四)指数函数n(五)对数函数(

54、五)对数函数n(六)形曲线函数(六)形曲线函数n(七)多项式方程(七)多项式方程几种常见的非线性模型几种常见的非线性模型n 指数函数指数函数2.线性化方法线性化方法两端取对数得:两端取对数得:lny = ln + x令:令:y = lny,则有,则有y = ln + x1.基本形式基本形式:3.图像图像 几种常见的非线性模型几种常见的非线性模型n 幂函数幂函数2.线性化方法线性化方法两端取对数得:两端取对数得:lg y = lg + lg x令:令:y = lgy,x= lg x,则则y = lg + x1.基本形式:基本形式:3.图像图像00 1 1 1 1 = 1= 1-1-1 0 0 -

55、1 -1 =-1 =-1 几种常见的非线性模型几种常见的非线性模型n 对数函数对数函数2.线性化方法线性化方法x= lgx , 则有则有y = + x1.基本形式:基本形式:3.图像图像 0 0 0 0 几种常见的非线性模型几种常见的非线性模型n S 型曲线型曲线2.线性化方法线性化方法令:令:y = 1/y,x= e-x, 则有则有y = + x1.基本形式:基本形式:3.图像图像非线性回归非线性回归(实例)(实例)【例】为为研研究究生生产产率率与与废废品品率率之之间间的的关关系系,记记录数据如下表。试拟合适当的模型。录数据如下表。试拟合适当的模型。废品率与生产率的关系废品率与生产率的关系生产率(周/单位)x1000200030003500 4000 4500 5000废品率(%)y5.26.56.88.110.210.313.0非线性回归非线性回归(实例)(实例)生产率与废品率的散点图生产率与废品率的散点图非线性回归非线性回归(实例)(实例)1.用线性模型:用线性模型:y = 0 1x+ ,有,有y = 2.671+0.0018x2.用指数模型:用指数模型:y = x ,有,有y =4.05 (1.0002)x3.比较比较直直线线的的残残差差平平方方和和5.3371指指数数模模型型的的残差平方和残差平方和6.11。直线模型略好于指数模型。直线模型略好于指数模型

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号