《934回归分析概述》由会员分享,可在线阅读,更多相关《934回归分析概述(78页珍藏版)》请在金锄头文库上搜索。
1、本章教学目标:本章教学目标:l了解回归分析在经济与管理中的广泛应用;l掌握回归分析的基本概念、基本原理及其分析应用的基本步骤;l熟练掌握使用软件求解回归方程及其运行输出结果的分析与使用;l能应用回归分析方法解决实际问题(分析各种变量间的关系,进行预测和控制) 第第8章章 回归分析回归分析1 本章主要内容:本章主要内容:8.1 回归分析概述8.2 一元线性回归8.3 曲线回归8.4 多元线性回归本章内容重点:本章内容重点:最小二乘法的原理;回归方程和回归系数的显著性检验;多元线性回归及其预测和控制;软件的求解分析。 2在经济管理和其他领域中,人们经常需要研究两个或多个变量(现象)之间的相互(因果
2、)关系,并使用数学模型来加以描述和解释。如:商品销售量与价格间的关系;产品的某些质量指标与某些控制因素之间的关系;家庭消费支出与家庭收入间的关系等等。回归分析就是对变量间存在的不确定关系进行分析的统计方法。回归分析是使用得最为广泛的统计学分支,在质量管理、市场营销、宏观经济管理等领域都有非常广泛的应用。本章介绍回归分析中最基本的内容。 8.1 回归分析概述回归分析概述3某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度(kg/mm2)和延伸率(%)。该合金钢的质量标准要求:抗拉强度应大于32kg/mm2;延伸率应大于33%。根据冶金学的专业知识和实践经验,该合金钢的含碳量是影响抗拉强度和延伸
3、率的主要因素。其中含碳量高,则抗拉强度也就会相应提高,但与此同时延伸率则会降低。为降低生产成本,提高产品质量和竞争能力,该厂质量控制部门要求该种合金钢产品的上述两项质量指标的合格率都应达到99%以上。 质量控制应用案例质量控制应用案例4为达到以上质量控制要求,就需要制定该合金钢冶炼中含碳量的工艺控制标准,也即要确定在冶炼中应将含碳量控制在什么范围内,可以有99%的把握使抗拉强度和延伸率这两项指标都达到要求。这是一个典型的产品质量控制问题,可以使用回归分析方法求解。 如何制订含碳量的控制标准?如何制订含碳量的控制标准?51. 确定性关系确定性关系也即函数关系,即 Y = (X) ; Y = (X
4、1, X2, , Xp)或 F(X, Y) = 0; F(X1, X2, , Xp, Y) = 0例:例:价格不变时商品销售收入与销售量的关系。Y = cXX销售收入Y销售量OY 与 X 间的确定性关系 一一. 变量间的两类关系变量间的两类关系6家庭收入非确定性关系O家庭消费支出 = b0 + b1X2. 非确定性关系非确定性关系 指变量间虽存在着相互影响和相互制约关系,但由于许多无法预计和控制的因素的影响,使变量间的关系呈现不确定性。 即不能由一个或若干变量的值精确地确定另一变量的值。但通过大量观察,可以发现非确定性关系的变量间存在着某种统计规律性称为相关关系相关关系或回归关系回归关系。7以
5、三口之家为单位,某种食品在某年各月的家庭平均月消费量 Y (kg)与其价格 X (元/kg) 间的调查数据如下,试分析该食品家庭平均月消费量与价格间的关系。【案例【案例1】商品价格与消费量的关系】商品价格与消费量的关系8 由图可知,该食品家庭月平均消费量 Y 与价格 X 间基本呈线性关系。这些点与直线 Y = 0 + 1X间的偏差是由其他一些无法控制的因素和观察误差引起的。 因此可以建立 Y 与 X 之间关系的如下线性回归模型 Y = 0 + 1X + (8.1-1)其中 X 解释变量(自变量) Y 被解释变量(因变量) 0, 1 模型中的未知参数未知参数 随机误差项 二二. 线性回归模型线性
6、回归模型9随机误差项产生的原因随机误差项产生的原因(1) 模型中忽略的其他因素对 Y 的影响;(2) 模型不准确所产生的偏差;(3) 模型中包含了对 Y 无显著影响的变量;(4) 对变量的观察误差;(5) 其他随机因素的影响。 10线性回归模型的数据结构线性回归模型的数据结构 yi = 0 + 1xi + i ; i =1, 2, , N (8.1-2)其中 i 是其他因素和试验误差对 yi 影响的总和。 当 X 取不完全相同的值 x1, x2, , xN 时,得到 Y 的一组相应的观察值 y1, y2, , yN 。显然,每一对观察值 (xi, yi) 都应满足(5.1-1)式。因此一元线性
7、回归模型有如下的数据结构:11例例 解释截距和斜率一名统计学教授打算运用学生为准备期末考试而学习统计学的小时数(X)预测其期末考试成绩(Y)。依据上学期上课班级中收集的数据建立的回归模型如下:如何解释截距和斜率?解解 截距=35.0表示当学生不为期末考试做准备的话,期末考试平均成绩是35.0。斜率=3表示每增加1小时学习时间,期末考试平均成绩就变化+3.0。换句话说,每增加1小时学习时间,期末成绩就增加3.0。 121. 各 i N( 0, 2 ),且相互独立;2. 解释变量是可以精确观察的普通变量(非随机变量);3. 解释变量与随机误差项是各自独立对被解释变量产生影响的。称满足以上条件的回归
8、模型为经典回归模型经典回归模型。本章仅讨论经典回归模型。但在经济领域中,经济变量间的关系通常是不会完全满足上述条件的。例如家庭消费支出 Y 与家庭收入 X 间的回归模型就不会是同方差的。三三. 回归模型的经典假设条件回归模型的经典假设条件131. 根据问题的实际背景、专业知识或通过对样本数据的分析,建立描述变量间相关关系的回归模型;2. 利用样本数据估计模型中的未知参数,得到回归方程;3. 对模型进行检验;4. 利用通过检验的回归方程对被解释变量进行预测或控制。 四四. 回归分析的主要内容和分析步骤回归分析的主要内容和分析步骤148.2 一元线性回归一元线性回归一一. 一元线性回归模型一元线性
9、回归模型 设被解释变量 Y 与 解释变量 X 间存在线形相关关系,则 Y = 0 + 1X + ; N(0, 2 ) 其中 X 是普通变量。 则 Y N( 0+ 1X, 2 ) 称 Y 的条件期望 E( Y|X ) = 0 + 1X (8.2-1)为 Y 对 X 的回归。 15分别是参数 0 和 1 的点估计,二二. 回归方程回归方程对每一 xi 值,由回归方程可以确定一个回归值回归系数回归系数。称(5.2-2) 式为回归方回归方程。记为 Y 的条件期望 E( Y|X ) 的点估计,则由(8.2-1)式, 有(8.2-2) 并称为回归方程的并记 16就可求出三三. 回归模型的参数估计回归模型的
10、参数估计回归模型中的参数估计,采用的是“最小二乘法”,其原理如下:Y 的各观察值 yi 与回归值 之差反映了 yi 与回归直线之间的偏离程度,从而全部观察值与回归值的残差平方和反映了全部观察值与回归直线间总的偏离程度。显然, Q 的值越小,就说明回归直线对所有样本数据的拟和程度越好。所谓最小二乘法,就是要使为最小。只要令 17。 。xy0。yi要找一条直线,使xi最小二乘法原理示意图最小二乘法原理示意图 18分别是参数 0 和 1 的最小方差无偏估计。 可以证明, 以上两式说明,的方差分别为:2.2.四四. 最小二乘估计的性质最小二乘估计的性质在满足经典假设的条件下1 1回归系数的估计精度不仅
11、与 2 及样本容量 N 有关,而且与各 xi 取值的分散程度有关。 在给定样本容量下,xi 的取值越分散,的取值越分散, 则估则估计的方差就越小计的方差就越小,即对参数 0 和 1 的估计就越精确;反之估计的精确就差。了解这一点,对指导试验或抽样调查是非常重要的。 19通过参数估计得到回归方程后,还需要对回归方程进行检验,以确定变量间是否存在显著的线性关系。对一元线性回归模型,如果变量 Y 与 X 之间并不存在线性相关关系,则模型中的一次项系数 1 应为 0;反之,则 10。故对一元线性回归模型,要检验的原假设为 H0:1 = 0以上检验称为对回归方程的显著性检验,使用的仍然是方差分析方法。Y
12、 的观察值 y1, y2, , yN 之间的差异是由两方面的原因引起的:(1) 解释变量 X 的取值 xi 不同;(2) 其他因素和试验误差的影响。 五五. 回归方程的显著性检验回归方程的显著性检验20 为检验以上两方面中哪一个对 Y 取值的影响是主要的,就需要将它们各自对 Y 取值的影响,从 yi 总的差异中分解出来。 与方差分析类似地,可以用总的偏差平方和来表示全部观察值 yi 间总的差异量。1. 偏差平方和的分解偏差平方和的分解将 ST 作如下分解:称 SR 为回归平方和回归平方和,它主要是由于变量 X 的取值不同引起的,其大小反映了 X 的对 Y 影响的重要程度。称 SE 为剩余平方和
13、剩余平方和或残差平方和残差平方和,它主要是由随机误差和其他因素的影响所引起的。 21可以证明,因此,在给定显著性水平 下,若 F F (1, N-2) F(1, N-2) 2. 检验检验 H0 的统计量的统计量当 H0 为真时, 统计量就拒绝 H0,并称回归方程是显著的,可以用回归方程对被解释变量进行预测或控制分析; 反之,则称回归方程无显著意义。 若不能拒绝 H0,则可能有以下原因:(1) Y 和 X 之间不是线性关系;(2) 模型中忽略了对 Y 有重要影响的其他因素;(3) Y 和 X 基本无关; (4) 数据误差过大。 22回归方程的显著性检验过程同样可以列成如下方差分析表: 方差分析表
14、3.3.方差分析表方差分析表 23【案例案例1】商品价格与消费量的关系商品价格与消费量的关系以三口之家为单位,某种食品在某年各月的家庭平均月消费量 Y (kg)与其价格 X (元/kg) 间的调查数据如下,试分析该食品家庭平均月消费量与价格间的关系。24可用 Excel 【工具】“数据分析”“回归”求解线性回归问题。本案例可解得“Significance F”为达到的显著性水平,含义与 P-value 相同。 Significance F = 0.00032 0.001 故回归方程是极高度显著的。 方差分析表故所求回归方程为:案例案例 1 求解分析求解分析说明该食品价格每上涨一元,家庭月平均消
15、费量将下降0.34kg, kg 为该食品的最大月平均消费量。25运用回归分析,可能存在如下一些错误:不注意最小二乘回归的假设条件不知道如何评估最小二乘回归的假设条件不知道在违背某一假设条件的情况下运用除最小二乘回归外的其它方法在对主要问题不了解的情况下运用回归模型在相关范围外进行外推根据某研究中的因果关系得出存在显著关系的结论26 案例案例 1 需要继续研究的问题需要继续研究的问题 1. 以 90% 的可信度预测当价格为5.6元/kg时,该食品的家庭平均月消费量。 2. 该食品的生产商和供应商希望该食品的家庭月平均消费量能以 90% 的把握达到 2.5kg 以上, 应将价格控制在什么水平之下?
16、 27可以证明,五五. 预测和控制预测和控制1. 预测预测就是对解释变量 X 的某一给定值 x0,求被解释变量 Y 的取值 y0 的类似于区间估计问题。对任一给定的 x0,由回归方程可得 y0 的回归值(点估计): y0 的置信度为 1- 的预测区间为置信度为 1- 的预测区间,28关于预测的精度关于预测的精度x0oy允许误差 d 的公式说明,预测区间的大小(预测精度)不仅与 、样本容量 N 及各 xi 取值的分散程度有关, 而且和 x0 有关。当 x0 靠近时,d 就较小,反之,x0 离越远,d 就越大。 d 是 x0 的函数 d = d(x0)。 29预测区间的近似计算预测区间的近似计算
17、当样本容量 N 足够大时,或中方括号内的部分就近似于 1。 因此 d 可以使用以下近似公式计算:其中(5.2-3)(5.2-4) 就是回归方程的标准误差标准误差。 30由所得回归方程 由 Excel 或 SPSS 的输出结果,可解得当 x0=5.6 时,案例案例 1 的预测问题分析的预测问题分析可得标准误差为dt0.05(10)0.4007= 1.81250.4007 = 0.73 故当价格为 5.6/kg 时,该食品的家庭月平均消费量的 90% 置信预测区间为: 312. 控制控制控制问题在质量管理及其他经济管理领域中有着非常广泛的应用,它是预测的反问题。即当要求以 1- 的概率将 Y 的值
18、控制在某一范围 ( y1, y2 ) 内时,应将解释变量 X 的值控制在哪一范围内的问题。也即要确定 X 的两个值 x1, x2,当 x1 X x2 时,在 1- 的置信度下可使y1 Y y2即满足 P y1 Y y2 | x1 X x2 ,则说明无法实现所要求的控制目标,也即 Y 的控制范围不能过小(与,N 及 xi 的分散程度等都有关)。34 当样本容量 N 足够大时,可用(5.2-3)式或(5.2-4)式作为 d 的近似值。 此时(5.2-5)和(5.2-6)式可简化为:x0yx1x2y2y1x0yx1x2y2y1控制范围的近似求解控制范围的近似求解 35 要求以90%的概率使该食品的家
19、庭月平均消费量达到2.5kg以上,应将价格控制在什么水平之下?x0yx22.5本例中,可得 dt0.1(10)0.4007 = 0.55由 4.52 - 0.34x - 0.55 2.5可解得:x 4.32 故应将该食品价格控制在4.32元/kg 之下。 注意,对于单侧控制案例案例 1 的控制要求分析的控制要求分析 显然,这是一个单侧控制问题。即要确定 x2的值,使36某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度(kg/mm2)和延伸率(%)。该合金钢的质量标准要求:抗拉强度应大于32kg/mm2;延伸率应大于33%。 根据冶金学的专业理论知识和实践经验知道,该合金钢的含碳量是影响抗拉
20、强度和延伸率的主要因素。其中含碳量高,则抗拉强度也就会相应提高,但与此同时延伸率则会降低。为降低生产成本,提高产品质量和竞争能力,该厂质量控制部门要求该种合金钢产品的上述两项质量指标的合格率都应达到 99% 。 质量控制应用案例质量控制应用案例37为达到以上质量控制要求,就需要重新修订该合金钢冶炼中关于含碳量的工艺控制标准。也即要确定在冶炼中应将含碳量控制在什么范围内,可以有99%的把握使抗拉强度和延伸率这两项指标都达到要求。 如何制订含碳量的控制标准如何制订含碳量的控制标准?38 1. 样本数据的收集样本数据的收集 为分析抗拉强度和延伸率这两项指标与含碳量之间的关系,需要有关该合金钢的含碳量
21、与抗拉强度及延伸率的样本数据。 该厂质量控制部门查阅了该合金钢的质量检验纪录,在剔除了异常情况后,整理了该合金钢的上述两项指标与含碳量的 92 炉实测数据(见Excel工作表)。 案例分析案例分析39 为分析抗拉强度和延伸率这两项指标与含碳量之间的关系,需要建立反映它们之间相关关系的回归模型。 设 Y1, Y2分别为该合金钢的抗拉强度和延伸率,X 为含碳量,则 Y1 = 01 +1 X +1 Y2 = 02 +2 X +2分别为该合金钢抗拉强度和延伸率关于含碳量的一元线性回归模型。 2. 建立线性回归模型建立线性回归模型40用 Excel 分别求解本案例的两个回归方程,可得:这一数据在求解控制
22、范围时需要用到。 再由输出的方差分析表可知, Significance F = 2.05E-32 0.001,回归方程极高度显著。 此外还得到标准误差为:从而得到抗拉强度和含碳量间的线性回归方程为3. 软件软件运行输出结果分析运行输出结果分析41同样可得到: 再由输出的方差分析表, Significance F = 3.69E-10 32 41.8075 - 31.6092 X - 5.7479 33 解此不等式组,得: 0.0376 X 0b 0b 0令 y =1/y, x =1/x,,得: y = a + bx二二. 非线性函数的线性化方法非线性函数的线性化方法472. 幂函数:幂函数:
23、y = axb 若 a 0,则 ln y = ln a + b ln x 令 y = ln y,b0 = ln a,x = ln x,得: y = b0 + bxb 10 b 00xya1a 0yx0b 0,则 ln y = ln a + bx 令 y = ln y,b0 = ln a,得: y = b0 + bxab 0yx0aa 0494. 负指数函数:负指数函数:y = aeb/x 若a 0,则 ln y = ln a + b/x 令 y = ln y, b0 = ln a, x = 1/x 得:y = b0+ bx b 0a505. 对数函数:对数函数:y = a + b ln x令
24、x = ln x,得:y = a + bxb 0x0y0yxb 0x0yb 0a527S 型曲线:型曲线:令 y = 1/y,x = e -x,得:y = a + bxxy01/a1/(a+b)53 在实际问题中,究竟应使用哪种曲线来配置解释变量与被解释变量间的回归模型,通常可根据有关专业理论知识、或分析样本数据的散点图来决定。配置曲线的原则配置曲线的原则但合适的曲线类型并不是一下就能选准的,往往需要选择几种类型,通过求解经数据变换后的线性回归方程,比较各回归方程的显著性水平,则显著性水平最高的曲线对样本数据的拟合程度最好。 54对 10 家化妆品企业某年的产品销售额 yi 与当年广告费投入
25、xi 的调查数据如下: 试分析化妆品销售额与广告费投入间的关系。 【案例【案例2】产品销售额与广告费投入的关系】产品销售额与广告费投入的关系55对所给数据作散点图如下:yx案例案例 2 分析分析 由图可知 Y 与 X 之间呈非线性相关关系,Y 随 X 增加而增加, 但增长率逐渐递减。根据这一特点可试用以下两种曲线进行拟合: 幂函数; 对数函数 56设设 Y 与与 X 间为幂函数关系:间为幂函数关系: 令 Y = ln Y,X = ln X,0 = ln a 得线性回归模型: Y = 0+ 1X + 用 Excel 求解,可得线性化后的回归方程及方差分析表如下: Significance F =
26、 0.00048 0.001,回归方程极高度显著。 方差分析表57设设 Y 与与 X 间为对数关系:间为对数关系:令 X = ln X,得线性回归模型:Y = 0 + 1X + 用 Excel 求解,得线性化后的回归方程及方差分析表如下: Significance F = 0.0006 t(N-P-1)就拒绝 H0k,说明 Xk 的作用显著。 反之,则说明 Xk 的作用不显著。 662. 存在不显著变量后的处理存在不显著变量后的处理若经检验,Xk 的作用不显著,则应从模型中剔除Xk,并重新求解 Y 对余下的 P-1 个变量的回归方程。若检验中同时存在多个不显著的变量,则每次只能剔除一个显著性水
27、平最低的变量,重新求解新的回归方程。再对新的回归系数进行检验,直至所有变量都显著为止。当模型中解释变量很多时,通常会存在较多的不显著变量,以上步骤就非常繁琐。更为有效的方法是采用“逐步回归”来求解多元线性回归方程。 67逐步回归的基本思想是:采用一定的评价标准,将解释变量一个一个地逐步引入回归方程。每引进一个新变量后,都对方程中的所有变量进行显著性检验,并剔除不显著的变量,被剔除的变量以后就不再进入回归方程。采用逐步回归方法最终所得到的回归方程与前述方法的结果是一样的,但计算量要少得多。在 SPSS 软件的线性回归功能中就提供了逐步回归的可选项。 逐步回归方法简介逐步回归方法简介68家电商品的
28、需求量 Y 与其价格 X1 及居民家庭平均收入 X2 有关。下表给出了某市 10 年中某家电商品需求量与价格和家庭年平均收入水平间的数据。 求该商品年需求量 Y 关于价格 X1和家庭年平均收入 X2 的回归方程。 【案例【案例3】需求量与价格及收入间的关系】需求量与价格及收入间的关系69 由方差分析表,Significance F = 0.0001,因而回归方程极高度显著。 对回归系数的显著性检验结果为: X1 的P-value = 0.0268,X2 的 P-value = 0.0262都是一般显著。 此外还得到回归方程的标准误差:用 Excel 求解案例 3,可得回归方程如下:该值在求预测
29、区间和控制范围时要用到。 案例案例 3 分析分析70 预计下一年度该商品的价格水平为1800元,家庭年平均收入为30000元,希望预测该商品下一年的需求量。 假定下一年度居民家庭年平均收入估计在30000-31000元之间。 若要以90%的概率使该商品的年需求量不低于12万台,则应将价格控制在什么范围内? 案案例例 3 需要进需要进一步分析的问题一步分析的问题71 1. 预测预测 在给定解释变量的一组取值 ( x01, x02 , x0P ),由回归方程可得回归值 它是 Y0 = 0 + 1X01 + 2X02 + + pX0p+ 0 的一个点估计。 可以证明,Y0 的置信度为 1- 的预测区
30、间为五五. 预测和控制预测和控制 72预计下一年度该商品的价格水平为1800元,家庭年平均收入为30000元,求该商品年需求量的置信度为90%的预测区间。解解:由所得回归方程,可求得 该商品在该市下一年的年需求量的置信度为90%的预测区间为案例案例 3 的预测分析的预测分析= t0.05(7)0.8618 = 1.63= (11.20万台,14.46万台) 732. 控制控制在多元回归情况下, 由于解释变量有多个,若控制问题的提法是:当要求以 1- 的概率将 Y 控制在某一给定范围内,问应将各解释变量控制在什么范围内?显然此问题可以有无穷多个解。因此多元回归控制问题的一般提法是:若要将 Y 控
31、制在某给定范围内,在给定其中 P-1 个解释变量的取值范围时, 应将另一个解释变量控制在什么范围之内?多元回归的控制分析方法与一元回归是完全类似的。 74假定下一年度居民家庭的年平均收入估计在30000-31000元之间,若要以90概率使该商品在的年需求量不低于12万台,问应将价格控制在什么范围内?。解解:此问题仍是单测控制问题,即要控制 X1 的取值范围,使其中案例案例 3 的控制要求分析的控制要求分析= t0.1(7)0.8618= 1.2194 75 可解得:x1 1211.167 - 1.903x1 + 0.169531 - 1.2194 12案例案例 3 的控制要求分析的控制要求分析
32、(续续)76根据我国自 1975 年到 1986 年 12 年间上述各项经济指标数据,建立计划经济时期影响我国钢材产量最合适的回归模型。 【案例【案例4】宏观经济模型】宏观经济模型在计划经济时期,我国钢材产量 Y 主要与以下因素有关:原油产量 X1, 生铁产量 X2,原煤产量 X3,电力产量 X4,固定资产投资 X5,国民收入消费额 X6,铁路运输能力 X7。77 即在计划经济时期,我国钢材产量主要受原油产量X1,生铁产量 X2,电力产量 X4的影响。其中原油产量与钢材产量之间是负相关的,这主要是因当时资金有限的原故。 如果使用 SPSS 软件中的“逐步回归”求解,可直接得到上述结果。 用用 Excel 求解本案的分析步骤求解本案的分析步骤第一次回归的结果是:回归方程极高度显著,但回归系数的检验结果中除X4(电力产量)外,其他变量都不显著。经过4轮逐个剔除t统计量最小的变量后,得到最优回归方程如下:= -35.1453 - 0.1275 X1 + 0.37914 X2 + 0.87506 X478