第三章回归分析预测方法课件

上传人:re****.1 文档编号:570184792 上传时间:2024-08-02 格式:PPT 页数:103 大小:1.45MB
返回 下载 相关 举报
第三章回归分析预测方法课件_第1页
第1页 / 共103页
第三章回归分析预测方法课件_第2页
第2页 / 共103页
第三章回归分析预测方法课件_第3页
第3页 / 共103页
第三章回归分析预测方法课件_第4页
第4页 / 共103页
第三章回归分析预测方法课件_第5页
第5页 / 共103页
点击查看更多>>
资源描述

《第三章回归分析预测方法课件》由会员分享,可在线阅读,更多相关《第三章回归分析预测方法课件(103页珍藏版)》请在金锄头文库上搜索。

1、 第三章第三章 回归分析预测方法回归分析预测方法5 非线性非线性回归预测法回归预测法1 引言引言2 一元线性一元线性回归预测法回归预测法3 多元线性多元线性回归预测法回归预测法4 虚拟变量虚拟变量 回归预测回归预测要求掌握以下内容:要求掌握以下内容:概念部分:概念部分:n1. 1. 变量之间的关系可以分成哪两类变量之间的关系可以分成哪两类 n2. 2. 回归分析与相关分析的区别和联系回归分析与相关分析的区别和联系n3. 3. 一元线性回归(一元线性回归(Linear regressionLinear regression)n4. 4. 最小二乘回归法的基本思想最小二乘回归法的基本思想n5. 5

2、. 回归方程的显著性检验回归方程的显著性检验n6. 6. 区间估计区间估计n7. 7. 虚拟变量虚拟变量计算部分:计算部分:n8. 8. 一元线性回归预测法一元线性回归预测法 第一节第一节 引言引言本章学习目的与要求:本章学习目的与要求: 通过本章的学习,了解回归分析预测法通过本章的学习,了解回归分析预测法的概念,掌握回归分析中各系数的计算方法的概念,掌握回归分析中各系数的计算方法及回归预测方法,能够运用及回归预测方法,能够运用ExcelExcel工具来进行工具来进行预测。预测。回本章目录 案例:案例: n 有有2020户家庭,冬天户家庭,冬天的取暖费用与的取暖费用与3 3个因素个因素有关:日

3、间户外的平均有关:日间户外的平均温度,阁楼绝缘层的厚温度,阁楼绝缘层的厚度,以及炉子的使用年度,以及炉子的使用年数。如果某一家庭的平数。如果某一家庭的平均户外温度是均户外温度是F30F30度,度,阁楼绝缘层的厚度为阁楼绝缘层的厚度为5 5英寸,炉子已使用过英寸,炉子已使用过1010年,它的冬天取暖费用年,它的冬天取暖费用为多少?为多少? 一、回归与回归分析预测方法一、回归与回归分析预测方法 “回归回归”一词的涵义一词的涵义n “回归回归”最初是遗传学中的一个名词,由英国最初是遗传学中的一个名词,由英国生物学家兼统计学家高尔登首先提出。他在研究生物学家兼统计学家高尔登首先提出。他在研究人类的身高

4、时,发现子女身高有回归于人类的平人类的身高时,发现子女身高有回归于人类的平均身高的趋势。均身高的趋势。 n回归现代涵义回归现代涵义研究自变量与因变量之间的关系形式的分析方法。研究自变量与因变量之间的关系形式的分析方法。目的:根据已知自变量来估计和预测因变量的值。目的:根据已知自变量来估计和预测因变量的值。例如:例如:农作物亩产量农作物亩产量施肥量施肥量降雨量降雨量气温气温n 在研究某一社会经济现象的发展变在研究某一社会经济现象的发展变化规律时,经过分析可以找到影响这一化规律时,经过分析可以找到影响这一现象变化的原因。在回归分析中,把某现象变化的原因。在回归分析中,把某一现象称为一现象称为因变量

5、因变量,它是预测的对象,它是预测的对象,把引起这一现象变化的因素称为把引起这一现象变化的因素称为自变量自变量,它是引起这一现象变化的原因。而因变它是引起这一现象变化的原因。而因变量则反映了自变量变化的结果。量则反映了自变量变化的结果。n 回归分析预测方法回归分析预测方法就是从各种经济就是从各种经济现象之间的相互关系出发,通过对与预现象之间的相互关系出发,通过对与预测对象有联系的现象变动趋势的分析,测对象有联系的现象变动趋势的分析,推算预测对象未来状态数量表现的一种推算预测对象未来状态数量表现的一种预测方法。预测方法。二、回归分析和相关分析二、回归分析和相关分析n1、变量之间的关系、变量之间的关

6、系n 现实世界中,每一事物都与它周围的事现实世界中,每一事物都与它周围的事物相互联系、相互影响,反映客观事物运动物相互联系、相互影响,反映客观事物运动的各种变量之间也就存在着一定的关系。变的各种变量之间也就存在着一定的关系。变量之间的关系可以分成两类:量之间的关系可以分成两类:函数关系函数关系和和相相关关系。关关系。 (1 1)函数关系)函数关系。函数关系反映客观事物之。函数关系反映客观事物之间存在着严格的依存关系,是一种间存在着严格的依存关系,是一种确定确定性关系,性关系,亦即当其它条件不变时,对于亦即当其它条件不变时,对于某一自变量或几个自变量的每一数值,某一自变量或几个自变量的每一数值,

7、都有因变量的一个的确定值与之相对应,都有因变量的一个的确定值与之相对应,并且这种关系可以用一个确定的数学表并且这种关系可以用一个确定的数学表达式反映出来。达式反映出来。 n设有两个变量设有两个变量x和和y,y与与x一起变化并完全依赖一起变化并完全依赖于于x,当,当x取某个数值时,取某个数值时,y依确定的关系取相依确定的关系取相应的值,则称应的值,则称y是是x的函数,记作的函数,记作y=f(x)。n如,企业的原材料消耗金额如,企业的原材料消耗金额y与产量与产量x1、单位、单位产量消耗产量消耗x2、原材料价格、原材料价格x3之间的关系可表示之间的关系可表示为为y=x1x2x3。例:圆面积对于半径的

8、依存关。例:圆面积对于半径的依存关系,正方形的面积对于边长的依存关系等等。系,正方形的面积对于边长的依存关系等等。n变量间的函数关系是一一对应的确定关系。变量间的函数关系是一一对应的确定关系。(2)相关关系)相关关系n相关关系相关关系。反映事物之间的非严格、不确定的线性依存。反映事物之间的非严格、不确定的线性依存关系。关系。有两个显著的特点:有两个显著的特点:事物之间在数量上确实存在一定的内在联系。表现在一事物之间在数量上确实存在一定的内在联系。表现在一个变量发生数量上的变化,要影响另一个变量也相应地个变量发生数量上的变化,要影响另一个变量也相应地发生数量上的变化。发生数量上的变化。例:例:事

9、物之间的数量依存关系不是确定的,具有一定的随机事物之间的数量依存关系不是确定的,具有一定的随机性。表现在给定自变量一个数值,因变量会有若干个数性。表现在给定自变量一个数值,因变量会有若干个数值和它对应,并且因变量总是遵循一定规律围绕这些数值和它对应,并且因变量总是遵循一定规律围绕这些数值平均数上下波动。其原因是影响因变量发生变化的因值平均数上下波动。其原因是影响因变量发生变化的因素不止一个。素不止一个。例例:影响:影响工业总产值工业总产值的因素除了的因素除了职工数职工数外,还有固定外,还有固定资产资产原值原值、流动资金流动资金和和能耗能耗等因素。等因素。成本成本劳动生产率劳动生产率n相关关系的

10、特点相关关系的特点 1 1变量间关系不能用函数关系精确表达。变量间关系不能用函数关系精确表达。 2 2一个变量的取值不能由另一个变量唯一确定。一个变量的取值不能由另一个变量唯一确定。 3 3对于线性相关,各观测点分布在直线周围。对于线性相关,各观测点分布在直线周围。 不相关正相关负相关相关但无线性关系2、回归分析与相关分析、回归分析与相关分析研究和测度两个或两个以上变量之间关系的方研究和测度两个或两个以上变量之间关系的方法有法有回归分析回归分析和和相关分析相关分析。n相关分析相关分析。研究两个或两个以上随机变量之。研究两个或两个以上随机变量之间线性依存关系的紧密程度。通常用相关系间线性依存关系

11、的紧密程度。通常用相关系数表示,多元相关时用复相关系数表示。数表示,多元相关时用复相关系数表示。n回归分析回归分析。研究某一随机变量(因变量)与。研究某一随机变量(因变量)与其他一个或几个普通变量(自变量)之间的其他一个或几个普通变量(自变量)之间的数量变动的关系。数量变动的关系。区区别别相关分析相关分析研究变量都是随机变量,不分自变量与因变量研究变量都是随机变量,不分自变量与因变量回归分析回归分析明确的自变量和因变量,自变量是确定的普通变量,明确的自变量和因变量,自变量是确定的普通变量,因变量是随机变量。因变量是随机变量。联联系系相关分析相关分析事物之间相互依存关系的两个不可分割的方面。在实

12、事物之间相互依存关系的两个不可分割的方面。在实际工作中,一般先进行相关分析,由相关系数的大小际工作中,一般先进行相关分析,由相关系数的大小决定是否需要进行回归分析。在相关分析的基础上建决定是否需要进行回归分析。在相关分析的基础上建立回归模型,以便进行推算、预测。立回归模型,以便进行推算、预测。回归分析回归分析 n相关分析相关分析相关关系线性相关非线性相关完全相关(R=1)(即线性相关)不相关(R=0)正相关负相关正相关负相关n相关系数相关系数对变量之间关系密切程度的度量对变量之间关系密切程度的度量 n 的取值范围是的取值范围是 -1,1:-1,1:完全相关完全相关 / /完全正相关完全正相关

13、/ /完全负相关完全负相关 / /不存在线性相关不存在线性相关关系关系 / /负相关负相关 / /正相关正相关 一般,一般,r r0.70.7为高度相关;为高度相关;r r0.30.3为低度相关;为低度相关;0.30.3 r r0.70.7 为中度相关。为中度相关。n相关系数的缺点:相关系数的缺点:r r接近于接近于1 1的程度与的程度与n n有有关。当关。当n n较小时较小时r r的波动较大,当的波动较大,当n n较大时较大时r r的绝对值容易偏小。例如,的绝对值容易偏小。例如,n=2n=2时,时,r r的的绝对值总为绝对值总为1 1(两点连线总为一条直线)(两点连线总为一条直线)。n例例3

14、-13-1 设有设有1010个厂家的投入和产出如下,根据这些数据,个厂家的投入和产出如下,根据这些数据,我们可以认为投入和产出之间存在相关性吗?我们可以认为投入和产出之间存在相关性吗?(相关数据)(相关数据)厂家12345678910投入20402030101020202030产出30604060304040503070n 回归分析回归分析是研究某一随机变量是研究某一随机变量( (因变量因变量) )与其他一个或几个普通变量与其他一个或几个普通变量( (自变量自变量) )之间的数之间的数量变动的关系。其量变动的关系。其基本思路基本思路是:从是:从一组样本数一组样本数据出发,确定变量之间的数学关系

15、式,对这些据出发,确定变量之间的数学关系式,对这些关系式的可信程度进行各种统计检验,并从影关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。然后利用所求的关系影响显著,哪些不显著。然后利用所求的关系式,根据一个或几个变量的取值来预测或控制式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控另一个特定变量的取值,并给出这种预测或控制的精确程度。制的精确程度。3 3、回归分析的基本思路、回归分析的基本思路三、回归模型的种类三、回归模型的种类n (1)(1)根据根据自变量自变量的多

16、少,回归模型可以分为一元回归模的多少,回归模型可以分为一元回归模型和多元回归模型。型和多元回归模型。n (2) (2)根据模型中自变量与因变量之间根据模型中自变量与因变量之间是否线性是否线性,可,可以分为线性回归模型和非线性回归模型。以分为线性回归模型和非线性回归模型。n (3)(3)根据回归模型是否带有根据回归模型是否带有虚拟变量虚拟变量,回归模型可,回归模型可以分为普通回归模型和带虚拟变量的回归模型。以分为普通回归模型和带虚拟变量的回归模型。应用回归分析预测需满足条件:应用回归分析预测需满足条件:1.数据量不能太少(以多于数据量不能太少(以多于20个较好);个较好);2.预测对象与影响因素

17、之间必须存在相关关系;预测对象与影响因素之间必须存在相关关系; 第二节第二节 一元线性回归预测法一元线性回归预测法n 一元线性回归(一元线性回归(Linear regressionLinear regression)是指成对的是指成对的两个变量数据分布大体上呈直线趋势时,运用合适的参两个变量数据分布大体上呈直线趋势时,运用合适的参数估计方法,求出一元线性回归模型,然后根据自变量数估计方法,求出一元线性回归模型,然后根据自变量与因变量之间的关系,预测因变量的趋势。与因变量之间的关系,预测因变量的趋势。n 现实中,很多社会经济现象之间都存在相关关系,现实中,很多社会经济现象之间都存在相关关系,因此

18、,一元线性回归预测有很广泛的应用。进行一元线因此,一元线性回归预测有很广泛的应用。进行一元线性回归预测时,必须选用合适的统计方法估计模型参数,性回归预测时,必须选用合适的统计方法估计模型参数,并对模型及其参数进行统计检验。并对模型及其参数进行统计检验。回本章目录一、一元线性回归模型一、一元线性回归模型n一元线性回归(一元线性回归(Linear regression),),只研究一个只研究一个自变量与一个因变量之间的统计关系。自变量与一个因变量之间的统计关系。 n对于只涉及一个自变量的简单线性回归模型可表对于只涉及一个自变量的简单线性回归模型可表示为:示为:n其中,其中,b b0 0和和b b1

19、 1称为模型的参数;称为模型的参数; 是随机误差项,是随机误差项,又称随机干扰项,有又称随机干扰项,有 在线性回归模型中加入随机误差项是基于在线性回归模型中加入随机误差项是基于以下原因:以下原因:n 第一,模型不可能包含所有的解释变量。第一,模型不可能包含所有的解释变量。n 第二,模型的设定误差。第二,模型的设定误差。 n 第三,测量误差的影响。第三,测量误差的影响。n 第四,其他随机因素的影响。第四,其他随机因素的影响。n简单线性回归方程简单线性回归方程的形式为的形式为 也称为也称为直线回归方程直线回归方程。其中,。其中, b b0 0是回归直线在是回归直线在y y轴上的截轴上的截距;距;

20、b b1 1是直线的斜率,称为回归系数,表示当是直线的斜率,称为回归系数,表示当x x每变动一每变动一个单位时,个单位时,y y的平均变动值。的平均变动值。n总体回归参数总体回归参数b b0 0和和b b1 1是未知的,必需利用样本数据去估计。是未知的,必需利用样本数据去估计。用样本统计量用样本统计量b b0 0和和b b1 1代替回归方程中的未知参数代替回归方程中的未知参数b b0 0和和b b1 1 ,就得到了估计的回归方程:就得到了估计的回归方程:n其中,其中, b b0 0是估计的回归直线在是估计的回归直线在y y轴上的截距,轴上的截距,b b1 1是直线的是直线的斜率。斜率。 二、参

21、数二、参数b b0 0和和b b1 1的最小二乘估计的最小二乘估计n对对例例3-1中中两个变量的数据进行线性回归,两个变量的数据进行线性回归,就是要找到一条直线来适当地代表图中的那就是要找到一条直线来适当地代表图中的那些点的趋势。些点的趋势。 n用数据寻找一条直线的过程也叫做拟合用数据寻找一条直线的过程也叫做拟合一条直线。一条直线。?n首先需要确定选择这条直线的标准。这里介绍首先需要确定选择这条直线的标准。这里介绍最小二乘回归法最小二乘回归法(least squares least squares regressionregression)。)。n最小二乘回归法的基本思想:最小二乘回归法的基本

22、思想:通过数学模型,通过数学模型,拟合一条较为理想的直线,这条直线必须满足拟合一条较为理想的直线,这条直线必须满足两点要求两点要求(1 1)原数列的观测值与模型估计值)原数列的观测值与模型估计值的离差平方和(的离差平方和(即所有点到该直线的垂直距离即所有点到该直线的垂直距离的平方和)为最小。(的平方和)为最小。(2 2)原数列的观测值与)原数列的观测值与模型估计值的离差总和为模型估计值的离差总和为0 0。最小二乘法最小二乘法n离差与离差平方离差与离差平方ee最小最小拟合程度最好拟合程度最好最小二乘原理n简单讲,使历史数据到拟合直线上的离差平方和最小,从而求得模型参数的方法。n法国数学家勒让德于

23、1806年首次发表最小二乘理论。事实上,德国的高斯于1794年已经应用这一理论推算了谷神星的轨道,但迟至1809年才正式发表。n最小二乘法也是数理统计中一种常用的方法,在工业技术和其他科学研究中有广泛应用。n设简单线性回归模型设简单线性回归模型 中,中, b b0 0和和b b1 1是是b b0 0和和b b1 1的估计值。则的估计值。则y y的估计值用的估计值用 表示。表示。n我们要求出这样的待估参数我们要求出这样的待估参数b b0 0和和b b1 1,使因变量的观察值与估使因变量的观察值与估计值之间的离差平方和达到最小,即使计值之间的离差平方和达到最小,即使 极小。为此,分别求极小。为此,

24、分别求Q Q对对b b0 0和和b b1 1的偏导,就可以求出符合要的偏导,就可以求出符合要求的待估参数求的待估参数b b0 0和和b b1 1:例例3-2:已知某种商品的:已知某种商品的销售量销售量同居民的同居民的可支配可支配收入收入有关,现有如下表的统计数据,试建立回归有关,现有如下表的统计数据,试建立回归方程,并求出相应参数的最小二乘估计值。方程,并求出相应参数的最小二乘估计值。年份年份实际可支配实际可支配收入收入 x(单(单位:位:10元)元)商品的销售商品的销售量(单位:量(单位:件)件)年份年份实际可支配实际可支配收入收入x(单(单位:位:10元)元)商品的销商品的销售量(单售量(

25、单位:件)位:件)19835226700199174181581984539713619927698683198557776581993801931719866137784199485596751987644810819958428542198867075831996860858419896958002199789096121990713844219989209719第一步:绘制散点图第一步:绘制散点图6000650070007500800085009000950010000500 550 600 650 700 750 800 850 900yi(件件)xi(10元)元)950第二步:设一元

26、线性回归方程为第二步:设一元线性回归方程为年份年份实际可支配实际可支配收入收入 x ( (1010元元) )商品的销售商品的销售量(件)量(件)xiyixi219835226700349740027248419845397136384630429052119855777658441866633292919866137784477159237576919876448108522155241473619886707583508061044890019896958002556139048302519907138442601914650836919917418158604507854908119927

27、6986836677227591361199380193177462917641601199485596758272125731025199584285427192364708964199686085847382240739600199789096128554680792100199892097198941480846400SUM1165113370398944771 8726865所求的回归方程为:所求的回归方程为:6000650070007500800085009000950010000500 550 600 650 700 750 800 850 900yi(件)xi(10元)元)950

28、三、回归方程的显著性检验三、回归方程的显著性检验n我们把观测值与其平均值的偏差平方和我们把观测值与其平均值的偏差平方和 称为称为总离差平方和总离差平方和。记为。记为SSTSST(Total Deviation Sum of Total Deviation Sum of SquaresSquares)。)。nSSTSST来源于来源于两个方面:一是由于两个方面:一是由于自变量自变量x x的的取值不同造成的取值不同造成的(回归变差回归变差);二是除);二是除x x以外的其他因素以外的其他因素( (如观测和实践中如观测和实践中产生的误差等产生的误差等) )的影响造成的(的影响造成的(剩余变差剩余变差)

29、。可分解为两)。可分解为两部分:部分:n其中其中 称作称作回归平方和回归平方和(Regression Regression Sum of SquaresSum of Squares), ,记作记作SSRSSR; 称作称作残差残差平方和平方和(Residual Sum of SquaresResidual Sum of Squares), ,记作记作SSESSE。nSST=SSR+SSEn总离差平方和总离差平方和 反映因变量反映因变量的每个观察值与其均值的总离差;的每个观察值与其均值的总离差;n回归平方和回归平方和 ,反映自变量,反映自变量的变化对因变量的变化对因变量 y 取值变化的影响;取值变

30、化的影响;n残差平方和残差平方和 反映除自变量反映除自变量以外的其他因素对取值的影响,也称为不可以外的其他因素对取值的影响,也称为不可解释的平方和或剩余平方和。解释的平方和或剩余平方和。 r r2 2 = = 决定系数决定系数 = =r = r = 相关系数相关系数 = = 确定性系数确定性系数SSRSST+-YX解释的解释的总的总的均值(均值(Y)回归线(回归线(Y)未解释的未解释的总的、解释的和未解释的偏离之间的关系总的、解释的和未解释的偏离之间的关系回归方程的显著性检验:回归方程的显著性检验:n回归方程的显著性检验回归方程的显著性检验,就是检验自变,就是检验自变量和因变量之间的线性关系是

31、否显著。量和因变量之间的线性关系是否显著。n有有3 3种方法:种方法:n1.F1.F检验法(总体显著性检验)。检验法(总体显著性检验)。n2.t2.t检验法(回归系数的显著性检验)。检验法(回归系数的显著性检验)。n3.3.相关系数检验法(回归系数的显著性检相关系数检验法(回归系数的显著性检验)。验)。 n具体方法是将回归离差平方和具体方法是将回归离差平方和SSRSSR同剩余离同剩余离差平方和差平方和SSESSE加以比较,应用检验来分析二加以比较,应用检验来分析二者之间的差别是否显著。如果是显著的,者之间的差别是否显著。如果是显著的,则两个变量之间存在线性关系;如果不显则两个变量之间存在线性关

32、系;如果不显著,则两个变量之间不存在线性关系。著,则两个变量之间不存在线性关系。n检验步骤如下:检验步骤如下:1.F1.F检验法(总体显著性检验)检验法(总体显著性检验)n(1)提出假设)提出假设nH0:自变量与因变量的线性关系不显著;:自变量与因变量的线性关系不显著;nH1:两者线性关系显著。:两者线性关系显著。n(2)计算检验统计量)计算检验统计量F:n(3)确定显著性水平)确定显著性水平 ,并根据分子自由度,并根据分子自由度1和分母自由和分母自由度度n-2找出临界值找出临界值Fa;n(4)作出决策)作出决策:若若 拒绝拒绝H0 ;若;若 接受接受H0 。 在回归分析中通常计算在回归分析中

33、通常计算F F值来检验模型总体的值来检验模型总体的显著性,在我们后面将要学到的多元回归中,显著性,在我们后面将要学到的多元回归中,F F用来检验是否至少有一个回归系数(因为有用来检验是否至少有一个回归系数(因为有多个回归系数)不为多个回归系数)不为0 0。而在简单回归(一元。而在简单回归(一元回归)中只有一个回归系数需要检验,而回归回归)中只有一个回归系数需要检验,而回归系数就是回归直线的斜率,所以检验总体显著系数就是回归直线的斜率,所以检验总体显著性的性的F F检验就等价于回归系数的检验。检验就等价于回归系数的检验。 n对回归系数的显著性检验就是检验对回归系数的显著性检验就是检验x x与与y

34、 y之间是之间是否具有线性关系,或者说,检验自变量否具有线性关系,或者说,检验自变量x x对因对因变量变量y y的影响是否显著。的影响是否显著。2.t2.t检验法(回归系数的显著性检验)检验法(回归系数的显著性检验)n检验步骤如下:检验步骤如下:n(1)提出假设)提出假设 n (没有线性关系没有线性关系) n (有线性关系有线性关系) n(2)计算检验的)计算检验的t统计量统计量 自由度为自由度为n-2;n(3)确定显著性水平)确定显著性水平 ,并进行决策,并进行决策 n若若 拒绝拒绝H0 ;n若若 接受接受H0 。n在在“投入与产出投入与产出”的例的例1中,相关系数中,相关系数r=0.759

35、,显著性水,显著性水平平 0.05时,计算检验的统计量:时,计算检验的统计量: n查表得查表得 落入拒绝域中,即落入拒绝域中,即拒绝拒绝H0,接受,接受H1。所以自变量。所以自变量x与因变量与因变量y之间相关关系明之间相关关系明显,投入量对产出量的影响显著。显,投入量对产出量的影响显著。 3. 3. 相关系数检验法(回归系数的显著相关系数检验法(回归系数的显著性检验)性检验) (1 1)计算相关系数)计算相关系数r r。(2 2)根据回归模型的自由度()根据回归模型的自由度(n-2n-2)和显著性水平)和显著性水平a a的值,查表得出临界值的值,查表得出临界值 (3 3)判别:如果)判别:如果

36、 ,则表明,则表明两变量之间线性相关关系显著。反之,如果两变量之间线性相关关系显著。反之,如果 ,则表明两变量之间线性相关关系不显著。,则表明两变量之间线性相关关系不显著。六、回归方程在估计和预测中的应用六、回归方程在估计和预测中的应用 点估计点估计n利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量x x(如例(如例1 1的第的第2 2个厂个厂家)的一个给定值家)的一个给定值x x0 0,求出因变量,求出因变量y y的估计值的估计值n预测区间估计预测区间估计n利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量 x x 的一个给的一个给定值定值x x0 0,求出因变量,求出

37、因变量y y的一个的估计区间,这一的一个的估计区间,这一区间称为预测区间。区间称为预测区间。ny y0 0在在1-1- 置信水平下的预测区间为:置信水平下的预测区间为:n预测区间为:预测区间为:n所以他的产出的所以他的产出的95%的预测区间为的预测区间为24.478和和72.627之间。之间。n回到前面的例子,投入为回到前面的例子,投入为2525时,平均产出的时,平均产出的95%95%的置信区间。的置信区间。n n当实际观测值较多时(当实际观测值较多时(n30n30),),n 近似等于近似等于1 1, 近似于正态分布,近似于正态分布, 上式可简化为上式可简化为n例例3-13-1 设有设有101

38、0个厂家的投入和产出如下,根据这些数据,个厂家的投入和产出如下,根据这些数据,我们可以认为投入和产出之间存在相关性吗?我们可以认为投入和产出之间存在相关性吗?(相关数据)(相关数据)厂家12345678910投入20402030101020202030产出30604060304040503070作业作业1 1:某省某省1978198619781986年居民消费品购买力和居民货币收入统计年居民消费品购买力和居民货币收入统计如下表:如下表:1 1、建立一元线性回归模型。建立一元线性回归模型。2 2、对回归模型进行显著性对回归模型进行显著性检验(检验( =0.05=0.05)。)。3 3、若居民货币

39、收入每年平均增长若居民货币收入每年平均增长19%19%,预测,预测19871987年居民消费品购买力。年居民消费品购买力。4 4、对对19871987年居民消费品购买力作个别年居民消费品购买力作个别值区间预测。值区间预测。要求用要求用ExcelExcel软件计算,并给出计算结果及截图。软件计算,并给出计算结果及截图。年份年份居民消费品居民消费品购买力购买力x居民货币居民货币收入收入x年份年份居民消费居民消费品购买力品购买力x居民货币居民货币收入收入x19788.511.6198427.833.6197911.114.1198533.540.5198013.617.1198639.247.819

40、8115.819.6198217.622.1198320.525.6(单位:亿元)(单位:亿元)n作业作业2:(例(例3-1 ) 设有设有10个厂家的投入和产出如个厂家的投入和产出如下,试建立回归方程,当投入为下,试建立回归方程,当投入为25时,求出平均产时,求出平均产出出95%的置信区间。要求用的置信区间。要求用Excel软件计算,并给软件计算,并给出计算结果的主要结果(截图)。出计算结果的主要结果(截图)。厂家12345678910投入20402030101020202030产出30604060304040503070作业作业1 1:某省某省1978198619781986年居民消费品购买

41、力和居民货币收入统计年居民消费品购买力和居民货币收入统计如下表:如下表:1 1、建立一元线性回归模型。建立一元线性回归模型。2 2、对回归模型进行显著性对回归模型进行显著性检验(检验( =0.05=0.05)。)。3 3、若居民货币收入每年平均增长若居民货币收入每年平均增长19%19%,预测,预测19871987年居民消费品购买力。年居民消费品购买力。4 4、对对19871987年居民消费品购买力作区间年居民消费品购买力作区间预测。预测。年份年份居民消费居民消费品购买力品购买力x居民货币居民货币收入收入x年份年份居民消居民消费品购费品购买力买力x居民货币居民货币收入收入x19788.511.6

42、198427.833.6197911.114.1198533.540.5198013.617.1198639.247.8198115.819.6198217.622.1198320.525.6(单位:亿元)(单位:亿元)1.设一元线性回归模型为:2.计算回归系数。年份年份居民消费品居民消费品购买力购买力x居民货币居民货币收入收入yx yx2y219788.511.698.672.25134.56197911.114.1156.51123.21198.81198013.617.1232.56184.96292.41198115.819.6309.68249.64384.16198217.622.

43、1388.96309.76488.41198320.525.6524.8420.25655.36198427.833.6934.08772.841128.96198533.540.51356.75 1122.251640.25198639.247.81873.76 1536.642284.84合计合计187.62325875.74791.87207.76(单位:亿元)(单位:亿元)2.计算回归系数。所求回归模型为:3.相关系数检验法线形关系显著,检验通过线形关系显著,检验通过4.F 检验。年份居民消费品购买力x居民货币收入y预测值y(y-y均)2(y- y)219788.511.611.30

44、209.75 0.09 197911.114.114.39 129.70 0.08 198013.617.117.36 70.79 0.07 198115.819.619.98 33.59 0.15 198217.622.122.12 13.35 0.00 198320.525.625.58 0.04 0.00 198427.833.634.26 71.98 0.44 198533.540.541.05 233.09 0.30 198639.247.847.83 486.21 0.00 合计187.6232233.86 1248.51 1.13 4.F 检验。n =9; = 0.05;查;查

45、F 值表得值表得 :F (1,n-2)= F0.05 (1,7)=5.59样本的统计量样本的统计量 F : F = 77738.11F F0.05(1,9),表明两变量之间线性相关关系显著,检验通过。表明两变量之间线性相关关系显著,检验通过。5.t 检验。n =9; /2 = 0.025;查;查 t 值表得:值表得:t /2 (n-2)= t0.025 (7)=2.365样本的统计量样本的统计量 t : t = 218.95;| t | t0.025(7),拒绝假设,拒绝假设H0:b=0,而接受而接受H1,即认为,即认为 b 显著异于显著异于 0,因变量,因变量 y 对自变量对自变量 x 的一

46、元线性回归成立。的一元线性回归成立。6.预测n =9; /2 = 0.025;查;查 t 值表得:值表得:t /2 (n-2)= t0.025 (7)=2.3656.预测 当当居民货币收入每年平均增长19%,在显著性水平=0.05时,1987年居民消费品购买力的预测区间为53.4659.92亿元 第三节第三节 多元线性回归预测法多元线性回归预测法n 社会经济现象的变化往往受到多个因素的影响,因此,社会经济现象的变化往往受到多个因素的影响,因此,一般要进行多元回归分析,我们把包括两个或两个以上自一般要进行多元回归分析,我们把包括两个或两个以上自变量的回归称为变量的回归称为多元回归多元回归。 多元

47、回归与一元回归类似,可以用最小二乘法估计模多元回归与一元回归类似,可以用最小二乘法估计模型参数。也需对模型及模型参数进行统计检验。型参数。也需对模型及模型参数进行统计检验。 选择合适的自变量是正确进行多元回归预测的前提选择合适的自变量是正确进行多元回归预测的前提之一,多元回归模型自变量的选择可以利用变量之间的相之一,多元回归模型自变量的选择可以利用变量之间的相关矩阵来解决关矩阵来解决。回本章目录 一、多元线性回归模型一、多元线性回归模型 n描述因变量描述因变量 y y 如何依赖于自变量如何依赖于自变量 和误差项和误差项 的方程称为多元线性回归模型。的方程称为多元线性回归模型。n涉及多个自变量的

48、多元线性回归模型可表示为:涉及多个自变量的多元线性回归模型可表示为:n总体回归参数总体回归参数 是未知的,要是未知的,要利用样本数据去估计。用样本统计量利用样本数据去估计。用样本统计量 代替回归方程中的未知参数代替回归方程中的未知参数, ,即得到估计的回归方程:即得到估计的回归方程: n二元线性回归方程为:二元线性回归方程为: 其中,其中, 分别是分别是 的偏回归的偏回归系数。系数。 n同理三元线性回归方程为同理三元线性回归方程为 :n由样本数据推算、估计回归方程中各个回归系数,由样本数据推算、估计回归方程中各个回归系数,是多元回归分析中的一个重要方面,下面简要介是多元回归分析中的一个重要方面

49、,下面简要介绍回归系数的计算方法绍回归系数的计算方法。n二元线性回归方程中回归系数二元线性回归方程中回归系数 可由以下方程可由以下方程组解出:组解出:n用手解这些方程枯燥而费时,一般来说,自变量超过用手解这些方程枯燥而费时,一般来说,自变量超过3 3个个时,要用矩阵运算,可以借助计算机软件解出参数。时,要用矩阵运算,可以借助计算机软件解出参数。n下面给出一个三元线性回归模型的例子。下面给出一个三元线性回归模型的例子。 n例例3 3-4-4: 有有2020户家户家庭,冬天的取暖费庭,冬天的取暖费用与用与3 3个因素有关:个因素有关:日间户外的平均温日间户外的平均温度,阁楼绝缘层的度,阁楼绝缘层的

50、厚度,以及炉子的厚度,以及炉子的使用年数。有关信使用年数。有关信息列出在右表中:息列出在右表中: n试作出三元回归方程并讨论:哪些自变量试作出三元回归方程并讨论:哪些自变量与因变量正相关?哪些是负相关?如果某与因变量正相关?哪些是负相关?如果某一家庭的平均户外温度是一家庭的平均户外温度是3030度,阁楼绝缘度,阁楼绝缘层的厚度为层的厚度为5 5英寸,炉子已使用过英寸,炉子已使用过1010年,它年,它的冬天取暖费用为多少?的冬天取暖费用为多少?(相关数据)(相关数据)n解:设三元线性回归方程为解:设三元线性回归方程为 n由软件可得到这题的线性回归方程为:由软件可得到这题的线性回归方程为: n将将

51、x x1 13030, x x2 25 5, x x3 31010代入方程,得代入方程,得n由这个线性回归方程可以算出每个家庭的预测取暖费值。由这个线性回归方程可以算出每个家庭的预测取暖费值。残差(残差( )及其平方也列在下表中:)及其平方也列在下表中:20户家庭预测取暖费值计算表户家庭预测取暖费值计算表 二、对多元回归模型的评估二、对多元回归模型的评估n如果检验水平合适而且数据足够多,用多元回如果检验水平合适而且数据足够多,用多元回归模型几乎可以处理所有数据组。模型一旦建归模型几乎可以处理所有数据组。模型一旦建立,一件很重要的事就是检验模型与数据是否立,一件很重要的事就是检验模型与数据是否很

52、好拟合以及与回归分析的假设前提是否相符。很好拟合以及与回归分析的假设前提是否相符。n检验回归模型是否恰当的方法有很多,如:检检验回归模型是否恰当的方法有很多,如:检验模型整体的显著性、检验回归系数的显著性、验模型整体的显著性、检验回归系数的显著性、计算残差、检验样本决定系数等。计算残差、检验样本决定系数等。 n 1. F检验法(总体显著性检验)检验法(总体显著性检验) 对多元回归方程的整体性检验,就是要看自变量对多元回归方程的整体性检验,就是要看自变量 是否从整体上对随机变是否从整体上对随机变量有明显的影响。为此,要用到量有明显的影响。为此,要用到F F统计量。统计量。n检验方法是将回归离差平

53、方和检验方法是将回归离差平方和( (SSR SSR ) )同残差平方同残差平方和和( ( SSE SSE ) )加以比较,应用加以比较,应用 F F 检验来分析二者检验来分析二者之间的差别是否显著。如果是显著的,因变量与之间的差别是否显著。如果是显著的,因变量与自变量之间存在线性关系;如果不显著,则因变自变量之间存在线性关系;如果不显著,则因变量与自变量之间不存在线性关系。量与自变量之间不存在线性关系。 n 多元回归模型的整体性检验的步骤如下:多元回归模型的整体性检验的步骤如下:n(1 1)提出假设)提出假设n H H0 0: :n H H1 1: : 至少有一个回归系数不等于至少有一个回归系

54、数不等于0 0 。n(2 2)计算检验统计量)计算检验统计量 F Fn回归平方和回归平方和 ;残差平方;残差平方和和n(3 3)确定显著性水平和分子自由度)确定显著性水平和分子自由度m m、分母自由、分母自由度度n-m-1n-m-1找出临界值找出临界值FaFa ;n(4 4)作出决策:)作出决策:若若F F F Fa a ,拒绝,拒绝H H0 0;若;若F F F Fa a ,接受接受H H0 0 。2. 2. 复相关系数检验法(回归系数复相关系数检验法(回归系数的显著性检验)的显著性检验) 步骤:步骤:(1 1)计算复相关系数)计算复相关系数R R。(2 2)根据回归模型的自由度()根据回归

55、模型的自由度(n-mn-m)和显著性水平)和显著性水平a a的值,查表得出临界值的值,查表得出临界值(3 3)判别:如果)判别:如果 ,则表明,则表明两变量之间线性相关关系显著。反之,如果两变量之间线性相关关系显著。反之,如果 ,则表明两变量之间线性相关关系不显著。,则表明两变量之间线性相关关系不显著。 多重样本决定系数多重样本决定系数 n多重样本决定系数多重样本决定系数R R2 2定义为回归平方和占总离差平定义为回归平方和占总离差平方和的比例,反映回归直线的拟合程度。公式为:方和的比例,反映回归直线的拟合程度。公式为:nR R2 2的取值范围在的取值范围在 0, 1 0, 1 之间,之间,R

56、 R2 21,1,说明回归方程说明回归方程拟合的越好;拟合的越好; R R2 2 0 0,说明回归方程拟合的越差。,说明回归方程拟合的越差。 n本题中,本题中,3. 多重预测标准差多重预测标准差 n预测标准差可以通过预测标准差可以通过SSESSE除以模型误差自由度再进行开方除以模型误差自由度再进行开方来计算:来计算: n也可以直接计算:也可以直接计算: n本题中本题中4. t 检验检验(回归系数的显著性检验)回归系数的显著性检验)n在多元线性回归中,对每一个自变量都要单独在多元线性回归中,对每一个自变量都要单独进行检验,应用进行检验,应用t t 检验。检验。n步骤如下:步骤如下:n(1 1)提

57、出假设)提出假设n ( (自变量与自变量与 因变因变量没有线性关系量没有线性关系) ) n ( (自变量与自变量与 因变因变量有线性关系量有线性关系) ) n如果不能拒绝零假设如果不能拒绝零假设, ,说明自变量不显著;如说明自变量不显著;如果拒绝零假设,说明自变量是显著的。果拒绝零假设,说明自变量是显著的。n(2 2)计算检验的统计量)计算检验的统计量 t tn(3 3)确定显著性水平)确定显著性水平 ,并进行决策,并进行决策 n 拒绝拒绝H H0 0 ; 不拒绝不拒绝n 本例中,对户外温度:本例中,对户外温度: 对绝缘层厚度:对绝缘层厚度: 对炉子已用时间:对炉子已用时间: 设显著性水平为设

58、显著性水平为0.050.05,需检验的各个回归系数的自由,需检验的各个回归系数的自由度为度为20-3-120-3-11616,进行双尾检验。查表得临界值,进行双尾检验。查表得临界值 本题回归方程为:本题回归方程为:nb b1 1-3.07-3.07, 表示对自变量表示对自变量x x1 1的偏回归的偏回归系数的抽样分布的标准差,由软件计算可系数的抽样分布的标准差,由软件计算可知为知为0.77230.7723。代入数据。代入数据n所以所以 ,拒绝,拒绝H H0 0,说明自变量,说明自变量x x1 1与与因变量因变量y y有线性关系,户外温度对取暖费有有线性关系,户外温度对取暖费有影响。影响。n同理

59、可对其他回归系数分别做显著性检验。同理可对其他回归系数分别做显著性检验。 第四节第四节 虚拟变量回归预测虚拟变量回归预测 在回归模型分析中,经常发生的情况是:因变量在回归模型分析中,经常发生的情况是:因变量不仅受诸如产量、销售量、收入、价格、身高和温度等数不仅受诸如产量、销售量、收入、价格、身高和温度等数量变量的影响,而且也受诸如性别、文化程度、宗教、战量变量的影响,而且也受诸如性别、文化程度、宗教、战争、地震、季节、地势以及政府经济政策变化等品质变量争、地震、季节、地势以及政府经济政策变化等品质变量的影响。在建立线性回归模型时。要将品质变量引入线性的影响。在建立线性回归模型时。要将品质变量引

60、入线性回归模型中。回归模型中。n一、虚拟变量一、虚拟变量n 品质变量只能以品质、属性、种类等具体形式表现,品质变量只能以品质、属性、种类等具体形式表现,必须将其数量化。这种以出现为必须将其数量化。这种以出现为1 1,未出现为,未出现为0 0形式表现的形式表现的品质变量,就称为虚拟变量。品质变量,就称为虚拟变量。回本章目录常见的带虚拟变量的回归模型有三种形式常见的带虚拟变量的回归模型有三种形式(1 1)反映政府政策变化或某种因素发生重大变异的跳跃、间)反映政府政策变化或某种因素发生重大变异的跳跃、间 断式模型。其模型形式为:断式模型。其模型形式为: (式(式3 35858)式中:式中: 为因变量

61、为因变量 , 为自变量,为自变量, 为虚拟变量。设为虚拟变量。设 为观测值出现重大变异的年份,则为观测值出现重大变异的年份,则 的取值为的取值为二、带虚拟变量的回归模型二、带虚拟变量的回归模型 X Xi02i02Y YX X(2 2)具有转折点的系统趋势变化模型,其模型形式为:)具有转折点的系统趋势变化模型,其模型形式为: (式(式3 35959)式中:式中: 为虚拟变量。设为虚拟变量。设 为发生转折点的年份,为发生转折点的年份, 为为 年份年份 观测值。观测值。 X Xi02i02Y YX X(3 3)含有多个虚拟变量的线性回归模型:)含有多个虚拟变量的线性回归模型: 确定虚拟变量个数的原则

62、:当品质变量确定虚拟变量个数的原则:当品质变量 有有K K各分类时,引入的虚拟变量的个数为各分类时,引入的虚拟变量的个数为K-1K-1。三、应用举例三、应用举例 第五节第五节 非线性回归预测法非线性回归预测法n 在社会现实经济生活中,很多现象之间的关系并不是在社会现实经济生活中,很多现象之间的关系并不是线性关系,对这种类型现象的分析预测一般要应用非线性线性关系,对这种类型现象的分析预测一般要应用非线性回归预测,通过变量代换,可以将很多的非线性回归转化回归预测,通过变量代换,可以将很多的非线性回归转化为线性回归。因而,可以用线性回归方法解决非线性回归为线性回归。因而,可以用线性回归方法解决非线性

63、回归预测问题。预测问题。n 下面给出几种常见的非线性模型及其线性化方法。下面给出几种常见的非线性模型及其线性化方法。回本章目录常见的一元非线性模型有下述几种:常见的一元非线性模型有下述几种: n究竟选用哪一种模型拟合,可先将样本序列画图观察其曲线形状来判定。x0y0yx0yx0yxa0yx(1)(2)(3)(4)(5) 指数函数指数函数n 对上式两边取自然对数,得对上式两边取自然对数,得 令令 , 则则 幂函数幂函数 对上式两边取对数,得对上式两边取对数,得 令令 , 则则双曲线函数双曲线函数 令 ,则 对数函数对数函数 令 ,则S型曲线型曲线 令 ,则n 例例4 已知某商店的已知某商店的商品

64、流通费水平商品流通费水平与商品零售额数与商品零售额数据资料,试根据据资料,试根据以下数据拟和适以下数据拟和适当的模型。当的模型。 绘制散点图见下图:绘制散点图见下图: 可见上表中的原始数据近似呈双曲线形式变化。因此,可以用双可见上表中的原始数据近似呈双曲线形式变化。因此,可以用双曲线回归方程来描述商品流通费水平与商品零售额之间的变化规律。曲线回归方程来描述商品流通费水平与商品零售额之间的变化规律。 为了求得双曲线方程为了求得双曲线方程 中的中的 , 两个参数,可先将此两个参数,可先将此式化为线性方程:式化为线性方程: 令令 ,则,则 然后采用最小二乘法解出参数。计算过程参照上表,将数据代入下面

65、然后采用最小二乘法解出参数。计算过程参照上表,将数据代入下面标准方程组中:标准方程组中: 得:得: 32.110 +0.604 2.210.60 +0.0409 解得解得 -0.4377 60.4 即即 -0.4377+60.4 ,所以,所以 -0.4377+60.4 如果该商店下期的商品零售额估计如果该商店下期的商品零售额估计为为28万,则可预测下期的商品流通水平为:万,则可预测下期的商品流通水平为: -0.4377+60.4 -0.4377+60.4 1.72 作业:作业:某省某省1978198619781986年居民消费品购买力和居民货币收入统计如年居民消费品购买力和居民货币收入统计如下

66、表:下表:1 1、建立一元线性回归模型。建立一元线性回归模型。2 2、对回归模型进行显著性检对回归模型进行显著性检验(验( =0.05=0.05)。)。3 3、若居民货币收入每年平均增长若居民货币收入每年平均增长19%19%,预测,预测19871987年居民消费品购买力。年居民消费品购买力。4 4、对对19871987年居民消费品购买力作区间年居民消费品购买力作区间预测。预测。年份年份居民消费品居民消费品购买力购买力x居民货币居民货币收入收入x年份年份居民消居民消费品购费品购买力买力x居民货币居民货币收入收入x19788.511.6198427.833.6197911.114.1198533.540.5198013.617.1198639.247.8198115.819.6198217.622.1198320.525.6(单位:亿元)(单位:亿元)

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号