第九章 相关与回归分析

上传人:cn****1 文档编号:570003231 上传时间:2024-08-01 格式:PPT 页数:116 大小:1.70MB
返回 下载 相关 举报
第九章 相关与回归分析_第1页
第1页 / 共116页
第九章 相关与回归分析_第2页
第2页 / 共116页
第九章 相关与回归分析_第3页
第3页 / 共116页
第九章 相关与回归分析_第4页
第4页 / 共116页
第九章 相关与回归分析_第5页
第5页 / 共116页
点击查看更多>>
资源描述

《第九章 相关与回归分析》由会员分享,可在线阅读,更多相关《第九章 相关与回归分析(116页珍藏版)》请在金锄头文库上搜索。

1、第第9 9章章 相关与一元线性回归相关与一元线性回归9.1 变量间关系的度量变量间关系的度量 9.2 一元线性回归一元线性回归9.3 利用回归方程进行估计和预测利用回归方程进行估计和预测9.4 残差分析残差分析学习目标1. 相关系数的分析方法相关系数的分析方法2.一元线性回归的基本原理和参数的最小一元线性回归的基本原理和参数的最小二乘估计二乘估计3.回归直线的拟合优度回归直线的拟合优度4.回归方程的显著性检验回归方程的显著性检验5.利用回归方程进行估计和预测利用回归方程进行估计和预测6.用用 SPSS 进行回归进行回归9.1 9.1 变量间关系的度量变量间关系的度量9.1.1 9.1.1 变量

2、间的关系变量间的关系9.1.2 9.1.2 相关关系的分类相关关系的分类9.1.3 9.1.3 相关关系的描述与测度相关关系的描述与测度9.1.4 9.1.4 相关系数的显著性检验相关系数的显著性检验函数关系与相关关系函数关系与相关关系当一个变量取一定数值时,另一个变量有当一个变量取一定数值时,另一个变量有确确定值定值与之相对应,这种关系称为与之相对应,这种关系称为函数关系函数关系。当一个变量取一定数值时,与之相对应的另当一个变量取一定数值时,与之相对应的另一变量的数值虽然一变量的数值虽然不确定不确定,但它仍按某种规,但它仍按某种规律在一定的范围内变化,这种关系称为律在一定的范围内变化,这种关

3、系称为相关相关关系关系。 对相关关系的分析是统计学的重要研究内容。对相关关系的分析是统计学的重要研究内容。主要研究方法:相关分析和与回归分析。主要研究方法:相关分析和与回归分析。9.1.19.1.1变量间的关系变量间的关系函数关系1.1.是一一对应的确定关系是一一对应的确定关系2.2.设设有有两两个个变变量量 x x 和和 y y ,变变量量 y y 随随变变量量 x x 一一起起变变化化,并并完完全全依依赖赖于于 x x ,当当变变量量 x x 取取某某个个数数值值时时, y y 依依确确定定的的关关系系取取相相应应的的值值,则则称称 y y 是是 x x 的的函函数数,记记为为 y y =

4、 = f f ( (x x) ),其其中中 x x 称称为为自变量,自变量,y y 称为因变量称为因变量x xy y函数关系(几个例子) 函数关系的例子函数关系的例子某某某某种种种种商商商商品品品品的的的的销销销销售售售售额额额额y y与与与与销销销销售售售售量量量量x x之之之之间间间间的的的的关关关关系系系系可可可可表表表表示为示为示为示为 y y = = pxpx ( (p p 为单价为单价为单价为单价) )圆的面积圆的面积圆的面积圆的面积S S与半径之间的关系可表示为与半径之间的关系可表示为与半径之间的关系可表示为与半径之间的关系可表示为S S= = R R2 2 企企企企业业业业的的

5、的的原原原原材材材材料料料料消消消消耗耗耗耗额额额额y y与与与与产产产产量量量量x x1 1 、单单单单位位位位产产产产量量量量消消消消耗耗耗耗x x2 2 、原材料价格原材料价格原材料价格原材料价格x x3 3之间的关系可表示为之间的关系可表示为之间的关系可表示为之间的关系可表示为 y y = = x x1 1 x x2 2 x x3 3 相关关系(correlation)1.变变量量间间关关系系不不能能用用函函数数关关系精确表达系精确表达2.一一个个变变量量的的取取值值不不能能由由另另一个变量唯一确定一个变量唯一确定3.当当变变量量 x 取取某某个个值值时时,变变量量 y 的取值可能有几

6、个的取值可能有几个4.各观测各观测点分布在直线周围点分布在直线周围 x xy y相关关系(几个例子) 相关关系的例子相关关系的例子父亲身高父亲身高父亲身高父亲身高y y与子女身高与子女身高与子女身高与子女身高x x之间的关系之间的关系之间的关系之间的关系收入水平收入水平收入水平收入水平y y与受教育程度与受教育程度与受教育程度与受教育程度x x之间的关系之间的关系之间的关系之间的关系粮粮粮粮食食食食亩亩亩亩产产产产量量量量y y与与与与施施施施肥肥肥肥量量量量x x1 1 、降降降降雨雨雨雨量量量量x x2 2 、温温温温度度度度x x3 3之间的关系之间的关系之间的关系之间的关系商品的消费量

7、商品的消费量商品的消费量商品的消费量y y与居民收入与居民收入与居民收入与居民收入x x之间的关系之间的关系之间的关系之间的关系商品销售额商品销售额商品销售额商品销售额y y与广告费支出与广告费支出与广告费支出与广告费支出x x之间的关系之间的关系之间的关系之间的关系相关分析与回归分析 相关分析(相关分析(Correlation AnalysisCorrelation Analysis)研究变量之研究变量之间相关的方向和相关的程度,但无法给出变量间间相关的方向和相关的程度,但无法给出变量间相互关系的具体形式,因而无法从一个变量推测相互关系的具体形式,因而无法从一个变量推测另一个变量。另一个变量

8、。回归分析(回归分析(Regression) Regression) 可以确定变量之间相互可以确定变量之间相互关系的具体形式(回归方程),确定一个变量对关系的具体形式(回归方程),确定一个变量对另一个变量的影响程度,并根据回归方程进行预另一个变量的影响程度,并根据回归方程进行预测。测。1.1.按按相关关系涉及的因素多少来分,可分为:相关关系涉及的因素多少来分,可分为: 单相关和复相关。单相关和复相关。 在实际工作中,如存在多个自变量,可抓住其在实际工作中,如存在多个自变量,可抓住其中主要的自变量,研究其相关关系,而保持另一些中主要的自变量,研究其相关关系,而保持另一些因素不变,这时复相关可转化

9、为因素不变,这时复相关可转化为偏相关偏相关。二因素之间的相关关系称二因素之间的相关关系称单相关单相关,即只涉,即只涉及一个自变量和一个因变量。及一个自变量和一个因变量。三个或三个以上因素的相关关系称三个或三个以上因素的相关关系称复相关复相关,或多元相关,即涉及二个或二个以上的自变量和或多元相关,即涉及二个或二个以上的自变量和因变量。因变量。9.1.29.1.2相关关系的分类相关关系的分类 2.2.按按相关关系的性质来分,可分为相关关系的性质来分,可分为: : 正相关和负相关正相关和负相关正相关正相关是指两相关现象变化的方向是一致的。是指两相关现象变化的方向是一致的。负相关负相关是指两相关现象变

10、化的方向是相反的。是指两相关现象变化的方向是相反的。3. 3. 按按相关关系的形式来分,可分为:相关关系的形式来分,可分为: 直线相关和曲线相关直线相关和曲线相关 直线相关直线相关是指两个相关现象之间,当自变量是指两个相关现象之间,当自变量X X的数值发生变动时,因变量的数值发生变动时,因变量y y随之发生近似于固定比随之发生近似于固定比例的变动,在相关图上的散点近似地表现为直线形式,例的变动,在相关图上的散点近似地表现为直线形式,因此称其为直线相关关系。因此称其为直线相关关系。 曲线相关曲线相关是指两个相关现象之间,当自变量是指两个相关现象之间,当自变量X X的数值发生变动时,因变量的数值发

11、生变动时,因变量y y也随之发生变动,但这也随之发生变动,但这种变动在数值上不成固定比例,在相关图上的散点可种变动在数值上不成固定比例,在相关图上的散点可表现为抛物线、指数曲线、双曲线等形式,因此称其表现为抛物线、指数曲线、双曲线等形式,因此称其为曲线相关关系。为曲线相关关系。4.4. 按按相关程度分,可分为:相关程度分,可分为: 完全相关、不完全相关和不相关完全相关、不完全相关和不相关 完全相关完全相关就是相关现象之间的关系是完全确定就是相关现象之间的关系是完全确定的关系,因而完全相关关系就是函数关系。的关系,因而完全相关关系就是函数关系。 不相关不相关是指两现象之间在数量上的变化上各自是指

12、两现象之间在数量上的变化上各自独立,互不影响。独立,互不影响。 不完全相关不完全相关就是介于完全相关和不相关之间的就是介于完全相关和不相关之间的一种相关关系。相关分析的对象主要是不完全相关一种相关关系。相关分析的对象主要是不完全相关关系。关系。9.1.39.1.3相关关系的描述与测度相关关系的描述与测度( (散点图散点图) )散点图 Scatter Diagram 散点图是观察两个变量之间的相关程度和类型最直观的方法。散点图是在直角坐标系中用相对应的两个变量值作为图中一个点的横坐标和纵坐标描点得到的图形。自变量和因变量如果两个变量中一个变量是另一个变量变化的结果,那么代表原因的变量称为自变量

13、Independent (Explanatory) Variable,代表结果的变量称为因变量 Dependent (Response) Variable 。在散点图中习惯上把因变量绘制在纵轴上。散点图(scatter diagram)不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正

14、线性相关完全正线性相关散点图(例题分析) 【例例】一一家家大大型型商商业业银银行行在在多多个个地地区区设设有有分分行行,其其业业务务主主要要是是进进行行基基础础设设施施建建设设、国国家家重重点点项项目目建建设设、固固定定资资产产投投资资等等项项目目的的贷贷款款。近近年年来来,该该银银行行的的贷贷款款额额平平稳稳增增长长,但但不不良良贷贷款款额额也也有有较较大大比比例例的的增增长长,这这给给银银行行业业务务的的发发展展带带来来较较大大压压力力。为为弄弄清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的有有关关数数据据做做些些定定量量分分析析,以以便便找找出出控控制

15、制不不良良贷贷款款的的办办法法。下下面面是是该该银银行行所所属属的的25家分行家分行2002年的有关业务数据年的有关业务数据 散点图(例题分析)散点图(例题分析)9.1.39.1.3相关关系的描述与测度相关关系的描述与测度( (相关系数相关系数) )相关系数相关系数(correlation coefficient)(correlation coefficient)1.1.对变量之间关系密切程度的度量对变量之间关系密切程度的度量2.2.衡衡量量两两个个定定量量变变量量之之间间线线性性相相关关程程度度的的常常用用指指标标是是皮皮尔尔逊逊( PearsonPearson)相相关关系系数数。也称为简单

16、相关系数也称为简单相关系数3.3.若若相相关关系系数数是是根根据据总总体体全全部部数数据据计计算算的的,称为总体相关系数,记为称为总体相关系数,记为 4.4.若若是是根根据据样样本本数数据据计计算算的的,则则称称为为样样本本相相关系数,记为关系数,记为 r r相关系数相关系数(计算公式计算公式) 样本相关系数的计算公式或化简为相关系数相关系数(取值及其意义取值及其意义)-1.0+1.00-0.5+0.5完全负相关完全负相关完全负相关完全负相关无线性相关无线性相关无线性相关无线性相关完全正相关完全正相关完全正相关完全正相关负负负负相关程度增加相关程度增加相关程度增加相关程度增加r正相关程度增加正

17、相关程度增加正相关程度增加正相关程度增加相关系数的性质性质性质1:r 的取值范围是 -1,1 |r|=1,为完全相关r =1,为完全正相关r =-1,为完全负正相关 r = 0,不存在线性线性相关相关关系 -1r0,为负相关0r1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱相关系数的性质性性质质2:r具具有有对对称称性性。即即x与与y之之间间的的相相关关系系数数和和y与与x之之间间的相关系数相等,即的相关系数相等,即rxy= ryx性质性质3:r数值大小与数值大小与x和和y原点及尺度无关,即改变原点及尺度无关,即改变x和和y的的 数据原点及计量尺度,并不改变数据原点及计量尺

18、度,并不改变r数值大小数值大小性质性质4:仅仅是:仅仅是x与与y之间线性关系的一个度量,它不能用之间线性关系的一个度量,它不能用 于于描描述述非非线线性性关关系系。这这意意为为着着,r=0只只表表示示两两个个变变 量量之之间间不不存存在在线线性性相相关关关关系系,并并不不说说明明变变量量之之间间没没 有任何关系有任何关系性性质质5:r虽虽然然是是两两个个变变量量之之间间线线性性关关系系的的一一个个度度量量,却却不不 一定意味着一定意味着x与与y一定有因果关系一定有因果关系相关系数的经验解释1. |r|0.8时,可视为两个变量之间高度相关2.0.5|r|0.8时,可视为中度相关3.0.3|r|0

19、.5时,视为低度相关4.|r|t,拒绝拒绝H0 若若tt(25-2)=2.0687,拒拒绝绝H0,不不良良贷贷款与贷款余额之间存在着显著的正线性相关关系款与贷款余额之间存在着显著的正线性相关关系 相关系数的显著性检验(例题分析)各相关系数检验的统计量各相关系数检验的统计量例题1985-20071985-2007年北京市城镇居民人均年消费性支出年北京市城镇居民人均年消费性支出(变量(变量Y Y)和人均年可支配收入(变量)和人均年可支配收入(变量X X)的有关)的有关资料见资料见9.1.sav9.1.sav,请对,请对X X和和Y Y变量进行相关分析变量进行相关分析 。消费支出消费支出可支配收入可

20、支配收入消费支出消费支出1 1可支配收入可支配收入0.99680.99681 1计算结果:t检验值为临界值t(21)2.08,故拒绝H0,认为相关系数显著。消费支出和可支配收入的相关系数显著性检验消费支出和可支配收入的相关系数显著性检验消费支出可支配收入消费支出1可支配收入0.99681注意:相关关系注意:相关关系因果关系!因果关系! 典型的错误推断:典型的错误推断:统计分析表明,庆祝生日次数越统计分析表明,庆祝生日次数越多的人越长寿。因此,庆祝生日有利于健康。多的人越长寿。因此,庆祝生日有利于健康。调查表明,世界各国人均电视机拥有量与预期调查表明,世界各国人均电视机拥有量与预期寿命存在很强的

21、正相关性。因此,电视机拥有量寿命存在很强的正相关性。因此,电视机拥有量越高,预期寿命越长。越高,预期寿命越长。对小学各年级学生的抽样调查表明,学生的识对小学各年级学生的抽样调查表明,学生的识字水平与他们鞋子的尺寸高度正相关。因此,学字水平与他们鞋子的尺寸高度正相关。因此,学生穿的鞋越大,他的识字水平就越高。生穿的鞋越大,他的识字水平就越高。9.2 一元线性回归9.2.1 一元线性回归模型一元线性回归模型9.2.2 参数的最小二乘估计参数的最小二乘估计9.2.3 回归直线的拟合优度回归直线的拟合优度9.2.4 显著性检验显著性检验关于F.GaltonGaltonGalton(1822-19111

22、822-1911)是一位人类学家,著名生物学是一位人类学家,著名生物学家达尔文的表兄弟,早年学医,曾在剑桥大学念家达尔文的表兄弟,早年学医,曾在剑桥大学念书。尽管他的数学不是很好,但在人类学和优生书。尽管他的数学不是很好,但在人类学和优生学研究中萌发的统计学思想,对生物统计的发展学研究中萌发的统计学思想,对生物统计的发展产生了深远影响,如产生了深远影响,如“回归回归”、 “ “双变量正态分双变量正态分布布”的概念等。他没有子女,但一生写了的概念等。他没有子女,但一生写了9 9部书,部书,发表了近发表了近200200篇论文。篇论文。18601860年当选英国皇家学会会年当选英国皇家学会会员,员,

23、19091909年被封为爵士。年被封为爵士。为什么叫”回归“? “ “回归回归”这个词是由英国统计学家这个词是由英国统计学家F.GaltonF.Galton创立创立的。他在研究父子身高(的。他在研究父子身高(10781078对数据)关系时发对数据)关系时发现,高个子的父亲常生高个子的儿子,但儿子身现,高个子的父亲常生高个子的儿子,但儿子身高超过父亲的概率要小于低于父亲的概率;同样高超过父亲的概率要小于低于父亲的概率;同样矮个子的父亲常生矮个子的儿子,但儿子身高比矮个子的父亲常生矮个子的儿子,但儿子身高比父亲更矮的概率要小于比父亲高的概率。也就是父亲更矮的概率要小于比父亲高的概率。也就是说不可能

24、无限制的一代比一代高,或一代比一代说不可能无限制的一代比一代高,或一代比一代矮。后代的高度有向平均高度回归的趋势;离开矮。后代的高度有向平均高度回归的趋势;离开均值越远,所受到回归的压力也越大。均值越远,所受到回归的压力也越大。“回归回归”这个词就由此而来。这个词就由此而来。 F. GaltonRegression 的原始释义什么是回归分析?(Regression)1.从从一一组组样样本本数数据据出出发发,确确定定变变量量之之间间的的数数学学关关系式系式2.对对这这些些关关系系式式的的可可信信程程度度进进行行各各种种统统计计检检验验,并并从从影影响响某某一一特特定定变变量量的的诸诸多多变变量量

25、中中找找出出哪哪些些变量的影响显著,哪些不显著变量的影响显著,哪些不显著3.利利用用所所求求的的关关系系式式,根根据据一一个个或或几几个个变变量量的的取取值值来来预预测测或或控控制制另另一一个个特特定定变变量量的的取取值值,并并给给出这种预测或控制的精确程度出这种预测或控制的精确程度回归分析与相关分析的区别回归分析与相关分析的区别1.相相关关分分析析中中,变变量量 x 变变量量 y 处处于于平平等等的的地地位位;回回归归分分析析中中,变变量量 y 称称为为因因变变量量,处处在在被被解解释释的的地地位,位,x 称为自变量,用于预测因变量的变化称为自变量,用于预测因变量的变化2.相相关关分分析析中

26、中所所涉涉及及的的变变量量 x 和和 y 都都是是随随机机变变量量;回回归归分分析析中中,因因变变量量 y 是是随随机机变变量量,自自变变量量 x 可可以是随机变量,也可以是非随机的确定变量以是随机变量,也可以是非随机的确定变量3.相相关关分分析析主主要要是是描描述述两两个个变变量量之之间间线线性性关关系系的的密密切切程程度度;回回归归分分析析不不仅仅可可以以揭揭示示变变量量 x 对对变变量量 y 的影响大小,还可以由回归方程进行预测和控制的影响大小,还可以由回归方程进行预测和控制 回归模型的类型9.2.1一元线性回归模型一元线性回归1.涉及一个自变量的回归2.因变量y与自变量x之间为线性关系

27、被 预 测 或 被 解 释 的 变 量 称 为 因 变 量(dependent variable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示 3.因变量与自变量之间的关系用一个线性方程来表示一元线性回归模型一元线性回归模型1.描描述述因因变变量量 y 如如何何依依赖赖于于自自变变量量 x 和和误误差差项项的的方方程称为程称为回归模型回归模型2.一元线性一元线性回归模型可表示为回归模型可表示为 y = + + x + + y 是是 x 的线性函数的线性函数(部分部分)加上误差项加上误差项线性部分反映了由于线性部分反映了由于

28、x 的变化而引起的的变化而引起的 y 的变化的变化误差项误差项 是随机变量是随机变量反反映映了了除除 x 和和 y 之之间间的的线线性性关关系系之之外外的的随随机机因因素素对对 y 的的影响影响是不能由是不能由 x 和和 y 之间的线性关系所解释的变异性之间的线性关系所解释的变异性 和和 称为模型的参数称为模型的参数一元线性回归模型一元线性回归模型( (基本假定基本假定5 5个个) ) 1.因变量因变量x与自变量与自变量y之间具有线性关系之间具有线性关系2.在重复抽样中,自变量在重复抽样中,自变量x的取值是固定的,即假定的取值是固定的,即假定x是是非随机的非随机的3.误差误差项项是一个期望值为

29、是一个期望值为0的随机变量,即的随机变量,即E()=0。对对于一个给定的于一个给定的 x 值,值,y 的期望值为的期望值为E ( y ) = + x4.对对于所有的于所有的 x 值,值,的方差的方差2 都相同都相同5.误误差差项项是是一一个个服服从从正正态态分分布布的的随随机机变变量量,且且相相互互独独立立。即即N(0 ,2 )独独立立性性意意味味着着对对于于一一个个特特定定的的 x 值值,它它所所对对应应的的与与其其他他 x 值所对应的值所对应的不相关不相关对对于于一一个个特特定定的的 x 值值,它它所所对对应应的的 y 值值与与其其他他 x 所所对对应应的的 y 值也不相关值也不相关一元线

30、性回归模型一元线性回归模型( (基本假定基本假定) ) x x= =x x3 3时的时的时的时的E E( (y y) )x x= =x x2 2时时时时y y的分布的分布的分布的分布x x= =x x1 1时时时时y y的分布的分布的分布的分布x x= =x x2 2时的时的时的时的E E( (y y) )x x3 3x x2 2x x1 1x x= =x x1 1时的时的时的时的E E( (y y) ) 0 0xyx x= =x x3 3时时时时y y的分布的分布的分布的分布 0 0+ + 1 1x x总体回归方程(总体回归函数) (regression equation)1.描描述述 y

31、的的平平均均值值或或期期望望值值如如何何依依赖赖于于 x 的的方方程称为回归方程程称为回归方程2.一元一元线性回归方程的形式如下线性回归方程的形式如下3. E( y ) = + x方程的图示是一条直线,也称为直线回归方程方程的图示是一条直线,也称为直线回归方程是回归直线在是回归直线在 y 轴上的截距,是当轴上的截距,是当 x=0 时时 y 的期望值的期望值 是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当 x 每每变变动动一一个个单位时,单位时,y 的平均变动值的平均变动值估计的回归方程(样本回归函数) (estimated regression equation)3.一元线性

32、回归中估计的回归方程为一元线性回归中估计的回归方程为2.用用样样本本统统计计量量 和和 代代替替回回归归方方程程中中的的未未知知参参数数 和和 ,就得到了,就得到了估计的回归方程估计的回归方程估计的回归方程估计的回归方程1.总总体体回回归归参参数数 和和 是是未未知知的的,必必须须利利用用样样本本数据去估计数据去估计其其中中: 是是估估计计的的回回归归直直线线在在 y y 轴轴上上的的截截距距, 是是直直线线的斜率,也表示的斜率,也表示 x x 每变动一个单位时,每变动一个单位时, y y 的平均变动值的平均变动值 样本回归函数与总体回归函数区别1、总体回归线是未知的,只有一条。样本回归线是根

33、据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。2、总体回归函数中的 和 是未知的参数,表现为常数。而样本回归函数中的 和 是随机变量,其具体数值随所抽取的样本观测值不同而变动。样本回归函数与总体回归函数区别3、总体回归函数中的i是i与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的i是i与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出i的具体数值。9.2.2参数的最小二乘估计x xy y(xn , yn)(x1 , y1)(x2 , y2)(xi , yi)ei = yi-yi最小二乘估计1.使因变量的观察值与估计值之间的离差平方

34、和达到最小来求得 和 的方法。即2.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小最小二乘估计(图示) x xy y( (x xn n , , y yn n) )( (x x1 1 , , y y1 1) )( (x x2 2 , , y y2 2) )( (x xi i , , y yi i) )e ei i = = y yi i- -y yi i若要使 最小,只需:最小二乘法 ( 和 的计算公式) 根据最小二乘法的要求,可得求解 和 的公式如下估计方程的求法(例题分析)【例例】求不良贷款对贷款余额的回归方程回归方程为:回归方程为:回回归归系系数数 表表示示,

35、贷贷款款余余额额每每增增加加1 1亿元,不良贷款平均增加亿元,不良贷款平均增加0.0378950.037895亿元亿元 估计方程的求法(例题分析)不良贷款对贷款余额回归方程的图示一元线性回归的计算机实现一元线性回归的计算机实现 Spss:analyzeregressionlinear; Eviews:quickestimate equation。根据表9.1的数据,建立北京市城镇居民消费模型,以人均年消费性支出(变量Y)为因变量,以人均年可支配收入(变量X)为自变量,建立一元线性回归模型。例题9.2 结果分析上式中,0.7246是边际消费倾向,表示人均可支配收入每增加1千元,人均消费支出会增加

36、0.7246千元;0.5628是自主性消费,即与收入无关的最基本人均消费为0.5628千元。一元线性回归方程的评价和检验一元线性回归方程的评价和检验 拟合优度 1、决定系数 2、估计标准误差显著性检验 3、t检验 4、F检验9.2.3回归直线的拟合优度1、决定系数 回归直线与各观测数据的接近程度称为回归直线的拟合优度(goodness of fit)。度量回归直线的拟合优度最常用的指标是决定系数(coefficient of determination ,又称可决系数、判定系数)。该指标是建立在对总离差平方和进行分解的基础之上的。 变差1.因因变变量量 y 的的取取值值是是不不同同的的,y 取

37、取值值的的这这种种波波动动称称为为变差。变差。变差来源于两个方面变差来源于两个方面由于自变量由于自变量 x 的取值不同造成的的取值不同造成的除除 x 以以外外的的其其他他因因素素(如如x对对y的的非非线线性性影影响响、测测量量误差等误差等)的影响的影响2.对对一一个个具具体体的的观观测测值值来来说说,变变差差的的大大小小可可以以通通过该实际观测值与其均值之差过该实际观测值与其均值之差 来表示来表示变差的分解(图示) x xy yy 离差平方和的分解 (三个平方和的关系) SST = SSR + SSE总平方和总平方和总平方和总平方和( (SSTSST) )回归平方和回归平方和回归平方和回归平方

38、和( (SSRSSR) )残差平方和残差平方和残差平方和残差平方和( (SSESSE) )离差平方和的分解 (三个平方和的意义)1.总平方和总平方和(SST)(sum of squares for total)反映因变量的 n 个观察值与其均值的总离差2.回回归归平平方方和和(SSR)(sum of squares for regression)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和3.残残差差平平方方和和(SSE)(sum of squares for error)反映除 x 以外的其他因素对

39、 y 取值的影响,也称为不可解释的平方和或剩余平方和判定系数R2 (coefficient of determination)1.回归平方和占总离差平方和的比例2.反映回归直线的拟合程度3.取值范围在 0 , 1 之间4. R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差5.判定系数等于相关系数的平方,即R2r2判定系数R2 (例题分析)【例例】计算不良贷款对贷款余额回归的判定系数,并解释其意义 判判定定系系数数的的实实际际意意义义是是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额

40、所决定的。也就是说,不良贷款取值的差异有2/3以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性关系 估计标准误差估计标准误差(standard error of estimate)1.实际观察值与回归估计值离差平方和的均方根2.反映实际观察值在回归直线周围的分散状况3.对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量4.反映用估计的回归方程预测y时预测误差的大小 5.计算公式为注:例题的计算结果为注:例题的计算结果为1.97991.97999.2.4显著性检验线性关系的检验1.检验自变量与因变量之间的线性关系是否显著2.将回归均方(MSR)同残差均

41、方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著回归均方:回归平方和SSR除以相应的自由度(自变量的个数k) 残差均方:残差平方和SSE除以相应的自由度(n-k-1)线性关系的检验线性关系的检验 (检验的步骤检验的步骤) 1.提出假设H0:=0 线性关系不显著H1:02. 计算检验统计量F3.确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F 4.作出决策:若FF ,拒绝H0;若F F F F F , , , ,拒绝拒绝拒绝拒绝H H H H0 0 0 0,线性关系显著线性关系显著线性关系显著线性关系显著线性关系的检验 (方差分析表) Excel 输出的方差分析表输出

42、的方差分析表回归系数的检验3.在一元线性回归中,等价于线性关系的显著性检验1.检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著2.理论基础是回归系数 的抽样分布回归系数的检验(样本统计量 的分布)1. 1.1. 是是是根根根据据据最最最小小小二二二乘乘乘法法法求求求出出出的的的样样样本本本统统统计计计量量量,它它它有有有自自自己己己的分布的分布的分布2.2.2.分布具有如下性质分布具有如下性质分布具有如下性质 分布形式:正态分布分布形式:正态分布分布形式:正态分布 数学期望:数学期望:数学期望: 标准差:标准差:标准差: 由由由于于于 未未未知知知,

43、需需需用用用其其其估估估计计计量量量s s se ee来来来代代代替替替得得得到到到 的的的估估估计计计的的的标准差标准差标准差回归系数的检验 (检验步骤) 1.提出假设H0: = 0 (没有线性关系) H1: 0 (有线性关系) 2.计算检验的统计量3. 确定显著性水平确定显著性水平 ,并进行决策,并进行决策 t t t t,拒绝拒绝H H0 0; t t =7.533515t t=2.201=2.201,拒拒绝绝H H0 0,表表明明不不良良贷贷款款与贷款余额之间有线性关系与贷款余额之间有线性关系回归系数的检验 (例题分析)P 值的应用值的应用P P=0.000000=0.000000 =

44、0.05=0.05,拒绝原假设,拒绝原假设,不良贷款与贷不良贷款与贷款余额之间有线性关系款余额之间有线性关系回归分析结果的评价回归分析结果的评价l建立的模型是否合适?或者说,这个拟合的模型有多“好”?要回答这些问题,可以从以下几个方面入手1.所估计的回归系数 的符号是否与理论或事先预期相一致在不良贷款与贷款余额的回归中,可以预期贷款余额越多,不良贷款也可能会越多,也就是说,回归系数的值应该是正 的 , 在 上 面 建 立 的 回 归 方 程 中 , 我 们 得 到 的 回 归 系 数 为正值,2.如果理论上认为x与y之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此在不良

45、贷款与贷款余额的回归中,二者之间为正的线性关系,而且,对回归系数的t检验结果表明而这之间的线性关系是统计上显著的3.回归模型在多大程度上解释了因变量y取值的差异?可以用判定系数R2来回答这一问题在不良贷款与贷款余额的回归中,得到的R2=71.16%,解释了不良贷款变差的2/3以上,说明拟合的效果还算不错4.考察关于误差项的正态性假定是否成立。因为我们在对线性关系进行F检验和回归系数进行t检验时,都要求误差项服从正态分布,否则,我们所用的检验程序将是无效的。正态性的简单方法是画出残差的直方图或正态概率图回归分析结果的评价回归分析结果的评价1.1.根据自变量根据自变量 x x 的取值估计或预测因变

46、量的取值估计或预测因变量 y y的取值的取值2.2.估计或预测的类型估计或预测的类型点估计点估计y y 的平均值的点估计的平均值的点估计y y 的个别值的点估计的个别值的点估计区间估计区间估计y y 的平均值的的平均值的置信区间置信区间估计估计y y 的个别值的的个别值的预测区间预测区间估计估计9.3利用回归方程进行估计和预测利用回归方程进行估计和预测点估计点估计2. 2. 点估计值有点估计值有n ny y y y 的的的的平均值平均值平均值平均值的点估计的点估计的点估计的点估计n ny y y y 的的的的个别值个别值个别值个别值的点估计的点估计的点估计的点估计3.3.在点估计条件下,平均值

47、的点估计和个别值的在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同的点估计是一样的,但在区间估计中则不同1.1.对对于于自自变变量量 x x 的的一一个个给给定定值值x x0 0 ,根根据据回回归归方程得到因变量方程得到因变量 y y 的一个估计值的一个估计值 y 的平均值的点估计n利利用用估估计计的的回回归归方方程程,对对于于自自变变量量 x x 的的一一个个给给定定值值 x x0 0 ,求求出出因因变变量量 y y 的的平平均均值值的的一一个个估估计计值值E E( (y y0 0) ) ,就就是是平平均均值值的点估计的点估计在在前前面面的的例例子子中中,假假如

48、如我我们们要要估估计计贷贷款款余余额额为为100100亿亿元元时时,所所有有分分行行不不良良贷贷款款的的平平均均值值,就就是是平平均均值值的的点点估估计计 。根根据据估估计计的的回回归方程得归方程得y 的个别值的点估计利利用用估估计计的的回回归归方方程程,对对于于自自变变量量 x x 的的一一个个给给定定值值 x x0 0 ,求求出出因因变变量量 y y 的的一一个个个个别值的估计值别值的估计值 ,就是个别值的点估计,就是个别值的点估计例例如如,如如果果我我们们只只是是想想知知道道贷贷款款余余额额为为72.872.8亿亿元元的的那那个个分分行行( (这这里里是是编编号号为为1010的的那那个个

49、分分行行) )的的不不良良贷贷款款是是多多少少,则则属属于于个个别别值值的的点点估估计计 。根据估计的回归方程得。根据估计的回归方程得区间估计区间估计1.1.点点估估计计不不能能给给出出估估计计的的精精度度,点点估估计计值值与与实实际际值值之间是有误差的,因此需要进行区间估计之间是有误差的,因此需要进行区间估计2.2.对对于于自自变变量量 x x 的的一一个个给给定定值值 x x0 0,根根据据回回归归方方程程得到因变量得到因变量 y y 的一个估计区间的一个估计区间3.3.区间估计有两种类型区间估计有两种类型置信区间估计置信区间估计( (confidence interval estimat

50、econfidence interval estimate) )预测区间估计预测区间估计(prediction interval estimate)(prediction interval estimate)置信区间估计1.1.利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量 x x 的一个给的一个给定值定值 x x0 0 ,求出因变量求出因变量 y y 的的平均值的估计区间平均值的估计区间 ,这一估计区间称为,这一估计区间称为置信区间置信区间( (confidence confidence intervalinterval) )2.2. E E( (y y0 0) ) 在在1-1

51、- 置信水平下的置信区间为置信水平下的置信区间为式中:式中:s se e为估计标准误差为估计标准误差置信区间估计(例题分析)【例例】求出贷款余额为求出贷款余额为100100亿元时,不良贷款亿元时,不良贷款95% 95% 置信水平下的置信区间置信水平下的置信区间解:根据前面的计算结果,已知解:根据前面的计算结果,已知n n=25=25, s se e= =1.97991.9799,t t (25-2)=2.0687 (25-2)=2.0687 贷贷款款余余额额为为100100亿亿元元时时,不不良良贷贷款款的的平平均均值值在在2.11412.1141亿元到亿元到3.80593.8059亿元之间亿元

52、之间 置信区间为置信区间为对于 一个给定的x值 x0 ,y 的一个个别值的估计区间。这一区间常称为预测区间(prediction interval)。 y0在1-置信水平下的预测区间为 个别值预测的置信区间(预测区间)个别值预测的置信区间(预测区间)预测区间估计(例题分析)【例例】求出贷款余额为100亿元时,不良贷款95% 置信水平下的预测区间解:根据前面的计算结果,已知n=25, se=1.9799,t(25-2)=2.0687 置信区间为贷贷款款余余额额为为72.872.8亿亿元元的的那那个个分分行行,其其不不良良贷贷款款的预测区间在的预测区间在-2.2467-2.2467亿元到亿元到6.

53、10676.1067亿元之间亿元之间 置信区间和预测区间(例题分析)预测区间与置信区间预测区间与置信区间需要预测的值越接近需要预测的值越接近x x的均值,预测误差越小。用回归的均值,预测误差越小。用回归模型进行外推预测可能会有较大的误差,因此必须小心模型进行外推预测可能会有较大的误差,因此必须小心使用!使用!XYX0Y0预测下限预测上限置信上限置信下限影响区间宽度的因素1.置信水平 (1 - )区间宽度随置信水平的增大而增大2.数据的离散程度s区间宽度随离散程度的增大而增大3. 样本容量区间宽度随样本容量的增大而减小4. 用于预测的 xf与x的差异程度区间宽度随 xf与x 的差异程度的增大而增

54、大应用回归分析时应注意:应用回归分析时应注意:要注意与定性分析相结合。要注意与定性分析相结合。利用回归方程进行预测时,自变量取值若超出了利用回归方程进行预测时,自变量取值若超出了样本数据范围,预测结果是不可靠的。样本数据范围,预测结果是不可靠的。回归分析最适合于研究变量之间的因果关系,将回归分析最适合于研究变量之间的因果关系,将原因作为自变量,结果作为因变量。但回归分析原因作为自变量,结果作为因变量。但回归分析不一定要求变量之间必须具备直接的因果关系。不一定要求变量之间必须具备直接的因果关系。 如:脚长和身高的关系如:脚长和身高的关系 只要变量之间存在内在的真实的数量依存关系,只要变量之间存在

55、内在的真实的数量依存关系,就可以建立回归方程来分析和估计。就可以建立回归方程来分析和估计。9.4 残差分析9.4.1 残差残差9.4.2 标准化残差标准化残差残差(residual)1.因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示2.反映了用估计的回归方程去预测而引起的误差 3.确定有关误差项的假定是否成立 用残差证实模型的假定残差图(residual plot)1.表示残差的图形关于x的残差图关于y的残差图标准化残差图2.用于判断误差的假定是否成立 残差图(形态及判别)残差图(例题分析)标准化残差(standardized residual) 残差除以它的标准差后得到的数值。计算公式为 Sei的计算公式为 标准化残差图 用以直观地判断误差项服从正态分布这一假定是否成立 若假定成立,标准化残差的分布也应服从正态分布在标准化残差图中,大约有95%的标准化残差在-2到+2之间 标准化残差图(例题分析)本章小结1.变量间关系的度量变量间关系的度量2.回归模型、回归方程与估计的回归方程回归模型、回归方程与估计的回归方程3.回归直线的拟合优度回归直线的拟合优度4.回归分析中的显著性检验回归分析中的显著性检验5.估计和预测估计和预测6.用用SPSS 进行回归分析进行回归分析结结 束束

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号