统计学 第七章相关与回归分析

上传人:资****亨 文档编号:136415239 上传时间:2020-06-28 格式:PPT 页数:123 大小:1.29MB
返回 下载 相关 举报
统计学 第七章相关与回归分析_第1页
第1页 / 共123页
统计学 第七章相关与回归分析_第2页
第2页 / 共123页
统计学 第七章相关与回归分析_第3页
第3页 / 共123页
统计学 第七章相关与回归分析_第4页
第4页 / 共123页
统计学 第七章相关与回归分析_第5页
第5页 / 共123页
点击查看更多>>
资源描述

《统计学 第七章相关与回归分析》由会员分享,可在线阅读,更多相关《统计学 第七章相关与回归分析(123页珍藏版)》请在金锄头文库上搜索。

1、第七章 相关与回归分析,制作时间:20042005,内容提要,1、相关关系的概念与种类 2、 相关分析 3、 一元线性回归分析 4、 多元线性回归分析 5、 曲线回归分析,学习目标,1. 理解相关关系的概念 掌握线性回归的基本原理和参数的最小二乘估计 掌握回归直线的拟合优度 掌握回归方程的显著性检验 利用回归方程进行估计和预测 用 Excel 进行回归分析,第一节相关关系概述,一、变量间的关系,(一)函数关系,是一一对应的确定关系 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记

2、为 y = f (x),其中 x 称为自变量,y 称为因变量 各观测点落在一条线上,函数关系 (几个例子), 函数关系的例子 某种商品的销售额y与销售量x之间的关系可表示为 y = px (p 为单价) 圆的面积S与半径之间的关系可表示为S=R2 企业的原材料消耗额y与产量x1 、单位产量消耗x2 、原材料价格x3之间的关系可表示为 y = x1 x2 x3,(二)相关关系 (correlation),变量间关系不能用函数关系精确表达 一个变量的取值不能由另一个变量唯一确定 当变量 x 取某个值时,变量 y 的取值可能有几个 各观测点分布在直线周围,相关关系 (几个例子), 相关关系的例子 父

3、亲身高y与子女身高x之间的关系 收入水平y与受教育程度x之间的关系 粮食亩产量y与施肥量x1 、降雨量x2 、温度x3之间的关系 商品的消费量y与居民收入x之间的关系 商品销售额y与广告费支出x之间的关系,二、相关关系的种类,相关关系的种类,单项关,1、按相关的形式分为:,线性相关,非线性相关,2、按所研究的变量多少分为:,复相关,3、按相关的方向分为:,正相关,负相关,4、按相关的程度分为:,完全相关,不完全相关,不相关,偏相关,散点图 (scatter diagram),三、相关关系分析的方法,(一)相关分析,1、相关分析主要用于测定具有相关关系的变量之间相互关系的密切程度。 2、是回归分

4、析的基础。 3、分析方法主要有:绘制散点图、编制相关表、计算项关系数等。,(二)回归分析 (Regression),研究具有相关关系的变量值之间一般的数量变动关系,即自变量发生变化时,因变量平均会发生多大的变化。 通过建立回归方程来完成分析。 回归方程除可用于研究相关变量之间的一般数量变动关系外,还常用于进行预测,即根据一个或几个变量的取值来预测或控制另一个相关变量的取值,并给出这种预测或控制的精确程度,回归模型的类型,(三)回归分析与相关分析的区别,相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 之间的一般数量变动关系,还可以由回归方程进行预测和控制 。 相关分析

5、中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化 相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量,第二节相关分析,一、相关表和相关图,相关表与相关图 (概念要点),1、相关表和相关图是研究相关关系的直观工具。一般在进行详细的定量分析之前,可以利用它们对现象之间存在的相关关系的方向、形式和密切程度做大致的判断。 2、相关表是一种反映变量之间相关关系的统计表。它是将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平

6、行排列,便可得到简单的相关表。 3、相关图又称散点图。它是以直角坐标系的横轴代表变量X,纵轴代表Y,将两个变量间相应的变量值用坐标点的形式描绘出来,用来反应量变量之间相关关系的图形。,相关表 (举例分析),居民收入和消费的原始资料 计量单位:百元,居民消费和收入相关表 计量单位:百元,散点图 (例题分析),【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制

7、不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据,散点图 (例题分析),散点图 (例题分析),二、相关系数及其检验,相关系数 (correlation coefficient),对变量之间关系密切程度的测度值(指标) 对两个变量之间线性相关程度的度量称为单相关系数 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 ,若是根据样本数据计算的,则称为样本相关系数,记为 r,相关系数 (计算公式), 样本相关系数的计算公式,或化简为,相关系数 (取值及其意义),r 的取值范围是 -1,1 |r|=1,为完全相关 r =1,为完全正相关 r =-1,为完全负正相关 r =

8、 0,不存在线性相关关系 -1r0,为负相关 0t,拒绝H0 若tt(25-2)=2.0687,拒绝H0,不良贷款与贷款余额之间存在着显著的正线性相关关系,相关系数的显著性检验 (例题分析),各相关系数检验的统计量,第三节 一元线性回归,一、一元线性回归与函数模型,一元线性回归函数,一元线性回归模型,总体,样本,(一)一元线性回归函数与 模型的数学表达式,0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值。1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值。,(二)一元线性回归函数与 模型意义的图形解释,(三)一元线性回归模型的基本假定,1.误差项u是一个

9、期望值为0的正态分布随机变量,即 2.对于所有的 x 值,u的方差2 都相同,即 3.对于一个特定的 x 值,它所对应的u与其他 x 值所对应的u不相关。即 4.对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关,X,Y,X1,X2,X3,X4,回归模型基本假定的图形解释,(四)样本回归方程与总体回归方程的联系与区别,联系:样本回归方程与总体回归方程具有相同的形式,且样本回归模型是作为总体回归模型的估计而存在的。 区别: 1、总体回归线是未知的,并且只有一条。而样本回归线则是根据样本数据拟合的,每抽取一个样本,便可以拟合一条回归线。 2、总体回归方程中的参数是未知的

10、,但它是确定的。而样本回归方程中的参数是随机变量,随样本的不同而不同。 3、总体回归模型中的ui是(因变量实际观测值)Yi与总体回归线之间的纵向距离,它是不可直接观测的。而样本回归模型中ei是Yi与样本回归线之间的纵向距离,当根据样本数据拟合出样本回归线之后,可以计算出ei的具体数值。,二、模型参数的估计,(一)回归系数的估计 最小二乘估计,使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即,用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小,最小二乘估计 (图示),最小二乘法 ( 和 的计算公式), 根据最小二乘法的要求,可得求解 和 的公式如

11、下,最小二乘法 (例题分析),【例】求不良贷款对贷款余额的回归(方程)函数,回归方程为:y = -0.8295 + 0.037895 x 回归系数 =0.037895 表示,贷款余额每增加1亿元,不良贷款平均增加0.037895亿元,最小二乘法 (例题分析),不良贷款对贷款余额回归方程的图示,(二)总体方差的估计,此外,S2 的正平方根有叫做回归估计的标准差。S越小,回归线的代表性越强,否则相反。,除了1和2,一元线性回归模型还包括另外一个未知参数,那就是总体随机误差项的方差2。2可以反映理论模型误差的大小,它是检验模型时,必须利用的一个重要参数。由于2本身不能直接观测,因而需要用et2(最小

12、二乘残差)来估计2。可以证明2的无偏估计为:,用Excel进行回归分析,第1步:选择“工具”下拉菜单 第2步:选择“数据分析”选项 第3步:在分析工具中选择“回归”,然后选择“确定” 第4步:当对话框出现时 在“Y值输入区域”设置框内键入Y的数据区域 在“X值输入区域”设置框内键入X的数据区域 在“置信度”选项中给出所需的数值 在“输出选项”中选择输出区域 在“残差”分析选项中选择所需的选项 用Excel进行回归分析,三、回归模型的检验,1、经济理论检验 经济理论检验主要涉及估计值的符号和取值区间。如果它们与实质性科学的理论以及人们的实践经验不相符合,就说明模型不能很好的解释现实现象。 其原因

13、可能是样本偏小,不能代表总体或不能满足标准回归分析所要求的假定条件。 2、统计检验(一级检验) 统计检验是利用统计学中的抽样理论检验样本回归方程的可靠性,包括拟合优度检验和显著性检验。统计检验是所有现象进行回归分析时都必须进行的检验。 3、计量经济学检验(二级检验) 计量经济学检验是对标准回归方程的假定条件能否得到满足进行检验。,(一)模型检验的内容,(二)模型拟合优度检验,拟合优度检验是检验样本回归方程对样本观测值代表性大小。衡量这一问题的指标称为可决系数(决定系数),其数学表达式为:,(Regression Sum of Square),(Residual Sum of Square),(

14、Total Deviation Sum of Square),1、概念及公式,离差平方和的分解 (变差),因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面 由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响 对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,变差的分解 (图示),离差平方和的分解 (三个平方和的关系),离差平方和的分解 (三个平方和的意义),总平方和(SST) 反映因变量的 n 个观察值与其均值的总离差 回归平方和(SSR) 反映自变量 x 的变化对因变量 y 取值变化的影响,或

15、者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 残差平方和(SSE) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,2、可决系数r2 的特性,(1)具有非负性 (2) r2的值越接近1,SSR越接近SST,即 说明回归方程对实际观测值的拟合程度愈好,否则相反。 (3)可决系数是样本观测值的函数,它也是一个随机变量。 (4)可决系数的平方根为相关系数,用公式表示为:,可决系数r2 (例题分析),【例】计算不良贷款对贷款余额回归的判定系数,并解释其意义 判定系数的实际意义是:在不良贷款取值的变差中,有71.16%可以由不良贷

16、款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额所决定的。也就是说,不良贷款取值的差异有2/3以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性关系,(三)显著性检验,显著性检验 (概念要点),回归分析中的显著性检验包括两方面的内容: 一是对各回归系数的显著性检验;对于回归系数的显著性检验通常采用t检验, 二是对整个回归方程的显著性检验。对回归方程的显著性检验则是在方差分析的基础上采用F检验。在一元线性回归模型中,由于只有一个自变量X,对 =0的t检验与整个方程的F检验是等价的。所以这里只介绍回归系数的显著性检验,关于回归方程的显著性检验将在多元统计分析中介绍。,(三)回归系数的检验,回归系数的检验 (概念要点),2.检验 x 与 y 之间是否具有线性关系,或者说,检

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号