第9章相关和回归讲义

上传人:今*** 文档编号:108153276 上传时间:2019-10-22 格式:PPT 页数:89 大小:1.02MB
返回 下载 相关 举报
第9章相关和回归讲义_第1页
第1页 / 共89页
第9章相关和回归讲义_第2页
第2页 / 共89页
第9章相关和回归讲义_第3页
第3页 / 共89页
第9章相关和回归讲义_第4页
第4页 / 共89页
第9章相关和回归讲义_第5页
第5页 / 共89页
点击查看更多>>
资源描述

《第9章相关和回归讲义》由会员分享,可在线阅读,更多相关《第9章相关和回归讲义(89页珍藏版)》请在金锄头文库上搜索。

1、1,第9章 相关与回归分析,2,主要内容,相关分析 一元线性回归模型与估计 一元线性回归的检验与预测 多元线性回归模型(自学),3,案例研究: 发生安全事故与睡眠不足有关吗?,作为企业安全生产研究的一部分,某部门采集了每1000个工人中发生安全事故的次数和睡眠不足的工人所占比例的数据,样本囊括的企业范围非常广泛,一年间采集的数据的相关表如下:,4,发生安全事故的次数和工人中睡眠不足者所占比例的相关表,5,绘制发生安全事故的次数和工人中睡眠不足者所占比重的散点图(也称为相关图),从图上可以直观地看出二者之间具有明显的关系:随着工人中睡眠不足者所占比重的增加,发生安全事故的次数也在增加。 二者之间

2、究竟存在一种怎样的数量联系?为此,需要利用相关分析和回归分析的有关知识加以说明。,6,7,变量间的相互依存关系按其数量上是否确定可以有两种类型: 函数关系 相关关系,9.1 相关关系的概念,8,函数关系,指变量之间一一对应的确定性的数量依存关系; 设有两个变量 x 和 y ,当变量 x 取某个数值时, y 有确定的值与之对应,则称 y 是 x 的函数y = f (x), 通常将 x 称为自变量,y 称为因变量; 所有观察点全都落在一条线上。,9,函数关系(例),圆的面积(S)与半径之间的函数关系 S = R2 里程 (D)与速度(V)、时间(t)之间的关系 D=V t 企业的原材料消耗额(y)

3、与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系 y = x1 x2 x3,10,相关关系,是指变量间存在不确定的数量依存关系; 一个变量的取值不能唯一地由另一个变量来确定。即当变量 x 取某个值时,与之相关的变量 y 的取值可能有若干个; 各观察点分布在直线(或曲线)周围。,11,相关关系(例),单位成本(y)与产量(x) 的关系 父亲身高(y)与子女身高(x)之间的关系 社会商品零售额(y)与居民会支配收入(x)之间的关系 收入 (y)与文化程度(x)之间的关系 商品销售量(y)与广告费支出(x1)、价格(x2)之间的关系,12,(其它有关概念),假 相 关 是指没有

4、本质联系的现象而去进行相关分析。只是表面数字的偶然的巧合; 如上证股票价格综合指数与气温的关系。 因果关系 是指原因与结果之间、影响因素与被影响因素之间的关系。 相关关系比因果关系包括的范围更广泛。即,因果关系属于相关关系,但相关关系不一定是因果关系。 统计只能说明现象间有无数量上的关系,不能说明谁因谁果,13,9.1.2 相关关系的类型,1. 按涉及变量多少分为: 单相关(一元相关)指仅涉及两个变量的相关关系 复相关(多元相关) 2. 按相关关系的表现形式分为: 直线相关(线性相关)变量间的数量关系大体上接近于一条直线。 曲线相关(非线性相关) 3. 按相关方向分为: 正相关指两个变量大致呈

5、同方向变化的相关关系,即一个变量增加时,另一个变量也大体随之增加。 负相关,14,相关关系的类型(续),4. 按相关关系的程度分为: 完全相关(函数关系) 完全不相关(零相关) 不完全相关(狭义的相关关系),15,广告投入和销售之间的关系,16,它们之间是什么关系?,两个变量是否有关系?相关测定 它们的关系是否显著?相关检验 也可以从散点图得到。随着广告投入的增加,销售额的增长由大到小。显示,它们的关系是由强变弱。 这些关系是否可以用数学模型来描述 拟合回归模型 上例看上去是呈现一种非线性关系可以拟合一个非线性回归模型,17,(三)相关关系的描述,进行相关分析的一般程序:,定性分析,定量分析,

6、相关表和相关图,计算相关系数 和判定系数,变量间的相关关系的定量分析包括相关分析和回归分析 相关分析主要内容是根据观测数据计算相关系数,以此说明变量间的密切程度。 回归分析是研究存在相关关系的变量之间具体的数量变化关系。,18,9.1.3 相关图,相关图(也称为散点图。) 一对数据对应坐标图上一个点,将成对的观察数据表现为坐标图的散点而形成的图。 编制相关图的意义 有助于分析者判断 相关的有无、方向、形态、密切程度。,19,相关关系的图示,20,相关关系的图示(续),21,9.2 一元线性相关分析,(一)简单线性相关系数 是度量两个定量变量之间线性相关密切程度的指标 也称直线相关系数, 常简称

7、相关系数 总体相关系数根据总体数据计算的 如果X和Y总体的全部数据都是已知的,X和Y的方差和协方差也已知,两变量总体线性相关系数:,22,样本(简单)相关关系的计算公式,或化简为:,23,相关系数取值及其含义,r 的取值范围是 -1,1 |r|=1,为完全(线性)相关; r =1,为完全正相关 r =-1,为完全负相关 r = 0,不存在线性相关; -1r 0,负相关;0r 1,正相关 |r|1关系越密切(相关程度越高);|r|0关系越不密切(相关程度越低),24,相关系数 r 的等级,0 0.4 0.7 1.0,不相关 低度相关 显著相关 高度相关 完全相关,相关程度的三级划分法:,25,需

8、要注意的问题,1)相关系数只适合衡量两个定量变量的相关性,不适合定性变量。 2)反映线性相关,r=0,还可能存在非线性相关。 3)不能说明变量间的因果关系,也不能说明回归模型的形式。 此外: 两个变量是对等的; 只能计算出一个相关系数; 计算相关系数要求两个变量必须是随机的且呈正态分布。,26,例,表62,27,计算结果,能耗与工业总产值之间的(样本)相关系数为 0.9757,为高度线性正相关关系。,28,一个音像设备商店数据,29,30,9.2.2 相关系数的显著性检验 t 检验,提出假设:H0: ;H1: 0 确定检验的统计量: 当X,Y均为正态随机变量时,,计算检验统计量的值 或 P值,

9、确定显著性水平 若t t 或 P值,拒绝H0 (即总体线性相关显著) 反之,不能拒绝H0 (即总体线性相关不显著),31,对于“发生安全事故与睡眠不足有关吗?”的案例,在=0.05的 显著性水平下,我们可计算得:,由于,,拒绝,,认为总体的这两个变量之间线性相关显著,二者之间确实 具有高度的线性相关关系。,32,适用于定性变量(定量也使用)。 具体方法:将样本单位按照变量X和Y进行排序,Xi,Y i分别是第i个单位的位次,计算位次差di=Xi-Yi,9.2.3 等级相关系数,Spearman 等级相关系数 rs 可由公式计算,式中,n 表示样本含量; d 表示 X、Y 的位次之差。 主要性质:

10、 rs的范围:-1,1 rs0,X和Y正相关;rs0,负相关,rs=0,不相关。,33,回归分析的意义,广义的相关分析 变量之间相关关系的分析 狭义的相关分析 回归分析,9.3 一元线性回归分析,34,回归的古典意义: 高尔顿遗传学的回归概念 ( 父母身高与子女身高的关系) 回归的现代意义: 一个应变量对若干解释变量依存关系的统计方法,其目的是需找一个恰当的数量关系式(回归方程)来近似代表变量间依存关系并据此进行估计或预测。 回归的目的(实质): 由固定的解释变量去 估计应变量的平均值,35,相关分析和回归分析的联系,从广义上讲,回归分析也是相关分析,二者都是研究现象简不确定性的数量关系的一种

11、统计分析方法。,36,回归分析与相关分析的区别,1. 变量的地位 相关分析中,变量 x、 y 处于平等地位。 回归分析中, y 为因变量,处在被解释的地位;x 为自变量,用于解释和预测因变量变化 2. 变量的性质 相关分析中所涉及的变量 x 和 y 都是随机变量; 回归分析中,因变量y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量。,37,回归分析与相关分析的区别,3. 分析内容(侧重点) 相关分析主要描述两个变量之间相关关系的密切程度;主要通过计算相关系数来测定。 回归分析揭示变量之间数量变动的统计规律性;主要通过拟合回归方程来描述或推断。,38,回归分析的内容,从一组样

12、本数据出发,确定变量之间的数学关系式建立回归模型; 借助于数学模型来表达变量之间的平均数量关系 对这些关系式的可信程度进行各种统计检验并从某一特定变量的诸多影响因素(变量)中找出哪些变量的影响显著,哪些不显著; 利用所求的回归模型进行分析,预测或控制 (并给出这种预测或控制的精确程度) 。,39,回归模型的类型,1. 按涉及变量多少分为: 简单回归(一元回归):只有一个自变量 复回归(多元回归) 2. 按回归曲线的形态分为: 直线回归(线性回归) 曲线回归(非线性回归) 我们主要介绍一元线性回归直线回归,40,9.3.1 一元线性回归方程的估计,只涉及一个自变量的线性关系可表示为: y = +

13、 b x + e 因变量 y 的值由两部分构成: x 的线性部分 反映了由于 x 的变化而引起的 y 的变化. 随机扰动项 是随机变量; 反映了除 x 之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的波动 和 为模型的参数。,41,一元线性回归模型的基本假定,E()=0,即随机扰动项是一个期望值为 0 的随机变量。 从平均意义上,总体线性回归方程为: E ( y ) = + x 的方差2 相同(对于所有的 x 值)。 无自相关假定,42,一元线性回归模型的基本假定(续),4. 误差项服从正态分布,且相互独立。即N(0,2) 独立性意味着对于一个特定的 x 值,它所对应

14、的与其他 x 值所对应的不相关;(5) 对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关,43,(总体)回归方程,是描述 y 的均值或期望值如何依赖于 x 的方程称为(总体的)回归方程; 一元线性(总体)回归方程的形式如下: E( y ) + x,是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值,是回归直线是起始值; (回归系数)是直线的斜率,表示当 x 每变动一个单位时,y 的平均变动值。,44,样本(估计的、经验的)回归方程,总体回归参数和 是未知的,我们必须利用样本数据去估计它们; 用样本统计量 a、b 代替回归方程中的未知参数和,就得到了样本回

15、归方程(或称为估计的回归方程):,拟合估计方程,就是要估计方程中的 a、b,45,观察点与样本回归线(图示),理想的回归线应该尽可能接近各个实际观察点。,46,估计参数的最小二乘法 (Least Square Method),最小平方法也称为最小二乘法 使因变量的观察值与估计值之间的离差平方和达到最小来求得 a和b 的方法,即满足下列条件:,即:,47,a 和 b 的计算公式,根据最小平方法的原则,利用微分求解极值(最优值)的原理,可得求解 a 和 b 的标准方程组如下:,X的总和?,48,例,根据上例(中表6-2)的数据,配合能耗量对工业总产值的回归方程,计算过程如下:,能耗量对工业总产值的

16、回归方程为:,49,例(续 ),能耗量对工业总产值的回归方程为:,回归方程中参数估计值的含义: 回归系数 b=0.7961,表示能耗量每增加1单位(十万吨),工业总产值平均增加0.7961亿元。 截距 a 在本例中没有实际经济意义.,50,估计参数的最小二乘法(续),用最小平方法拟合的直线来代表 x 与 y 之间的关系,所产生的估计值与实际值的误差要比其他任何直线的误差都小。 可用于拟合直线回归,也可用于拟合曲线回归。,51,两点补充,2. 回归系数与相关系数同号(从二者的计算公式可推导它们之间的关系):,回归系数与相关系数的符号取决于的x、y的协方差。,1. 样本回归直线必定经过各散点的中心 ;,52,三、回归估计标准误差 Se,实际观察值与回归估计值离差平方的均方根; 计算公式为:,上例的计算结果

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号