相关与回归课件.ppt

上传人:F****n 文档编号:109952689 上传时间:2019-10-28 格式:PPT 页数:91 大小:1.19MB
返回 下载 相关 举报
相关与回归课件.ppt_第1页
第1页 / 共91页
相关与回归课件.ppt_第2页
第2页 / 共91页
相关与回归课件.ppt_第3页
第3页 / 共91页
相关与回归课件.ppt_第4页
第4页 / 共91页
相关与回归课件.ppt_第5页
第5页 / 共91页
点击查看更多>>
资源描述

《相关与回归课件.ppt》由会员分享,可在线阅读,更多相关《相关与回归课件.ppt(91页珍藏版)》请在金锄头文库上搜索。

1、第一节 相关分析概述,第二节 简单线性回归模型,第三节 多元线性回归模型,第八章 相关与回归分析,联系与相互影响是普遍的现象,事物相互间关系的质的解释:自然的、社会的、经济的、心理的,事物相互间关系的量的分析:两变量或多变量间的数量关系。在可以解释的质的关系基础上进行相关分析和回归分析,相关分析的意义,第一节 相关分析概述,社会经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这些现象的的特征时,便表现为变量之间的依存关系。,在分析变量的依存关系时,我们把变量分为两种:,自变量,因变量,引起其他变量发生变化的量。,受自变量的影响发生对应变化的量,现象之间的相互关系,可以

2、概括为两种不同的类型:,(一)函数关系 (二)相关关系,例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。,相关分析的意义,函数关系可以用一个确定的公式,即函数式,来表示。,或:Y=F(X),例2、根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有相关关系:,相关关系可用统计模型:,或:Y=F(X)+,式中, 为影响Y的除X外的其他随机因素。,相关关系的种类:,1、按相关关系涉及变量的多少可分为:,相关关系的种类:,2、按相关关系形式可分为:,相关关系的种类:,3、按相关的方向可分为:,线性正相关,线性负相关,非线性相关,无(

3、不)相关,相关关系的种类:,4、按相关关系的密切程度分为:,完全相关,因变量完全随自变量变动而变动,存在着严格的依存关系。即变量间的关系为函数关系。,不完全相关,变量之间存在着不严格的依存关系,即因变量的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的主要表现形式。,完全不相关,自变量与因变量彼此独立,互不影响,其数量变化毫无联系。,(1)确定现象之间有无相关关系,以及相关关系的表现形态。 (2)确定相关关系的密切程度。 (3)确定相关关系的数字模型,并进行参数估计和拟合优度检验。 (4)回归预测,并分析估计标准误差。,相关分析的主要内容包括:,相关关系的测定,定性分析,是依据

4、研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断,定量分析,在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度,相关表,相关关系的测定,将两个变量伴随变动结果编成一张统计表,即相关表。,单变量分组相关表,双变量分组相关表,只对其中一个变量分组。,对两个变量同时分组。,简单 相关表,适用于所观察的样本单位数较少,不需要分组的情况,分组 相关表,适用于所观察的样本单位数较多,标志变异又较复杂,需要分组的情况,两种相关表的适用范围,八个同类工业企业的月产量与生产费用,简单相关表,(百万元),(吨),2

5、0个同类工业企业固定资产原值与平均每昼夜产量,分组相关表,相关图,相关关系的测定,将变量之间的伴随变动绘于坐标图上所形成的统计图。又称散点图。,简单相关图,根据未分组资料的原始数据直接绘制的相关图。,分组相关图,根据分组资料绘制的相关图。,X,Y,在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标,用r表示,相关系数,其基本算法是英国统计学家皮尔逊所创的乘积动差法,简称积差法。,相关关系的测定,相关系数r的取值范围:-1r1,0|r|1表示存在不同程度线性相关: |r| 0.4 为低度线性相关; 0.4 |r| 0.7为显著性线性相关; 0.7|r| 1.0为高度显著性线性相关。,

6、r0 为正相关,r 0 为负相关; |r|=0 表示不存在线性关系; |r|1 表示完全线性相关;,【例】计算工业总产值与能源消耗量之间的相关系数 资料,结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2。,相关系数的计算,相关系数的统计检验,根据样本的相关系数,在一定的置信度水平下,总体的相关系数将在什么范围内?计算相关系数的样本,是否来自并无相关的总体?对这些的问题的研究,就是我们所要回答的相关系数的统计推断问题。,线性相关的显著性检验,相关系数的显著性检验(t检验法),提出假设:,目的,检验总体两变量间线性相关性是否显著,步 骤,构

7、造检验统计量:,相关系数的显著性检验(t检验法), 根据给定的显著性水平,确定临界值 ;, 计算检验统计量并做出决策。,步 骤,检验统计量落入拒绝域中,故拒绝原假设,接受备择假设。即可以认为 明显地不等于零,相关关系是显著的。,相关关系不等于因果关系; 相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系; 极端值可能影响相关系数。 注意相关关系成立的数据范围。 警惕虚假相关,使用相关系数时应注意的问题:,回归:退回regression,1877年 弗朗西斯高尔顿爵士 遗传学研究 回归线,第三节 简单线性回归模型,父亲们的身高与儿子们的身高之间 关系的研究,1889年F.Gal

8、lton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式 下图是根据1078个家庭的调查所作的散点图(略图),回归分析法产生的历史,回归分析法产生的历史,从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下: 如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”见1889年F.Gallton的论文普用回归定律。 后人将此种方法普遍用于寻找变量之间的

9、规律,回归分析法产生的历史,第三节 简单线性回归模型,回归分析,通过一个变量x或一些变量(x1,x2,x3)的变化解释另一变量y的变化.即根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法,回归:退回regression,回归方程,回归模型,反映自变量和因变量之间数学联系的表达式。,某一类回归方程的总称。,自变量(independent variable):解释变量,给定的或可以控制的、用来解释、预测应变量的变量。 因变量(dependent variable):响应变量,由自变量来解释其变化的变量。,X,Y,回归分析的内容

10、和步骤,1、根据理论和对问题的分析判断, 区分自变量和因变量;,2、设法找出适合的数学方程式(即 回归模型)描述变量间的关系,3、对回归模型进行统计检验;,4、统计检验通过后,利用回归模型,根据解释变量去估计,预测 因变量。,回归分析的分类,根据变量的多少分为:,简单回归,多元回归,只有一个自变量和一个因变量的回归,自变量数目在两个或两个以上,根据建立的回归模型形式分为:,线性回归,非线性回归,从所拟合的回归模型来看,一变量表现为其它变量的线性组合。,从所拟合的回归模型来看,一变量表现为其它变量的非线性组合,回归分析与相关分析,理论和方法具有一致性; 无相关就无回归,相关程度越高,回归越好;

11、相关系数和回归系数方向一致,可以互相推算。,联系:,相关分析中x与y对等,回归分析中x与y要确定自变量和因变量; 相关分析中x、y均为随机变量,回归分析中只有y为随机变量; 相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。,回归分析与相关分析,区别:,简单线性回归模型,指根据成对的两个变量的数值,配合直线方程式,根据自变量的变动,来推算因变量发展变动趋势的方法,其模型为:,其中:Yi表示因变量Y在总体中某一个具体的观察值;Xi表示在研究总体中自变量X的具体观察数值;A与B是参数,称为回归系数;i是一个随机变量,其平均数为0,方差为2.,总体回归模型,总体一元线性回归模型:,误差项

12、,假定: E()=0,总体一元线性回归方程:,简单线性回归模型的假设,1、正态性假定,3、线性假定,2、同方差假定,4、独立性假定,当确定某一个Xi时,相应的Y就有许多Yi值与之对应。Yi是一个随机变量,这些Yi构成一个在X取值为Xi条件下的条件分布、并假设其服从正态分布。,假定所有Yi这一条件分布的方差是相等的。,假定所有Yi这一条件分布的平均数位于一条直线上,这条直线为Yi=A+BX,,假定Yi之间是独立的,也就是说抽样时,Y的值在每取一个X值的条件分布相互独立。,一元线性回归模型的假定,在实际应用中,我们对X和Y所代表的总体往往不可能全面的观察和了解,而只能从中抽取部分资料作为样本,并通

13、过样本提供的信息来认识总体,找出总体回归模型的估计式,其估计式的方程式可写为:,简单线性回归模型,其中:a,b和ei分别为A、B及i的估计量。,由于抽样的随机性,使样本回归线不可能与总体回归完全重合,从而会出现样本回归函数高估或低估总体回归函数的情况,我们能做的就是设法使样本回归函数尽可能接近总体回归函数,也就是说要使回归方程参数的估计值a、b尽量接近总体真实参数A、B。,样本回归模型,一元线性回归方程的几何意义,回归直线的拟合,总体一元线性 回归方程:,样本一元线性回归方程:,以样本统计量估计总体参数,斜率(回归系数),截距a 表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回

14、归系数b 表明自变量x每变动一个单位,因变量y平均变动b个单位。,残差(Residual):e,一元线性回归方程 中参数a、b的确定:,最小平方法,整理得到由两个关于a、b的二元一次方程组成的方程组:,进一步整理,有:,【分析】因为工业总产值与能源消耗量之间存在高度正相关关系( ),所以可以拟合工业总产值对能源消耗量的线性回归方程。,【例】建立工业总产值对能源消耗量的线性回归方程 资料,即线性回归方程为:,计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.7961个单位(亿元)。,最小二乘法估计的优良性质,b与r的关系:,回归模型的检验,1、拟合优度检验,

15、确定回归直线后,需要评价这一直线方程是否有效地反映了这两变量之间的关系。评价回归方程配合好坏的一个主要指标是判定系数(或称确定系数),是相关系数的平方,用 表示;用来衡量回归方程对y的解释程度。,判定系数取值范围:,越接近于1,表明x与y之间的相关性越强; 越接近于0,表明两个变量之间几乎没有直线相关关系.,判定系数,误差平方和,回归 平方和,总离差平方和,总偏差 = 回归偏差 + 剩余偏差,r2表示全部偏差中有百分之几的偏差可由x与y的回归关系来解释,r 的符号同 b,数量关系及意义,判定系数与相关系数的关系,判定系数与相关系数的区别:,判定系数无方向性,相关系数则有方向,其方向与样本回归系

16、数 b 相同; 判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向; 相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的度量值。,Lyy=U+Q,总离差平方和,回归平方和,误差平方和,回归分析中我们最关心的是: X 与 Y 是否有真正的相关关系。即:,回归系数的检验,提出假设; 确定检验统计量; 给定显著性水平,确定临界值; 确定原假设的拒绝规则; 计算检验统计量并做出决策。,统计理论已经证明,检验统计量落入拒绝域中,故拒绝原假设,接受备择假设。即可以认为 b 明显地不等于零,X 与 Y 是显著的。,F检验是基于F分布进行的,是方差分析内容之一。,均方回归,均方误差,当 1 = 0

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 幼儿/小学教育 > 小学教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号