第8章相关分析与回归分析课件

上传人:cl****1 文档编号:570502984 上传时间:2024-08-04 格式:PPT 页数:54 大小:1.31MB
返回 下载 相关 举报
第8章相关分析与回归分析课件_第1页
第1页 / 共54页
第8章相关分析与回归分析课件_第2页
第2页 / 共54页
第8章相关分析与回归分析课件_第3页
第3页 / 共54页
第8章相关分析与回归分析课件_第4页
第4页 / 共54页
第8章相关分析与回归分析课件_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《第8章相关分析与回归分析课件》由会员分享,可在线阅读,更多相关《第8章相关分析与回归分析课件(54页珍藏版)》请在金锄头文库上搜索。

1、第八章第八章相关与回归分析相关与回归分析“回归分析回归分析”的起源的起源“回归”是由英国著名生物学家兼统计学家高尔顿高尔顿(Galton)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,也就是说,当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将子女与父母身高的这种现象拟合出一种线形关系,分析出子女的身高y与父母的身高x大致可归结为以下关系:y=33.73+0.516*x(单位:英寸)有趣的是,通过观察,高尔顿还注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个父母所生的子女比其父

2、母要高,身材较高的父母所生子女的身高却回降到其家族的平均身高。换句话说,当父母身高走向极端,当父母身高走向极端,子女的身高不会象父母身高那样极端化,子女的身高不会象父母身高那样极端化,其身高要比父母们的身高更接近平均水其身高要比父母们的身高更接近平均水平,即有平,即有“回归回归”到平均数的趋势,到平均数的趋势,这就是统计学上最初出现“回归”时的涵义,高尔顿把这一现象叫做“向平均数向平均数方向的回归方向的回归”。本章内容本章内容第一节第一节 相关分析相关分析第二节第二节 一元线性回归一元线性回归第一节第一节相关分析相关分析1.1.函数关系函数关系 即:即:客观现象之间存在的相互依存的客观现象之间

3、存在的相互依存的确定性确定性的数量关系的数量关系。(一一对应的确定关系)。(一一对应的确定关系) 特征:特征: 在这个关系中,当中一个或多个表述现象的数量(自变量)发生变化时,另一个表述现象的数量(因变量)按照一定的规律有确定的数值与之对应, 可以用数学表达数学表达式式描述这种关系。例:例:圆的面积与半径的关系、价格一定时,商品销售额与销售量的关系 一、一、函数关系与相关关系函数关系与相关关系2.2.相关关系相关关系 (1)(1)概概念念:相相关关关关系系是是指指经经济济现现象象之之间间客客观观存存在的在数量上不是确定性的对应关系。在的在数量上不是确定性的对应关系。 特特征征: :某一现象或多

4、个现象与另一有联系的现象之间在数量上存在着一定的依存关系,但不是确定和严格的数量关系不是确定和严格的数量关系。 例例: :居民的月可支配收入和消费支出的关系、子女身高与父母身高之间的关系、人的收入水平与受教育程度之间的关系 二、相关关系的种类二、相关关系的种类按相关方向按相关方向正相关正相关负相关负相关按相关的形式按相关的形式线性相关线性相关非线性相关非线性相关按相关的程度按相关的程度完全相关完全相关不完全相关不完全相关不相关不相关三、相关关系的描述与度量三、相关关系的描述与度量1.散点图散点图 使用相关分析解决实际问题时,使用相关分析解决实际问题时,通常通过绘制两个变量之间的散点图,通常通过

5、绘制两个变量之间的散点图,初步直观地判断变量之间相关关系的初步直观地判断变量之间相关关系的类型、方向和强弱程度。类型、方向和强弱程度。各类相关关系的散点图各类相关关系的散点图(e)非线性相关(d)完全负线性相关(c)完全正线性相关例例1 1:某地区某企业近:某地区某企业近8 8年产品产量与生产年产品产量与生产费用的相关情况如下表所示:费用的相关情况如下表所示:用用EXCELEXCEL绘制相关图如下绘制相关图如下2.2.相关系数相关系数 相相关关系系数数是是测测度度线线性性相相关关关关系系方方向向与与强强弱弱程程度度的的常常用用方方法法,因因此此也也叫叫线线性性相关系数。相关系数。相相关关系系数

6、数分分为为两两种种:一一种种是是总总体体相相关关系系数数,用用于于测测度度两两个个总总体体变变量量之之间间真真实实的的线线性性相相关关程程度度,一一般般以以下下相相关关系系数数计算公式为:计算公式为:总体相关系数总体相关系数:另一种是样本相关系数。另一种是样本相关系数。由于由于总体相关系数通常是未知的总体相关系数通常是未知的。所以。所以我们一般用样本相关系数作为总体我们一般用样本相关系数作为总体相关系数的近似估计值。样本相关相关系数的近似估计值。样本相关系数系数r的计算公式为的计算公式为:3.相关系数的特点相关系数的特点(1)当r的取值范围是 :若 ,表明x与y之间存在正线性相关关系;若 ,表

7、明x与y之间存在负线性相关关系; 若r=+1,表明x与y之间为完全正线性相关关系; 若r=-1,表明x与y之间为完全负线性相关关系; 即 时,x与y 之间为函数关系。 当r=0时,x与y之间不存在线性相关关系。 对于一个具体的对于一个具体的r r的取值,根据经验可将的取值,根据经验可将相关程度分为以下几种情况:相关程度分为以下几种情况:当 时,可视为高度相关;当 时,可视为中度(显著)相关;当 时,视为低度相关;当 时,可视为微弱相关(不相关)。(2)r具有对称性, 。(3)r仅仅是与x和y 之间线性关系的一个度量,它不能用于描述非线性关系。(4)r 虽然是两个变量之间线性关系的一个度量,却不

8、一定意味着x与y一定有因果关系。 4.相关系数检验相关系数检验w由于由于r是根据样本数据计算出来的,是根据样本数据计算出来的,所以它会受到抽样波动的影响。由于抽所以它会受到抽样波动的影响。由于抽取样本的不同,取样本的不同,r的取值也就不同,因的取值也就不同,因此此r是一个随机变量,我们能否根据样是一个随机变量,我们能否根据样本相关系数说明总体的相关程度呢?这本相关系数说明总体的相关程度呢?这就需要考察样本相关系数的可靠性,也就需要考察样本相关系数的可靠性,也就是进行显著性检验。就是进行显著性检验。第二节第二节 一元线性回归一元线性回归一、回归分析的概念一、回归分析的概念(一)回归分析的概念(一

9、)回归分析的概念 回归分析实际上是相关现象间不确定、不规则的数量回归分析实际上是相关现象间不确定、不规则的数量关系的一般化、规律化关系的一般化、规律化。回归分析采用的方法是配合直线或曲线来反映现象之间的一般数量关系。这条直线或曲线叫回归直线或回归曲线回归直线或回归曲线,它们的方程称为回回归直线方程或回归曲线方程归直线方程或回归曲线方程。回归分析是对具有相关关系的现象根据其相关形式,选择合适的数学模型(回归方程),近似地描述变量间的平均变化关系的一种统计分析方法。(二)(二) 回归分析与相关分析的关系回归分析与相关分析的关系1. 1. 区别区别 (1)(1)相关分析相关分析所研究的两个变量是对等

10、关系。 回回归归分分析析所研究的两个变量不是对等关系,必须根据研究目的,确定自变量和因变量。 (2)(2)相相关关分分析析只能计算一个相关系数,改变自变量和因变量的地位不影响相关系数的数值。 回回归归分分析析可以根据研究目的分别建立不同的回归方程。 (3)(3)相关分析相关分析中两个变量都必须是随机变量。 回回归归分分析析中自变量是给定的变量,因变量是随机变量。2.2.回归分析与相关分析的联系回归分析与相关分析的联系 (1)(1)相相关关分分析析是是回回归归分分析析的的基基础础和和前前提提。如果缺少相关分析,没有从定性上说明现象间是否存在相关关系及相关关系的密切程度,就无法进行回归分析。 (2

11、)(2)回回归归分分析析是是相相关关分分析析的的深深入入和和继继续续。仅仅说明现象间具有密切的相关关系是不够的,只有进行回归分析,拟合回归方程,才可能进行深入分析和回归预测,相关分析才有实际应用价值。回归分析按回归变量个数分按回归形式分一元回归多元回归线性回归非线性回归二、回归分析的种类二、回归分析的种类三、一元线性回归分析三、一元线性回归分析(一)(一)一元线性回归分析的含义与特点一元线性回归分析的含义与特点1.1.含义含义 2.2.特点特点 (1)模型中包含两个变量,自变量和因变量。 (2)变量之间的变化规律近似于线性关系。 包含两个变量且变量之间关系为线性的回归分析称为一元线性回归分析。

12、(二)一元线性回归模型w1 1一元线性回归模型的确定一元线性回归模型的确定一元线性回归模型可表示为:一元线性回归模型可表示为: 其中:其中:(1)因变量y与自变量x之间具有线性关系;(2)在重复抽样中,自变量x的取值是固定的,即假定x是非随机的;(3)误差项是一个期望值为0的随机变量,即;(4)对于所有的x值,的方差都相同;(5)误差项是一个服从正态分布的随机变量,且独立,即上述模型称为理论回归模型,对该模型上述模型称为理论回归模型,对该模型有以下几个主要假定:有以下几个主要假定:2 2、总体回归方程(总体回归函数)、总体回归方程(总体回归函数) 描述因变量y的期望值如何依赖于自变量x的方程称

13、为回归方程。 一元线性回归方程的形式为:一元线性回归方程的形式为: 该方程也叫直线回归方程。该方程也叫直线回归方程。 由于总体回归参数 是未知的,所以需要用样本数据去估计它们。那么用样本统计量 代替回归方程中的未知参数 ,这时就得到了样本回归方程。 对于一元线性回归,样本的回归方程形式为:3 3、样本回归方程(样本回归函数)、样本回归方程(样本回归函数)(三)一元线性回归模型参数的估计(三)一元线性回归模型参数的估计最小二乘估计最小二乘估计最小二乘法也称最小平方法,它是由德国科学家卡尔高斯提出的。该方法主要是通过使因变量的观察值 与估计值 之间的离差平方和达到最小,从而来估计 的。即:使得即:

14、使得最小。最小。w令令 ,根据最小二乘法,根据最小二乘法,使使Q Q最小最小w根据微积分的极值定理,需要对根据微积分的极值定理,需要对Q Q求相求相应于应于 的偏导数,并使其等于的偏导数,并使其等于0 0,便可求出便可求出 ,即:,即:解上述方程,得参数解上述方程,得参数 的最小二的最小二乘估计为:乘估计为:例例2 2:某地区某企业近:某地区某企业近8 8年产品产量与生产年产品产量与生产费用的相关情况如下表所示:费用的相关情况如下表所示:解:设回归方程为:解:设回归方程为: x x为产量,为产量, 为生产费用,计算如下:为生产费用,计算如下:w w故有制造费用对产量的回归方程故有制造费用对产量

15、的回归方程问题:以产量为自变量,以生产费用为因问题:以产量为自变量,以生产费用为因变量,求出估计的回归方程。变量,求出估计的回归方程。EXCEL输出的回归分析结果:输出的回归分析结果:(四)一元线性回归模型的检验(四)一元线性回归模型的检验1、拟合优度检验、拟合优度检验拟合优度:回归直线与各观测点的接近程度称之为。为说明直线的拟合优度,需要计算判定系数:判定系数定义:回归平方和占总平方和的比例,记为 。判定系数测度了回归直线对观测数据的拟合程度。公式公式性质:性质: ;越接近于越接近于1,表明用,表明用x的变化解释的变化解释y值变动的部分就越多,回归直线的拟值变动的部分就越多,回归直线的拟合度

16、就越好合度就越好;反之,;反之,越接近于越接近于0,回,回归直线的拟合程度就越差。归直线的拟合程度就越差。2、回归系数的检验、回归系数的检验即检验自变量x对因变量y的影响是否显著的检验。从形式上即检验回归系数检验回归系数 是否等于是否等于0 0。如果 不显著等于0,就说明x对y有显著性影响,在一元线性回归模型中,也就表示x和y之间存在线性关系。因此在一元线性回归模型中,对回归系数的显著性检验,等价于模型线性关系的显著模型线性关系的显著性检验性检验。检验的具体步骤如下:检验的具体步骤如下:w(1)提出原假设和备择假设。)提出原假设和备择假设。w(2)计算检验统计量:)计算检验统计量:w(3 3)

17、明确拒绝域)明确拒绝域(4 4)进行决策)进行决策 若若 ,则拒绝原假设,则拒绝原假设 ,表明模,表明模型通过检验,认为型通过检验,认为x对对y有显著性影响;有显著性影响;若若 ,则不拒绝原假设,则不拒绝原假设 ,表明,表明模型没有通过检验,认为模型没有通过检验,认为x对对y没有显没有显著性影响著性影响。例例3:对:对例例2中的一元线性回归模型进行回中的一元线性回归模型进行回归系数的显著性检验。归系数的显著性检验。解:(解:(1)提出原假设和备择假设。)提出原假设和备择假设。(2)计算检验统计量:)计算检验统计量:(3 3)确定显著性水平)确定显著性水平 ,查表得,查表得(4 4)进行决策)进

18、行决策 ,所以拒绝原假设,所以拒绝原假设 ,表明,表明该模型通过检验,认为该模型通过检验,认为x对对y有显著性影响。有显著性影响。(五)一元线性回归模型的应用(五)一元线性回归模型的应用1、对现实的经济意义、对现实的经济意义回归方程表明:当自变量x每增加1个单位时,因变量则平均增加个单位。试简述例2回归方程的经济意义。2、利用回归方程进行估计和预测、利用回归方程进行估计和预测即根据自变量x的取值估计或预测因变量y的取值。估计或预测的类型估计或预测的类型点估计y 的平均值的点估计y 的个别值的点估计区间估计y 的平均值的置信区间估计y 的个别值的预测区间估计2.点估计值有点估计值有n ny 的平

19、均值的点估计的平均值的点估计n ny 的个别值的点估计的个别值的点估计3.在点估计条件下,平均值的点估计和个别在点估计条件下,平均值的点估计和个别值的的点估计方法是一样的,但在区间估值的的点估计方法是一样的,但在区间估计中则不同计中则不同1.对对于于自自变变量量x 的的一一个个给给定定值值x0,根根据据回回归归方方程得到因变量程得到因变量y 的一个估计值的一个估计值点估计点估计区间估计区间估计1.点估计值与实际值之间是有误差的,但是点估计不能给出估计的精度,因此需要进行区间估计。2.对于自变量x 的一个给定值x0,根据回归方程得到因变量y 的一个估计区间3.区间估计有两种类型置信区间估计预测区间估计(1)置信区间估计置信区间估计 y 的平均值的置信区间估计的平均值的置信区间估计利用估计的回归方程,对于自变量x 的一个给定值x0 ,求出因变量y的平均值E(y0)的估计区间,这一估计区间称为置信区间。置信区间。E(y0)在1-置信水平下的置信区间为:(式中:式中:Sy为估计标准误差为估计标准误差)(2)预测区间估计预测区间估计 y 的个别值的预测区间估计的个别值的预测区间估计利用估计的回归方程,对于自变量x 的一个给定值x0 ,求出因变量y的一个个别值的估计区间,这一区间称为预测区间预测区间。 y0在1-置信水平下的预测区间为:EXCEL输出的回归分析结果:输出的回归分析结果:

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号