统计学第五章相关与回归分析

上传人:n**** 文档编号:88963067 上传时间:2019-05-14 格式:PPT 页数:53 大小:5.68MB
返回 下载 相关 举报
统计学第五章相关与回归分析_第1页
第1页 / 共53页
统计学第五章相关与回归分析_第2页
第2页 / 共53页
统计学第五章相关与回归分析_第3页
第3页 / 共53页
统计学第五章相关与回归分析_第4页
第4页 / 共53页
统计学第五章相关与回归分析_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《统计学第五章相关与回归分析》由会员分享,可在线阅读,更多相关《统计学第五章相关与回归分析(53页珍藏版)》请在金锄头文库上搜索。

1、第五章 相关与回归分析,第五章 相关与回归分析,第一节 相关与回归分析的基本理论 第二节 一元线性回归,学习目标,了解相关关系的概念及种类 掌握相关分析的原理、相关系数的含义、计算方法、取值及其应用 掌握回归分析的原理、重点掌握一元线性回归方程的拟合(参数的最小二乘估计方法)和参数的含义 掌握判断回归方程拟合优度的度量方法判定系数(又称决定系数) 掌握利用回归方程进行估计或预测,第一节 相关与回归分析的基本理论,一、相关与回归分析的基本概念 二、相关系数及其计算,一、相关与回归分析的基本概念,1、变量间的关系 (函数关系),(1)是一一对应的确定关系 (2)设有两个变量 x 和 y ,变量 y

2、 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 (3)如两个变量之间存在确定性的线性关系,则各观测点落在一条线上,1、变量间的关系 (函数关系), 函数关系的例子 某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价) 圆的面积(S)与半径之间的关系可表示为 S = R2 企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为 y = x1 x2 x3,1、变量间的关系 (相

3、关关系),(1)变量间关系不能用函数关系精确表达 (2)一个变量的取值不能由另一个变量唯一确定 (3)当变量 x 取某个值时,变量 y 的取值可能有几个。 存在随机因素对y的影响,但相比x的影响较小些。 (4)各观测点分布在直线周围 (即这些数值围绕着它们的平均数上下波动) 如商品需求量y与商品价格p之间的关系是相关关系,y=f(x)+e 因为商品需求量还受到消费者收入水平、消费习惯、替代品和互补品的价格变化、季节性因素等众多因素影响。,1、变量间的关系 (相关关系与函数关系), 相关关系的例子 商品的消费量(y)与居民收入(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系 粮食亩

4、产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系 收入水平(y)与受教育程度(x)之间的关系 父亲身高(y)与子女身高(x)之间的关系 相关关系和函数关系有区别,但是它们之间也有联系。 联系主要体现在两个方面: 一方面,对于具有函数关系的现象,在实际中由于观察或测量误差等原因,往往呈现出相关关系的特征; 另一方面,现象之间的相关关系通常又要利用相应的函数关系式来表现。,2、相关关系的类型,现象之间的相关关系错综复杂,可以表现为不同的类型和多种形态。通常从以下方面来划分相关关系的类型: (1)按相关关系涉及的变量或因素多少,可分为单相关和复相关。 单相关也称为一元相关,是指

5、两个变量之间的相关关系。 复相关是指多个变量之间的相互关系,如一个变量对应两个或两个以上其他变量的相关关系。 (2)按相关关系的表现形式不同,可分为线性相关和非线性相关 对于一元相关,即为直线相关和曲线相关 线性相关(直线相关)是指相关的变量呈线性关系,如两个变量的对应值画在直角坐标图上,其散布点趋向于直线的形式(即一个狭长的带形区域之内,近似地表现为直线形式) 非线性关系(曲线关系)是指变量之间的分布趋向某种曲线形式。如抛物线、指数曲线等。,2、相关关系的类型,(3)按相关的方向不同,可分为正相关和负相关 正相关是指相关变量之间的变化是一致的。例如家庭消费支出与收入水平之间的关系 负相关是指

6、相关变量之间的变化方向是相反的。例如商品销售量与商品价格之间的关系 (4)按相关的程度不同,可分为完全相关、不完全相关和不相关 当一种现象(变量)的数量变化完全由另一种现象(变量)的数量变化所确定时,称这两种现象(变量)间的关系为完全相关。如圆的面积与圆的半径之间的关系 。 当两个现象(变量)彼此互不影响,其数量变化各自独立时,称为不相关(无相关)。如成绩与身高之间的关系 当一种现象(变量)的变化与另一种现象的变化有关,但不完全由前者决定,还受随机因素的影响,则这种关系称为不完全相关。 现实中许多经济现象的数量关系都表现为这种不完全相关。,2、相关关系的类型(图示),3、相关分析与回归分析,(

7、1)相关分析的含义与内容 (2)回归分析的含义与内容 (3)相关分析与回归分析的区别 (4)相关分析与回归分析的联系,(1)相关分析 (含义与内容),含义:对两个或两个以上现象之间数量关系上的不确定性依存关系进行的统计分析。 内容: *判断现象之间有无关系以及相关关系的具体表现形式 在定性分析的基础上,编制相关表、绘制相关图(散点图) *确定相关关系的方向及密切程度 根据变量数据的类型,选择适当的方法,计算相关系数。 *检验现象统计相关的显著性 包括检验相关关系的存在性、检验相关关系强度是否达到一定水平、检验两对现象相关程度的差异性,估计相关系数的取值等。,(2)回归分析 (含义与内容),含义

8、:对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定因变量和自变量之间数量关系变动的数学表达式,以便对因变量进行估计或预测的统计分析方法。 内容: *根据研究目的和现象之间的内在关系,从一组样本数据出发,确定自变量和因变量,以及变量之间的数学关系式。 *对回归分析模型进行评价和诊断,即对回归方程的代表性和拟合程度进行评价等,对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。 *利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的精确程度等。,(3)相关分析与回归分析的区别

9、,*相关分析中,变量 x 变量 y 处于平等的地位; 回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化 *相关分析中所涉及的变量 x 和 y 都是随机变量; 回归分析中,因变量 y 是随机变量,自变量 x 可以是非随机的确定变量 *相关分析主要是描述变量x与变量y之间关系的密切程度; 回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行估计或预测等,(4)相关分析与回归分析的联系,相关分析是回归分析的基础和前提 回归分析是相关分析的深入和继续,二、相关系数及其计算,1、相关关系的描述与测度 (概念要点),1. 对变量之间关系及其密切

10、程度的度量 2. 在进行相关分析时,判断变量之间的关系形态及其关系强度 首先编制相关表; 其次绘制相关图(即散点图) 最后计算相关系数 3. 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 4. 若是根据样本数据计算的,则称为样本相关系数,记为 r,2、相关系数的测度 (相关系数计算公式),对于单相关,相关系数测定方法与相关指标量化级别有关。 对于定类变量,常常采用列联系数来测量相关密切程度; 对于定序变量常采用斯皮尔曼等级相关系数或肯德尔等级相关系数公式测量相关密切程度; 对于定距变量或定比变量,通常采用皮尔逊线性相关系数公式测量相关密切程度。 本节主要介绍常用的皮尔逊直线相关系

11、数,2、相关系数的测度 (相关系数计算公式), 样本相关系数的计算公式,或化简为,2、相关系数的测度 (相关系数取值及其意义P318),r 的取值范围是 -1,1 |r|=1,为完全相关 r =1,为完全正相关 r =-1,为完全负相关 r = 0,两个变量之间不存在线性相关关系 -1r0,两个变量之间存在负线性相关关系 0r1,两个变量之间存在正线性相关关系 |r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切。 |r|0.8,为高度相关; 0.5 |r|0.8,为中度相关; 0.3|r| 0.5,为低度相关; |r|0.3,为相关程度极弱,可视为不相关; 但这种解释必须建立在对相关

12、系数的显著性进行检验的基础上。 注意:两个变量的皮尔逊直线相关系数低,只能表示它们之间线性相关程度低,不表示它们之间其他形式的相关密切程度很低,因为现象之间的关系也许是非线性的。,2、相关系数的测度 (相关系数取值及其意义),r,相关关系的测度 (相关系数计算例),【例5.1】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到19811993年的样本数据(xi ,yi),i =1,2,,13,数据见表5-1,计算相关系数。,2、相关系数的测度 (计算结果),解:根据样本相关系数的计算公式有 人均国民收入与人均消费金额之间的相关系数为 0.9987 能否根据

13、样本相关系数说明总体的相关程度,通常需要对样本相关系数进行显著性检验。,第二节 一元线性回归,一. 一元线性回归模型 参数0 和 1的最小二乘估计及回归直线的拟合优度 预测及应用,一、一元线性回归模型,1、回归模型,(1)回答“变量之间是什么样的关系?” (2)方程中运用 1 个因变量(响应变量) 被预测的变量y 1 个或多个自变量 (解释变量) 用于预测因变量的一个或多个变量x (3)主要用于估计或预测,2、回归模型的类型,3、一元线性回归模型 (概念要点),(1)当只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间为线性关系时称为一元线性回归 (2)对于具有线性关系的两个变量

14、,可以用一个线性方程来表示它们之间的关系 (3)描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型 y = b0 + b1 x + e,3、一元线性回归模型 (概念要点), 对于只涉及一个自变量的简单线性回归模型可表示为 y = b0 + b1 x + e 模型中,y 是 x 的线性函数(部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项 是随机变量 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性 0 和 1 称为模型的参数,3、一元线性回归模型 (基本假定P322),误差项是一个期

15、望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为E ( y ) = 0+ 1 x 对于所有的 x 值,的方差2 都相同 误差项是一个服从正态分布的随机变量,且相互独立。即N( 0 ,2 ) 独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关 对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关,4、回归方程 (概念要点),描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程 简单线性回归方程的形式如下 E( y ) = 0+ 1 x,方程的图示是一条直线,因此也称为直线回归方程 0是回归直线在 y 轴上的截距,是

16、当 x=0 时 y 的期望值 1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值,5、估计(经验)的回归方程,简单线性回归中估计的回归方程为,其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示 x 每变动一个单位时, y 的平均变动值 。,用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程,总体回归参数 和 是未知的,必需利用样本数据去估计,二、参数 0 和 1 的最小二乘估计 及回归直线的拟合优度,1、最小二乘法 (概念要点),使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即,用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小,1、最小二乘法 (图示),1、最小二乘法 ( 和 的计算公式P324), 根据最小二乘法的要求,可得求解 和 的标准方程如下,2、估计方程的求法 (实例),【例】根据例5

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号