第8章相关和回归分析

上传人:桔**** 文档编号:578490211 上传时间:2024-08-24 格式:PPT 页数:51 大小:492.02KB
返回 下载 相关 举报
第8章相关和回归分析_第1页
第1页 / 共51页
第8章相关和回归分析_第2页
第2页 / 共51页
第8章相关和回归分析_第3页
第3页 / 共51页
第8章相关和回归分析_第4页
第4页 / 共51页
第8章相关和回归分析_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《第8章相关和回归分析》由会员分享,可在线阅读,更多相关《第8章相关和回归分析(51页珍藏版)》请在金锄头文库上搜索。

1、 统 计 学STATISTICS第8章 相关和回归分析学习目标 7.1 相关与回归分析的基本概念 7.2 一元线性回归分析 7.3多元线性回归分析 7.4 非线性回归 7.5 相关分析云南财经大学统计信息学院 统 计 学STATISTICS学习重点1. 相关系数的分析方法相关系数的分析方法2.一元线性回归的基本原理和参数的最小一元线性回归的基本原理和参数的最小二乘估计二乘估计3.回归直线的拟合优度回归直线的拟合优度4.回归方程的显著性检验回归方程的显著性检验5.利用回归方程进行估计和预测利用回归方程进行估计和预测云南财经大学统计信息学院 统 计 学STATISTICS 7.1 相关与回归分析的

2、基本概念函数关系1.是一一对应的确定关系2.设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量3.各观测点落在一条线上 云南财经大学统计信息学院 统 计 学STATISTICS函数关系(几个例子) 函数关系的例子函数关系的例子某某种种商商品品的的销销售售额额y y与与销销售售量量x x之之间间的的关关系系可表示为可表示为 y y = = pxpx ( (p p 为单价为单价) )圆圆的的面面积积S S与与半半径径之之间间的

3、的关关系系可可表表示示为为S S= = R R2 2 企企业业的的原原材材料料消消耗耗额额y y与与产产量量x x1 1 、单单位位产产量量消消耗耗x x2 2 、原原材材料料价价格格x x3 3之之间间的的关关系系可可表表示示为为 y y = = x x1 1 x x2 2 x x3 3 云南财经大学统计信息学院 统 计 学STATISTICS相关关系(correlation)1.变量间关系不能用函数关系精确表达2. 一个变量的取值不能由另一个变量唯一确定3. 当变量 x 取某个值时,变量 y 的取值可能有几个4. 各观测点分布在直线周围 云南财经大学统计信息学院 统 计 学STATISTI

4、CS相关关系(几个例子) 相关关系的例子相关关系的例子父亲身高父亲身高y y与子女身高与子女身高x x之间的关系之间的关系收入水平收入水平y y与受教育程度与受教育程度x x之间的关系之间的关系粮粮食食亩亩产产量量y y与与施施肥肥量量x x1 1 、降降雨雨量量x x2 2 、温温度度x x3 3之之间的关系间的关系商品的消费量商品的消费量y y与居民收入与居民收入x x之间的关系之间的关系商品销售额商品销售额y y与广告费支出与广告费支出x x之间的关系之间的关系云南财经大学统计信息学院 统 计 学STATISTICS相关关系(类型) 按相关程度划分: 完全相关、不完全相关和不相关按相关方

5、向划分: 正相关和负相关按相关形式划分: 线性相关和非线性相关按变量多少划分 单相关、复相关和偏相关按相关性质划分 真实相关和虚假相关 云南财经大学统计信息学院 统 计 学STATISTICS7.2 一元线性回归 7.2.1 标准的一元线性回归模型标准的一元线性回归模型 7.2.2一元线性回归模型的估计一元线性回归模型的估计 7.2.3一元线性回归模型的检验一元线性回归模型的检验 7.2.4一元线性回归模型的预测一元线性回归模型的预测云南财经大学统计信息学院 统 计 学STATISTICS一元线性回归模型1.描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型回归模型2.一元线性

6、回归模型可表示为 y = 0 0 + + 1 1 x + + e ey 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性0 和 1 称为模型的参数云南财经大学统计信息学院 统 计 学STATISTICS一元线性回归模型(基本假定) 1.误差项的期望值为0,即E()=0。对于一个给定的 x 值,y 的期望值为E ( y ) = 0+ 1 x2.对于所有的 x 值,3.误差项之间不存在序列相关关系,即 4.自变量是给定的变量,与随

7、机误差项线性无关5.随机误差项服从正态分布,即 N( 0 ,2 )云南财经大学统计信息学院 统 计 学STATISTICS总体回归函数1.描述 y 的平均值或期望值如何依赖于 x 的方程称为总体回归函数2.总体回归函数的数学形式如下3. E( y ) = 0+ 1 x函数的图示是一条直线,也称为总体回归直线函数的图示是一条直线,也称为总体回归直线 0 0是是回回归归直直线线在在 y y 轴轴上上的的截截距距,是是当当 x x=0 =0 时时 y y 的的期期望值望值 1 1是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当 x x 每每变变动动一个单位时,一个单位时,y y 的平

8、均变动值的平均变动值云南财经大学统计信息学院 统 计 学STATISTICS样本回归函数(估计方程)1.总总体体回回归归参参数数 和和 是是未未知知的的,必必须须利利用用样样本本数数据去估计据去估计2.用用样样本本统统计计量量 和和 代代替替回回归归方方程程中中的的未未知知参参数数 和和 ,就得到了,就得到了估计的回归方程估计的回归方程估计的回归方程估计的回归方程3.3.一元线性回归中估计的回归方程为一元线性回归中估计的回归方程为其其中中: 是是估估计计的的回回归归直直线线在在 y y 轴轴上上的的截截距距, 是是直直线线的的斜斜率率,它它表表示示对对于于一一个个给给定定的的 x x 的的值值

9、, 是是 y y 的的估估计计值,也表示值,也表示 x x 每变动一个单位时,每变动一个单位时, y y 的平均变动值的平均变动值 云南财经大学统计信息学院 统 计 学STATISTICS7.2.2一元线性回归模型的估计一元线性回归模型的估计1.使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即2.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小云南财经大学统计信息学院 统 计 学STATISTICS最小二乘法 ( 和 的计算公式) 根据最小二乘法的要求,可得求解 和 的公式如下云南财经大学统计信息学院 统 计 学STATISTICS估计方程的

10、求法(例题分析)【例例7-1】估计食品支出的恩格尔函数回归方程为:回归方程为:y = 9.9872 + 0.1802 x回回归归系系数数 =0.1802 =0.1802 表表示示,收收入入每每增增加加1 1亿亿元元,食品支出平均增加食品支出平均增加0.1802亿元亿元 云南财经大学统计信息学院 统 计 学STATISTICS估计标准误差(standard error of estimate)1.实际观察值与回归估计值离差平方和的均方根2.反映实际观察值在回归直线周围的分散状况3.对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量4.反映用估计的回归方程预测y时预测

11、误差的大小 5.计算公式为注:例题的计算结果为注:例题的计算结果为1.1.82868286云南财经大学统计信息学院 统 计 学STATISTICS7.2.3一元线性回归模型的检验一元线性回归模型的检验离差1.因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响2.对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示云南财经大学统计信息学院 统 计 学STATISTICS离差的分解(图示) x xy yy y 云南财经大学统计信息学院 统 计 学STATIS

12、TICS离差平方和的分解 (三个平方和的关系) SST = SSR + SSE总平方和总平方和总平方和总平方和( (SSTSST) )回归平方和回归平方和回归平方和回归平方和( (SSRSSR) )残差平方和残差平方和残差平方和残差平方和( (SSESSE) )云南财经大学统计信息学院 统 计 学STATISTICS离差平方和的分解 (三个平方和的意义)1.总平方和总平方和(SST)反映因变量的 n 个观察值与其均值的总离差2.回归平方和回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和

13、3.残差平方和残差平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和云南财经大学统计信息学院 统 计 学STATISTICS可决系数r21.回归平方和占总离差平方和的比例2.反映回归直线的拟合程度反映回归直线的拟合程度3.取值范围在取值范围在 0 , 1 0 , 1 之间之间4. R R2 2 1 1,说明回归方程拟合的越好;说明回归方程拟合的越好;R R2 20 0,说说明回归方程拟合的越差明回归方程拟合的越差5.判定判定系数等于相关系数的平方,即系数等于相关系数的平方,即R R2 2r r2 2云南财经大学统计信息学院 统 计 学STATIST

14、ICS可决系数r2 (例题分析) 【例例7-2】计算估计食品支出的恩格尔函数回归的可决系数,并解释其意义 可可决决系系数数的的实实际际意意义义是是:在食品支出取值的变差中,有88.63%可以由食品支出与家庭收入之间的线性关系来解释,或者说,在食品支出取值的变动中,有88.63%是家庭收入所决定的。可见食品支出与家庭收入之间有较强的线性关系 云南财经大学统计信息学院 统 计 学STATISTICS 7.2.3一元线性回归模型的检验一元线性回归模型的检验1.检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著2.理论基础是回归系数 的抽样分布3.在一元线性回

15、归中,等价于线性关系的显著性检验云南财经大学统计信息学院 统 计 学STATISTICS回归系数的检验(样本统计量 的分布)1. 1.1. 是是是根根根据据据最最最小小小二二二乘乘乘法法法求求求出出出的的的样样样本本本统统统计计计量量量,它它它有有有自自自己的分布己的分布己的分布2. 2.2. 的的的分布具有如下性质分布具有如下性质分布具有如下性质 分布形式:正态分布分布形式:正态分布分布形式:正态分布 数学期望:数学期望:数学期望: 标准差:标准差:标准差: 由由由于于于 未未未知知知,需需需用用用其其其估估估计计计量量量s s sy yy来来来代代代替替替得得得到到到 的的的估估估计计计的

16、的的标准差标准差标准差云南财经大学统计信息学院 统 计 学STATISTICS回归系数的检验 (检验步骤) 1.提出假设H0: 1 = 0 (没有线性关系) H1: 1 0 (有线性关系) 2.计算检验的统计量3. 确定显著性水平确定显著性水平 ,并进行决策,并进行决策 t t t t,拒绝拒绝H H0 0; t t =10.07t t=2.160=2.160,拒拒绝绝H H0 0,表表明明食食品品支支出出与与家庭收入之间有线性关系家庭收入之间有线性关系云南财经大学统计信息学院 统 计 学STATISTICS 7.2.4一元线性回归模型的预测一元线性回归模型的预测1.根据自变量 x 的取值估计

17、或预测因变量 y的取值2.估计或预测的类型点估计y 的个别值的点估计(或预测)区间估计y 的个别值的预测区间预测区间估计云南财经大学统计信息学院 统 计 学STATISTICSy 的个别值的点预测利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计例如,如果我们只是想知道家庭收入为200元的那些家庭的食品支出是多少,则属于个别值的点估计 。根据估计的回归方程得云南财经大学统计信息学院 统 计 学STATISTICS区间预测 1.点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计2.对于自变量 x 的一个

18、给定值 x0,根据回归方程得到因变量 y 的一个估计区间3.本课程讨论的区间估计类型预 测 区 间 估 计 (prediction interval estimate)云南财经大学统计信息学院 统 计 学STATISTICS预测区间估计1.利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间预测区间(prediction interval) 2. y0在1-置信水平下的预测区间为云南财经大学统计信息学院 统 计 学STATISTICS影响区间宽度的因素1.置信水平 (1 - )区间宽度随置信水平的增大而增大2.数据的离散程度s区

19、间宽度随离散程度的增大而增大3.样本容量区间宽度随样本容量的增大而减小4.用于预测的 xp与x的差异程度区间宽度随 xp与x 的差异程度的增大而增大云南财经大学统计信息学院 统 计 学STATISTICS置信区间、预测区间、回归方程xp pyx x预测上限置信上限预测下限置信下限云南财经大学统计信息学院 统 计 学STATISTICS7.3多元线性回归分析7.3.1 多元线性回归模型多元线性回归模型 7.3.2 多元线性回归模型多元线性回归模型 的估计的估计7.3.3 多元线性回归模型多元线性回归模型 的检验和预测的检验和预测云南财经大学统计信息学院 统 计 学STATISTICS7.3.1多

20、元回归模型 1.一个因变量与两个及两个以上自变量的回归2.描述因变量 y 如何依赖于自变量 x1 , x2 , xk 和误差项 的方程,称为多元回归模型3.涉及 p 个自变量的多元回归模型可表示为 0 0 , 1 1, , k k是是参数参数 是被称为误差项的随机变量是被称为误差项的随机变量 y y 是是x x1,1,,x x2 2 , ,x xk k 的线性函数加上误差项的线性函数加上误差项 包包含含在在y y里里面面但但不不能能被被k k个个自自变变量量的的线线性性关关系系所解释的变异性所解释的变异性云南财经大学统计信息学院 统 计 学STATISTICS多元回归模型(基本假定) 1.误差

21、项是一个期望值为0的随机变量,即E()=02.对于自变量x1,x2,xp的所有值,的方差 2都相同3.误差项是一个服从正态分布的随机变量,即N(0, 2),且相互独立云南财经大学统计信息学院 统 计 学STATISTICS多元样本回归函数(方程)1.用样本统计量 估计回归方程中的 参数 时得到的方程2.由最小二乘法求得3.一般形式为 是是 估计值估计值 是是 y y 的估计值的估计值云南财经大学统计信息学院 统 计 学STATISTICS7.3.2 多元线性回归模型多元线性回归模型 的估计的估计1.使使因因变变量量的的观观察察值值与与估估计计值值之之间间的的离离差差平平方方和和达达到最小来求得

22、到最小来求得 。即即2.求求解解各回归参数的标准方程如下各回归参数的标准方程如下云南财经大学统计信息学院 统 计 学STATISTICS7.3.3 多元线性回归模型多元线性回归模型 的检的检验和预测验和预测回归方程的拟合优度1.回归平方和占总平方和的比例2.计算公式为3.3.因变量取值的变差中,能被估计的多元回归方程所解释的比例 云南财经大学统计信息学院 统 计 学STATISTICS修正多重可决系数1.用样本容量n和自变量的个数p去修正R2得到 2.计算公式为3.避免增加自变量而高估 R24.意义与 R2类似5.数值小于R2云南财经大学统计信息学院 统 计 学STATISTICS 显著性检验

23、(回归系数的检验)1.提出假设H0: i = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: i 0 (自变量 xi 与 因变量 y有线性关系) 2.计算检验的统计量 t3. 确定显著性水平,并进行决策 t t t t ,拒绝拒绝H H0 0; t t F F ,拒绝拒绝H H0 0云南财经大学统计信息学院 统 计 学STATISTICS7.4 非线性回归1. 因变量 y 与 x 之间不是线性关系2. 可通过变量代换转换成线性关系用最小二乘法求出参数的估计值并非所有的非线性模型都可以化为线性模型云南财经大学统计信息学院 统 计 学STATISTICS双曲线1.基本形式:2.线性化方

24、法令:y = 1/y,x= 1/x, 则有y = + x云南财经大学统计信息学院 统 计 学STATISTICS指数曲线1.基本形式:2.线性化方法两端取对数得:lny = ln + x令:y = lny,则有y = ln + x云南财经大学统计信息学院 统 计 学STATISTICSS 型曲线1.基本形式:2.线性化方法令:y = 1/y,x= e-x, 则有y = + x云南财经大学统计信息学院 统 计 学STATISTICS7.5 相关分析相关系数(correlation coefficient)1.对变量之间关系密切程度的度量2.对两个变量之间线性相关程度的度量称为简单相关系数3.若相

25、关系数是根据总体全部数据计算的,称为总体相关系数,记为 4.若是根据样本数据计算的,则称为样本相关系数,记为 r云南财经大学统计信息学院 统 计 学STATISTICS相关系数 (计算公式) 样本相关系数的计算公式或化简为云南财经大学统计信息学院 统 计 学STATISTICS相关系数(取值及其意义)1. r 的取值范围是 -1,12. |r|=1,为完全相关r =1,为完全正相关r =-1,为完全负正相关3. r = 0,不存在线性线性相关关系4. -1r0,为负相关5. 0 t t,拒绝拒绝H H0 0 若若 t t t t,不能拒绝不能拒绝H H0 0云南财经大学统计信息学院 统 计 学STATISTICSEnd of Chapter 7云南财经大学统计信息学院

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号