回归分析的基本思想及其初步应用

上传人:宝路 文档编号:2458744 上传时间:2017-07-24 格式:PPT 页数:81 大小:2.80MB
返回 下载 相关 举报
回归分析的基本思想及其初步应用_第1页
第1页 / 共81页
回归分析的基本思想及其初步应用_第2页
第2页 / 共81页
回归分析的基本思想及其初步应用_第3页
第3页 / 共81页
回归分析的基本思想及其初步应用_第4页
第4页 / 共81页
回归分析的基本思想及其初步应用_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《回归分析的基本思想及其初步应用》由会员分享,可在线阅读,更多相关《回归分析的基本思想及其初步应用(81页珍藏版)》请在金锄头文库上搜索。

1、31回归分析的基本思想及其初步应用,1通过对典型案例的探究,了解回归分析的基本思想、方法及其初步应用2会求回归直线方程,并用回归直线方程进行预报.,1线性回归模型及随机误差e的来源(重点)2残差及残差分析的方法(难点),2011年,日本发生了9级特大地震,是一个多世纪以来全世界特大的地震之一,而且余震不但级别高还很频繁,有大约63次不低于5级的余震,其中至少9次超过了6级你知道地震的震级与地震次数之间有什么关系吗?,(2)基本概念a和b为模型的未知参数e是y与bxa之间的误差,通常e为随机变量,称为x称为 ,y称为,随机误差,解释变量,预报变量,越小,(2)残差图法残差点 落在水平的带状区域内

2、,说明选用的模型比较合适,其中这样的带状区域宽度 ,说明模型的精确度越高,比较均匀,越窄,R2越接近于1,3建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是,哪个变量是(2)画出确定好的 和 的 ,观察它们之间的关系(如是否存在线性关系);,解释变量,预报变量,解释变量,预报变量,散点图,(4)按一定规则(如最小二乘法)估计回归方程中的参数;(5)得出结果后分析 是否异常(如个别数据对应残差 ,残差呈现不 等),若存在异常,则检查数据是否有误,或模型是否合适等,残差图,过大,随机的规律性,1设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的

3、截距是a,那么必有()Ab与r的符号相同 Ba与r的符号相同Cb与r的符号相反 Da与r的符号相反解析:因为b0时,两变量正相关,此时r0;b0时,两变量负相关,此时r0,所以选A.答案:A,解析:R2越大,说明模型的拟合效果越好答案:C,3若一组观测值(x1,y1),(x2,y2),(xn,yn)之间满足yibxiaei(i1,2,n),且ei恒为0,则R2为_答案:1,4为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:(1)作出散点图并求线性回归方程;(2)求出R2;(3)进行残差分析,解析:(1)散点图如图,(2)列表如下:,(3)

4、由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.,有一位同学家里开了一个小卖部,他为了研究气温对热茶销售杯数的影响,经过统计,得到一个卖出热茶杯数与当天气温的对比表:,(1)求热茶销售杯数与气温的线性回归方程;(2)预测气温为10 时热茶的销售杯数根据样本点数据画出散点图利用散点图直观分析热茶销售杯数y与气温x具有线性相关关系,利用线性回归方程中参数的计

5、算公式可得线性回归方程并进行预测,解题过程(1)所给数据的散点图如图所示,题后感悟(1)在研究两个变量之间的关系时,首先可依据散点图初步判断它们是否线性相关,是否可以用线性回归模型来拟合数据,它们线性相关的强弱程度可通过线性相关系数值与1的接近程度来确定如果本身两个变量不具备相关关系,或者说,它们之间相关关系不显著,即使求出回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的,1.以下是收集到的房屋的销售价格y与房屋的大小x的有关数据若y与x呈线性相关关系,求回归直线方程,解析:作出散点图,某城区为研究城镇居民月家庭人均生活费支出和月人均收入的相关关系,随机抽取10户进行调查,其结果如下

6、:,(1)作出散点图;(2)求出回归方程;(3)作出残差图;(4)计算相关指数R2;(5)试预测月人均收入为1 100元和月人均收入为1 200元的两个家庭的月人均生活费,规范解答(1)作出散点图如图所示,由图可知月人均生活费与月人均收入之间具有较强的线性相关关系2分,(3)残差分析,列表如下:,作残差图如图所示,由图可知残差点比较均匀地分布在水平的带状区域中,说明选用的模型比较合适8分,(4)计算相关指数R20.986 3,说明城镇居民的月人均生活费的差异约有98.63%是由月人均收入引起的. 10分(5)由以上分析可知,我们可以利用回归方程0.659 9x58.723 9来计算月人均生活费

7、的预报值将x1 100代入,得y784.61,将x1 200代入,得y850.60.故预测月人均收入分别为1 100元和1 200元的两个家庭的月人均生活费分别为784.61元和850.60元. 12分,题后感悟该类题属于线性回归问题,解答本类题目应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析,2.某运动员训练次数与运动成绩之间的数据关系如下:(1)作出散点图;(2)求出回归方程;(3)作出残差图;(4)计算相关指数R2;(5)试预测该运动员训练47次及55次

8、的成绩,解析:(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如下图所示,由散点图可知,它们之间具有线性相关关系,(2)列表计算:,(3)残差分析作残差图如下图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适,(4)计算相关指数R2计算相关指数R20.985 5.说明了该运动员的成绩的差异有98.55%是由训练次数引起的(5)做出预报由上述分析可知,我们可用回归方程1.041 5x0.003 02作为该运动员成绩的预报值将x47和x55分别代入该方程可得y49和y57.故预测该运动员训练47次和55次的成绩分别为49和57.,在一化学反应过程中某化学物质的

9、反应速度y g/分与一种催化剂的量x g有关,现收集了8组数据列于表中,试建立y与x之间的回归方程.,解题过程根据收集的数据作散点图(如图),根据样本点分布情况,可选用两种曲线模型来拟合(1)可认为样本点集中在某二次曲线yc1x2c2的附近令tx2,则变换后样本点应该分布在直线ybta(bc1,ac2)的周围由题意得变换后t与y的样本数据表如下:,作y与t的散点图:由y与t的散点图可观察到样本数据点并不分布在一条直线的周围,因此不宜用线性回归方程ybta来拟合,即不宜用二次曲线yc1x2c2来拟合y与x之间的关系,(2)根据x与y的散点图也可以认为样本点集中在某一条指数型函数曲线yc1ec2x

10、的周围令zln y,则zc2xln c1,即变换后样本点应该分布在直线zbxa(aln c1,bc2)的周围,由y与x的数据表可得z与x的数据表如下:,作出z与x的散点图(如图):,题后感悟研究两个变量的关系时,根据样本数据作出散点图观察散点图中样本点的分布,从整体看,如果样本点没有分布在某一条直线附近,我们就称这两个变量之间不具有线性相关关系当回归方程不是形如ybxa(a,bR)时,称之为非线性回归方程列举通过变量代换,把非线性回归方程转化为线性回归方程:(1)yaxm(a,m为常数,a,x,y取正值),令uln y,vln x,bln a,则umvb.,3.下表为收集到的一组数据:(1)作

11、出x与y的散点图,并猜测x与y之间的关系;(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x40时y的值,解析:(1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线yc1ec2x的周围,其中c1、c2为待定的参数,(2)对两边取对数把指数关系变为线性关系,令zln y,则有变换后的样本点应分布在直线zbxa,aln c1,bc2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:,1如何理解回归分析?(1)从一组样本数据出发,确定变量之间的数学关系式(2)对这些关系式的可信程

12、度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著(3)利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度,3如何理解随机误差e的主要来源?(1)用线性回归模型近似真实模型(真实模型是客观存在的,但我们并不知道到底是什么)所引起的误差可能存在非线性的函数能更好的描述y与x之间的关系,但我们现在却用线性函数来表述这种关系,结果就产生误差,这种由于模型近似所引起的误差包含在e中(2)忽略了某些因素的影响影响变量y的因素不止变量x一个,可能还有其他因素,但通常它们每一个因素的影响可能都比较小,它们的影响都体现

13、在e中,(3)观测误差由于测量工具等原因,得到的y的观测值一般是有误差的,这样的误差也包含在e中以上三项误差越小,则回归模型的拟合效果越好,显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好在线性回归模型中,R2表示解释变量对预报变量变化的贡献率R2越接近1,表示解释变量和预报变量的线性相关性越强,回归的效果越好如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值来做出选择,即选取R2较大的模型作为这组数据的模型,提醒总的来说,相关指数R2是度量模型拟合效果的一种指标在线性模型中,它代表解释变量刻画预报变量的能力,在一次抽样调查中测得样本的5个样本点,数值如下表:试建立y与x之间的回归方程,【错解】由已知条件制成下表:,由散点图可以看出y与t呈近似的线性相关关系列表如下:,练考题、验能力、轻巧夺冠,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 教育学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号