3.1.1(线性回归思想

上传人:汽*** 文档编号:584138696 上传时间:2024-08-30 格式:PPT 页数:26 大小:491.03KB
返回 下载 相关 举报
3.1.1(线性回归思想_第1页
第1页 / 共26页
3.1.1(线性回归思想_第2页
第2页 / 共26页
3.1.1(线性回归思想_第3页
第3页 / 共26页
3.1.1(线性回归思想_第4页
第4页 / 共26页
3.1.1(线性回归思想_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《3.1.1(线性回归思想》由会员分享,可在线阅读,更多相关《3.1.1(线性回归思想(26页珍藏版)》请在金锄头文库上搜索。

1、3.1回归分析的基回归分析的基本思想及其初步本思想及其初步应用(一)应用(一)高二数学高二数学 选修选修2-38/30/2024郑平正 制作复习复习一一 变量之间的关系变量之间的关系 1 确定性的函数关系确定性的函数关系 2 不确定性的相关关系:不确定性的相关关系: 自变量取值一定时,因变量的取值带有一自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系,叫做相定随机性的两个变量之间的关系,叫做相关关系,相关关系是一种非确定的关系关关系,相关关系是一种非确定的关系8/30/2024郑平正 制作.年龄脂肪239.52717.83921.24125.9454927.526.35028.

2、25329.65430.25631.45730.8年龄脂肪5833.56035.26134.6如上的一组数据,你能分析人体的脂肪含量与年龄如上的一组数据,你能分析人体的脂肪含量与年龄 之间有怎样的关系吗?之间有怎样的关系吗?二二 线性回归分析的步骤线性回归分析的步骤 :8/30/2024郑平正 制作下面我们以年龄为横轴,下面我们以年龄为横轴,脂肪含量为纵轴建立直脂肪含量为纵轴建立直角坐标系,作出各个点,角坐标系,作出各个点,称该图为称该图为散点图散点图。如图:O202530 35 4045 505560 65年龄脂肪含量5101520253035401 1 画散点图画散点图将各数据在平面直角坐

3、标系中的对应点画出来,得到表示两个变量将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图像叫散点图的一组数据的图形,这样的图像叫散点图8/30/2024郑平正 制作从刚才的散点图发现:年龄越大,体内脂肪含量越高,点的位置散布在从刚才的散点图发现:年龄越大,体内脂肪含量越高,点的位置散布在从左下角到右上角的区域。称它们成从左下角到右上角的区域。称它们成正相关正相关。但有的两个变量的相关,如下图所示:但有的两个变量的相关,如下图所示:如高原含氧量与海拔高度如高原含氧量与海拔高度的相关关系,海平面以上,的相关关系,海平面以上,海拔高度越高,含氧量越海拔高度越高,含氧

4、量越少。少。 作出散点图发现,它们散作出散点图发现,它们散布在从左上角到右下角的区布在从左上角到右下角的区域内。又如汽车的载重和汽域内。又如汽车的载重和汽车每消耗车每消耗1升汽油所行使的升汽油所行使的平均路程,称它们成平均路程,称它们成负相关负相关.注:可考虑让学生思考书注:可考虑让学生思考书P77的思考的思考.O(1 1)正相关,负相关)正相关,负相关8/30/2024郑平正 制作我们再观察它的图像发现这些点大致分布在一条直线附我们再观察它的图像发现这些点大致分布在一条直线附 近近,像这样,如果散点图中点的分布从整体上看大致在像这样,如果散点图中点的分布从整体上看大致在一条直线附近,我们就称

5、这两个变量之间具有线性相一条直线附近,我们就称这两个变量之间具有线性相 关关系关关系,这条直线叫做这条直线叫做回归直线回归直线,该直线叫,该直线叫回归方程回归方程。那么,我们该那么,我们该怎样来求出怎样来求出这个回归方这个回归方程?程?请同学们展开请同学们展开讨论,能得讨论,能得出哪些具体出哪些具体的方案?的方案?202530 35 4045 50 55 60 65年龄脂肪含量0510152025303540(2 2) 线性相关线性相关8/30/2024郑平正 制作我们上面给出的几种方案可靠性都不是很强,我们上面给出的几种方案可靠性都不是很强,人们经过长期的实践与研究,已经找到了人们经过长期的

6、实践与研究,已经找到了计算回归方程的斜率与截距的一般公式计算回归方程的斜率与截距的一般公式:以上公式的推导较复杂,故不作推导,但它的原理较为简单:即各点到该直线的距离的平方和最小,这一方法叫最小二乘法。(参看如书P80)2 2 回归方程的求解回归方程的求解 8/30/2024郑平正 制作 线性回归分析的步骤线性回归分析的步骤 : :1、画散点图、画散点图4、用回归直线方程进行预报、用回归直线方程进行预报3、求回归直线方程、求回归直线方程 2、求、求 最小二乘估计公式最小二乘估计公式 :称为样本点的中心称为样本点的中心。三三 描述两个变量之间线性相关关系的强弱描述两个变量之间线性相关关系的强弱的

7、相关系数的相关系数r课前检测:课前检测: 假设关于某设备的使用年限假设关于某设备的使用年限x和所支出的维修和所支出的维修费用费用 y(万元),有如下的统计资料。万元),有如下的统计资料。使用年限使用年限x 23456维修费用维修费用y 2.23.85.56.57.0若由资料知若由资料知,y对对x呈线性相关关系。试求:呈线性相关关系。试求:(1)线性回归方程)线性回归方程 的回归系数的回归系数 ;()估计使用年限为()估计使用年限为10年时,维修费用是多少?年时,维修费用是多少?使用年限为使用年限为10年时,维修费用是年时,维修费用是:12.38万元万元 2008年年5月,中共中央国务院关于加月

8、,中共中央国务院关于加强青少年体育、增强青少年体质的意强青少年体育、增强青少年体质的意见指出城市超重和肥胖青少年的比例见指出城市超重和肥胖青少年的比例明显增加明显增加.“身高标准体重身高标准体重”该指标该指标对于学生形成正确的身体形态观具有对于学生形成正确的身体形态观具有非常直观的教育作用非常直观的教育作用. “身高标准体身高标准体重重”从何而来?我们怎样去研究从何而来?我们怎样去研究?创设情境:创设情境:例例1 从某大学中随机选取从某大学中随机选取8名女大学生,其身高和体重数据如表名女大学生,其身高和体重数据如表1-1所示。所示。编号12345678身高/cm 165165 157 170

9、175 165 155 170体重/kg4857505464614359求根据女大学生的身高预报她的体重的回归方程,并预报一名身高为求根据女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。的女大学生的体重。问题呈现:女大学生的身高与体重问题呈现:女大学生的身高与体重解;解; 1.由于问题中由于问题中要求根据身高预报要求根据身高预报体重,因此选取身体重,因此选取身高为自变量高为自变量x,体,体重为因变量重为因变量y3.3.回归方程:回归方程:2. 散点图;散点图;4.本例中本例中, r=0.7980.75这表明体重与身高有很强的线性相关这表明体重与身高有很强的线性

10、相关关系,从而也表明我们建立的回归模型是有意义的。关系,从而也表明我们建立的回归模型是有意义的。探究探究:身高为身高为172cm的女大学生的体重一定是的女大学生的体重一定是60.316kg吗吗?如果不是,你能解析一下原因吗?如果不是,你能解析一下原因吗?答:身高为答:身高为172cm的女大学生的体重不一定是的女大学生的体重不一定是60.316kg,但一般可以认为她的体重接近于但一般可以认为她的体重接近于60.316kg。例例1 从某大学中随机选取从某大学中随机选取8名女大学生,其身高和体重数据如表名女大学生,其身高和体重数据如表1-1所示。所示。编号12345678身高/cm 165165 1

11、57 170 175 165 155 170体重/kg4857505464614359女大学生的身高与体重女大学生的身高与体重我们可以用下面的我们可以用下面的线性回归模型线性回归模型来表示:来表示:y=bx+a+e, (3)其中其中a和和b为模型的未知参数,为模型的未知参数,e称为随机误差称为随机误差。y=bx+a+e,E(e)=0,D(e)= (4) 在线性回归模型在线性回归模型(4)中,随机误差中,随机误差e的方差的方差 越小,通过越小,通过回归直线回归直线 (5)预报真实值预报真实值y的精度越高。的精度越高。随机误差是引起预报值随机误差是引起预报值 与真实值与真实值y之间的误差的原因之一

12、,之间的误差的原因之一,其大小取决于随机误差的方差。其大小取决于随机误差的方差。另一方面,由于公式另一方面,由于公式(1)和和(2)中中 和和 为截距和斜率的估计值,为截距和斜率的估计值,它们与真实值它们与真实值a和和b之间也存在误差,这种误差是引起预报值之间也存在误差,这种误差是引起预报值与真实值与真实值y之间误差的另一个原因。之间误差的另一个原因。 假设假设 1:身高和随机误差的不同不会对体重产生任何影响,身高和随机误差的不同不会对体重产生任何影响, 54.554.554.554.554.554.554.554.5体重/kg170155165175170157165165身高/cm8765

13、4321编号54.5kg怎样研究随机误差?怎样研究随机误差?5943616454505748体重/kg170155165175170157165165身高/cm87654321编号 假设假设2:随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上。中所有的点将完全落在回归直线上。 怎样研究随机误差?怎样研究随机误差? 因此,数据点和它在回归直线上相应位置的差异因此,数据点和它在回归直线上相应位置的差异 是随机误差的效应,是随机误差的效应,称称 为为残差残差。例如,编号为例如,编号为6的女大

14、学生,计算随机误差的效应(残差)为:的女大学生,计算随机误差的效应(残差)为:我们可以用我们可以用相关指数相关指数R2来刻画回归的效果,其计算公式是来刻画回归的效果,其计算公式是如何衡量预报的精度?如何衡量预报的精度?显然,显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。的值越大,说明残差平方和越小,也就是说模型拟合效果越好。 如果某组数据可能采取几种不同回如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比归方程进行回归分析,则可以通过比较较R2的值来做出选择,即选取的值来做出选择,即选取R2较大较大的模型作为这组数据的模型。的模型作为这组数据的模型。学以致用:学

15、以致用:1、在对两个变量,进行线性回归分析时有、在对两个变量,进行线性回归分析时有下列步骤:下列步骤:对所求出的回归方程作出解释,对所求出的回归方程作出解释,收集数据(,)收集数据(,)求线性回归方程,求线性回归方程,求相关系数,求相关系数,根据所搜集的数据绘根据所搜集的数据绘制散点图如果根据可靠性要求能够作出变量,具有线制散点图如果根据可靠性要求能够作出变量,具有线性相关结论,则在下列操作顺序中正确的是()性相关结论,则在下列操作顺序中正确的是()学以致用:学以致用:2、对于相关指数,下列说法正确的是()、对于相关指数,下列说法正确的是()、的取植越小,模型拟合效果越好、的取植越小,模型拟合

16、效果越好、的取值可以是任意大,且取值越大拟合效果越好、的取值可以是任意大,且取值越大拟合效果越好、的取值越接近,模型拟合效果越好、的取值越接近,模型拟合效果越好、以上答案都不对、以上答案都不对学以致用:学以致用:3、甲、乙、丙,丁四位同学各自对,两变量、甲、乙、丙,丁四位同学各自对,两变量的线性相关性做实验,并用回归分析方法分别求得的线性相关性做实验,并用回归分析方法分别求得相关系数相关系数r与残差平方和与残差平方和m如下表:如下表:甲甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的实验结果体现,两变量有更强的线性相关性则哪位同学的实验结果体现,两变量有更强的线性相关性甲乙丙丁甲乙丙丁学以致用:学以致用:4、 已知两个变量已知两个变量x和和y之间有线性相关性,次实之间有线性相关性,次实验得到样本如下:验得到样本如下:6.13.920y3210x()则()则y对对x的线性回归方程是的线性回归方程是()相应于各样本点的残差()相应于各样本点的残差(i=1,2,3,4)分别是,分别是,课堂总结:课堂总结:1、线性回归分析的步骤、线性回归分析的步骤2、回归模型的建立、回归模型的建立3、随机误差的研究、随机误差的研究知识小节知识小节:数学思想小结数学思想小结:1、最小二乘法思想、最小二乘法思想2、函数与方程的思想、函数与方程的思想3、数形结合、数形结合

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号