对回归分析的认识、体会和思考

上传人:pu****.1 文档编号:499016100 上传时间:2023-10-20 格式:DOCX 页数:10 大小:40.66KB
返回 下载 相关 举报
对回归分析的认识、体会和思考_第1页
第1页 / 共10页
对回归分析的认识、体会和思考_第2页
第2页 / 共10页
对回归分析的认识、体会和思考_第3页
第3页 / 共10页
对回归分析的认识、体会和思考_第4页
第4页 / 共10页
对回归分析的认识、体会和思考_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《对回归分析的认识、体会和思考》由会员分享,可在线阅读,更多相关《对回归分析的认识、体会和思考(10页珍藏版)》请在金锄头文库上搜索。

1、对回归分析的认识、体会和思考海口市第一中学 潘峰一、教材分析 1内容编排散点图、最小二乘估计的基本思想、最小二乘估计的计算公式、建立回归方程并进行预报等回 归分析的部分内容在数学 3(必修)中已经出现过。在此基础上,本章通过现实生活中遇到的 问题“女大学生身高和体重的关系”进一步讨论一元线性回归模型,分析产生模型中随机误差项的 原因,并从相关系数的角度研究了两个变量间线性相关关系的强弱,从而让学生了解在什么情况下 可以考虑使用线性回归模型。教材介绍了一元线性回归模型的残差平方和分解的思想,从而给出相 关指数的含义,即相关指数越大,模型拟合的效果越好。从残差分析的角度研究所选用的回归模型 是否合

2、适,引导学生初步体会检验模型的思想。为提高学生解决应用问题的能力,教材还强调了用 解释变量(自变量)估计预报变量(因变量)时需要注意的问题(这点总结得非常的好,帮助学生 思考),总结建立回归模型的基本步骤。作为线性回归模型的一个应用,教材还给出了一个处理非 线性相关关系的例子,并通过相关指数比较不同模型对同一样本数据集的拟合效果。这里所涉及的 非线性相关关系可以通过变换转化成线性相关关系,从而可以用线性回归模型进行研究。这个例子 没有增加难度,但能开阔学生的思路,使学生了解虽然任何数据对都可以用线性回归模型来拟合, 但其拟合的效果并不一定最好,可以探讨用其他形式的回归模型来拟合观测数据。2学习

3、价值:(1).数理统计已成为人们的常识,它几乎渗透到每一学科中,哪里有试验,哪里有数据,哪里就少 不了数理统计,不懂数理统计,就无法应付大量信息;.现代社会是信息社会,学会搜集、测量、评价信息做出决策是一个人成功必备的素质。3. 教材处理的优点:1. 总以一些生动活泼的、丰富的实际情境引入,激发学生的兴趣和学习激情;.以恰时恰点的问题引导学生思考,培养问题意识,孕育创新精神;(这点对我们教师的思考也是 一种帮助).螺旋上升地安排核心概念和数学思想,加强数学思想方法的渗透与概括;.对高等知识点到即止,强调类比、推广、特殊化、化归等思想方法的运用,开阔视野,提高数 学思维能力,培育理性精神。4.

4、重点和难点重点:了解线性回归模型与函数模型的差异;了解判断刻画模型拟合效果的方法相关指数和 残差分析。难点:解释残差变量的含义;了解偏差平方和分解的思想。5目标定位:(1).了解随机误差、残差、残差分析等概念;明确掌握相关关系,回归方程,散点图等定义;.了解回归分析的基本思想,会求回归直线方程,并会用回归直线方程进行预报;掌握建立回归模型的一般步骤;.会用残差分析、判断线性回归模型的拟合效果;.了解相关系数、会用相关系数判断相关关系的强弱;5. 方法指引:1.对于回归分析只通过案例了解方法即可,不论是线性回归方程或者非线性回归方程,都只是模 拟而已,是不确定中的确定性;.了解最小乘法的思想方法

5、,理解回归方程与一般函数的差别与联系;.会用书中介绍的方法搜集资料、分析资料,感兴趣的同学可从互联网上查询相关资料。二、教材中的要点精析:1. 相关关系:自然界中,大量存在着一些变量,它们之间相互联系、相互依存,关系密切。大致 分为两类:一类是函数关系,又叫确定性关系;一类是相关关系,又叫不确定性关系、统计相关关 系。2. 回归分析:是对具有相关关系的两变量进行统计分析的一种常用方法。通俗地讲,回归分析就 是寻找相关关系中非确定性关系的某种确定性。其步骤为画散点图,求回归直线方程,并用回归直 线方程进行预报。3. 回归函数,也叫回归方程。形如y = bx + a的散点图的各个点大致分布在一条直

6、线附近,这种 分析就叫线性回归分析,直线方程叫做回归直线方程。不是形如y = bx + a的回归方程,我们称之 为非线性回归方程,具体选择何种类型,由经验判断,再分析残差是否异常,确定选择的好与坏。 回归直线:对于一组线性相关关系的数据,其回归直线方程的斜率b和截距a的最小乘法估计公式 分别为:(x - x)(y - y)b = i,(1)a = y - bx,(2)乙(X - X)2ii=1其中X = 工X , y = 工y . (X, y)称为样本点的中心,回归直线过样本点的中心。ninii =1i=1线性回归模型:与函数关系不同,在回归模型y = bx + a + e中的y的值是由x和随

7、机因素e共同确 定的,即x只能解释部分y的变化,因此把x称为解释变量,把y称为预报变量,其中a和b为模型 的未知参数,e是y与bx + a之间的误差。通常e为随机变量,称为随机误差,它的均值Ey = bx + a。 线性回归模型的完整表达式为:y = bx + a + e,其中随机误差e的方差越小,通过回归直线预报 真实值的精确度越高。随机误差e是引起预报值y与真实值y之间误差的原因之一,其大小取决于 随机误差e的方差。再者由于公式(1)、(2)中的a和b分别为截距和斜率的估计值,与真实值a和b 之间也有误差,这也是引起预报值y与真实值y之间误差的另一个原因。4 残差分析因为随机误差是随机变量

8、,因此可以通过这个变量的数字特征来刻画它的一些总体特征。均值是反 映随机变量取值平均水平的数字特征,方差反映随机变量集中于均值程度的数字特征,而随机误差 的均值0,因此可以用方差来衡量随机误差的大小。为了衡量预报的精度,需要估计e的值,通过i样本方差来估计总体方差。解决问题的途径是通过样本的估计值&来估计e的值。ii根据截距和斜率的估计公式(1)、(2),可以建立回归方程y = bx + a,其中b是b的估计量,a是 a的估计量。对于样本点而言,相应于它们的随机误差为e,其估计值为&,称为相应于数据点ii的残差。类比样本方差估计总体方差的思想,可用9作为y的估计量,其中9是由公式(1)、(2)

9、iii给出的,工(y -9 )2成为残差平方和。可以用残差平方和衡量回归方程的预报精度。通常残差平iii=1方和越小,预报精度越高。在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回 归模型来拟合数据。然后,可以通过残差&,来判断模型拟合的效果,判断原始数据中是否12n存在可疑数据,这方面的分析工作称为残差分析。利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重 估计等,这样作出的图形称为残差图。5散点图表示相关关系的两个变量的一组数据,作为点的坐标,在直角坐标系中描出来得到的图形叫散点图。 散点图使相关关系具有直观性。6

10、回归分析的解题规律:a)在解具体问题过程中,通常是先进行相关检验,通过检验确认两个变量具有线性相关关系时,再 求其线性回归方程;b)相关性检验有几种方法,教材用的是相关系数r和相关指数R2,两者在教材中具有平方关系(在 只有一个解释变量的线性模型中R2恰好等于相关系数r的平方)。当r 0时,表明两个变量正相关; 当r 0时,表明两个变量负相关。当r越接近于1表示相关程度越好,表明两个变量的线性相关 性越强,r越接近于0,表示相关程度越差,表明两个变量之间几乎不存在线性相关关系;同样R2取 值越大,意味着残差平方和越小,模型的拟和效果越好,回归方程的预报精度越高。在线性回归模 型中,R2表示解释

11、变量对于预报变量变化的贡献率,R2越接近1表示回归的效果越好。c)相关程度的强弱,除相关系数的大小之外,与选取的数据个数多少有关,还有一个问题是显著性临界值的选取,教材中点到即止,没有往下交待;d)回归分析计算量大,现在一般用计算机解决,学习中只要求明白原理即可;e)教材中直接选取对数变换是选取比较简单的函数演示而已,还可以做其他函数模拟;f)回归分析中,通常先观察散点图,若分布在一条直线附近,经验证线性相关,则选一次函数,否 则选取其他函数模拟;g)判断两个变量的相关程度通常有:其一相关系数,相关系数r的绝对值越接近于1相关程度越 高;相关指数R2,与r类似,R2的值越大残差平方和越小,拟合

12、越精确。h)判断模拟精确的尺度为:R2 (或残差平方和)的大小。7建立回归模型的一般的基本步骤: 确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; 画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等); 由经验确定回归方程的类型(如观察到的数据呈现性关系,则选用线性回归方程y = bx + a ); 按一定规则估计回归方程中的参数(如最小二乘法); 得出的结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等 等),若存在异常,则检查数据是否有误,或模型是否合适等。典型例题例1已知10只狗的血球体积及红血球的测量值如下x 45424

13、648423558403950y6.536.309.257.506.995.909.496.206.557.72x (血球体积,mm), y (红血球数,百万)画出上表的散点图;(2)求出回归直线并且画出图形(3)若血球体积为49mm,预测红血球数大 约是多少?解:(1)见下图(要学会运用计算机技术辅助我们数学学习,加强直观上的效果,这里要求学生会 运用简单的excel作出散点图,并直接通过计算机拟合出回归直线,具体步骤见本文最后的附录)。数球血红010203040506070血球体积设回归直线为y = bx + a,利用公式(1)、(2)计算得b = 0.1597,a = 0.1364所以所

14、求回归直线的方程为y = 0.1597x + 0.1364,图形如下:数球血红2044血球体积(3)由(2)中求出的回归直线方程,把x二49代入,得y = 7.9617 (百万),计算结果表明,当血球体积为 49mm 时,红血球数大约为7.9617 百万。实战演练1.某种产品表面进行腐蚀性试验,得到腐蚀深度y与腐蚀时间t之间对应的一组数据:时间 t (s)5101520304050607090120深度 y (卩 m)610101316171923252946(1)试求腐蚀深度y对时间t的回归直线方程;(2)预测腐蚀时间为80 s时产品腐蚀的深度大约是多少?解: (1)经计算可得b = 0.3

15、043,a = 5.3444故所求的回归直线方程为 y = 0.3043x + 5.3444(2)由(1)求出的回归直线方程,把x = 80代入,易得y = 29.6884(卩m),计算结果表明,当腐蚀80 s时产品腐蚀深度大约为29.6884卩m8非线性回归:在散点图中样本点并没有分布在某个带壮区域内,因此两个变量不呈线性相关关系,不能直接用线 性回归方程来建立两个变量之间的关系。当回归方程不是形如y = bx + a时,称之为非线性回归方 程。 在一般情况下,比较两个模型的残差比较困难,原因是在某些样本点上一个模型的残差的绝对 值比另一个模型的小,而另一些样本点的情况则相反。这是可以通过比较两个模型的残差平方和的 大小来判断模型的拟合效果。残差平方和越小的模型,拟合的效果越好。两个模型拟合效果的比较步骤: 对于给定的样本点,两个含有未知参数的模型y二cec2和y二c x2 + c1 3 4其中 c ,c ,c ,c 是未知参数。1234可按如下步骤来比较它们的拟合效果:AA, , 分别建立对应与两个模型的回归

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号