【数学】311回归分析的基本思想及其初步应用(1)

上传人:m**** 文档编号:569986647 上传时间:2024-08-01 格式:PPT 页数:39 大小:1.16MB
返回 下载 相关 举报
【数学】311回归分析的基本思想及其初步应用(1)_第1页
第1页 / 共39页
【数学】311回归分析的基本思想及其初步应用(1)_第2页
第2页 / 共39页
【数学】311回归分析的基本思想及其初步应用(1)_第3页
第3页 / 共39页
【数学】311回归分析的基本思想及其初步应用(1)_第4页
第4页 / 共39页
【数学】311回归分析的基本思想及其初步应用(1)_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《【数学】311回归分析的基本思想及其初步应用(1)》由会员分享,可在线阅读,更多相关《【数学】311回归分析的基本思想及其初步应用(1)(39页珍藏版)》请在金锄头文库上搜索。

1、3.1回归分析的基回归分析的基本思想及其初步本思想及其初步应用(一)应用(一)高二数学高二数学 选修选修2-3必修必修3(3(第二章第二章 统计统计) )知识结构知识结构 收集数据收集数据 ( (随机抽样随机抽样) )整理、分析数据整理、分析数据估计、推断估计、推断简简单单随随机机抽抽样样分分层层抽抽样样系系统统抽抽样样用样本估计总体用样本估计总体变量间的相关关系变量间的相关关系 用样本用样本的频率的频率分布估分布估计总体计总体分布分布 用样本用样本数字特数字特征估计征估计总体数总体数字特征字特征线线性性回回归归分分析析统计的基本思想统计的基本思想实际实际样本样本模模 拟拟抽抽 样样分分 析析

2、问题问题1 1:正方形的面积正方形的面积y y与正方形的边长与正方形的边长x x之间之间 的的函数关系函数关系是是y = xy = x2 2确定性关系确定性关系问题问题2 2:某水田水稻产量某水田水稻产量y y与施肥量与施肥量x x之间是否之间是否 -有一个确定性的关系?有一个确定性的关系?例如:例如:在在 7 7 块并排、形状大小相同的试验田块并排、形状大小相同的试验田上上 进行施肥量对水稻产量影响的试验,得到进行施肥量对水稻产量影响的试验,得到如下所示的一组数据:如下所示的一组数据:施施化肥量化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45水

3、稻产量水稻产量y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455复习、变量之间的两种关系复习、变量之间的两种关系自变量取值一定时,因变量的取值带有一定随自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做机性的两个变量之间的关系叫做相关关系相关关系。1 1、定义:、定义: 1 1) 相关关系是一种不确定性关系;相关关系是一种不确定性关系;注注对具有相关关系的两个变量进行对具有相关关系的两个变量进行统计分析的方法叫统计分析的方法叫回归分析回归分析。2 2) 2 2、现实生活中存在着大量的相关关系。现实生活中存在着

4、大量的相关关系。 如:人的身高与年龄;如:人的身高与年龄; 产品的成本与生产数量;产品的成本与生产数量; 商品的销售额与广告费;商品的销售额与广告费; 家庭的支出与收入。等等家庭的支出与收入。等等探索:水稻产量探索:水稻产量y y与施肥量与施肥量x x之间大致有何之间大致有何规律?规律?10 20 30 40 5010 20 30 40 50500500450450400400350350300300发现:图中各点,大致分布在某条直线附近。发现:图中各点,大致分布在某条直线附近。探索探索2 2:在这些点附近可画直线不止一条,:在这些点附近可画直线不止一条, 哪条直线最能代表哪条直线最能代表x

5、x与与y y之间的关系呢?之间的关系呢?x xy y施施化肥量化肥量水稻产量水稻产量施施化肥量化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45水稻产量水稻产量y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455散点图散点图10 20 30 40 50500450400350300 xy施施化肥量化肥量水稻产量水稻产量oxy易知,截距易知,截距 和斜率和斜率 分别是使分别是使取最小值时取最小值时 的值。的值。假设我们已经得到两个具有相关关系的变量的一组数据假设我们已经得到两个具有相关

6、关系的变量的一组数据 且回归方程是:且回归方程是:其中,其中, 是待定参数。当变量是待定参数。当变量x取取 时时 它与实际收集到的它与实际收集到的 之间的偏差是之间的偏差是最小二乘法:最小二乘法:称为样本点的中心称为样本点的中心。3 3、对、对两个两个变量进行的线性分析叫做变量进行的线性分析叫做线性线性回归分析回归分析。2 2、回归直线方程、回归直线方程:2.2.相应的直线叫做相应的直线叫做回归直线回归直线。1 1、所求直线方程、所求直线方程 叫做叫做回归直回归直 -线方程线方程;其中;其中相关系数相关系数 1.1.计算公式计算公式2 2相关系数的性质相关系数的性质(1)|r|1(1)|r|1

7、(2)|r|(2)|r|越接近于越接近于1 1,相关程度越大;,相关程度越大;|r|r|越接越接近于近于0 0,相关程度越小,相关程度越小问题:达到怎样程度,问题:达到怎样程度,x x、y y线性相关呢?它线性相关呢?它们的相关程度怎样呢?们的相关程度怎样呢?正相关正相关负相关负相关相关系数相关系数正相关;负相关通常,正相关;负相关通常, r r-1,-0.75-0.75-负相关很强负相关很强; ; r0.75,1正相关很强正相关很强; r-0.75,-0.3-负相关一般负相关一般; ; r0.3, 0.75正相关一般正相关一般; r r-0.25, 0.25-0.25-相关性较相关性较弱弱;

8、 ; 10 20 30 40 5010 20 30 40 50500500450450400400350350300300xy施施化肥量化肥量水稻产量水稻产量施施化肥量化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45水稻产量水稻产量y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455解解: 1.画出散点图画出散点图3.写出回归方程写出回归方程4.计算相关系数计算相关系数2.求出求出某大学中随机选取某大学中随机选取8名女大学生,其身高和体重数据名女大学生,其身高和体重数据如下表所示如

9、下表所示.编号编号1 12 23 34 45 56 67 78 8身高身高/cm/cm165165165165157157170170175175165165155155170170体重体重/kg/kg48485757505054546464616143435959求根据女大学生的身高预报体重的回归方程,并预报求根据女大学生的身高预报体重的回归方程,并预报一名身高为一名身高为172cm的女大学生的体重的女大学生的体重.分析:由于问题中分析:由于问题中要求根据身高预报要求根据身高预报体重,因此选取身体重,因此选取身高为自变量,体重高为自变量,体重为因变量为因变量1. 散点图;散点图;样本点呈条状

10、分布,身高和体重有较好的线性相关关样本点呈条状分布,身高和体重有较好的线性相关关系,因此可以用回归方程来近似的刻画它们之间的关系,因此可以用回归方程来近似的刻画它们之间的关系系.由由得:得:故所求回归方程为:故所求回归方程为:因此,对于身高因此,对于身高172cm的女大学生,由回归方程可以的女大学生,由回归方程可以预报其体重为:预报其体重为:是斜率的估计值,说明身高是斜率的估计值,说明身高x每增加每增加1个单个单位时,体重位时,体重y就增加就增加0.849个单位,这表明个单位,这表明体重与身高具有正的线性相关关系体重与身高具有正的线性相关关系.如何描述它们之间线性相关关系的强弱?如何描述它们之

11、间线性相关关系的强弱?相关系数相关系数相关系数的性质相关系数的性质(1)|r|1(1)|r|1(2)|r|(2)|r|越接近于越接近于1 1,相关程度越强;,相关程度越强;|r|r|越接近于越接近于0 0,相关程度越弱相关程度越弱注注:b :b 与与 r r 同号同号问题:达到怎样程度,问题:达到怎样程度,x x、y y线性相关呢?它们的相线性相关呢?它们的相关程度怎样呢?关程度怎样呢?相关系数相关系数正相关;负相关通常,正相关;负相关通常,r0.75,认为两个变量有很强的相关性认为两个变量有很强的相关性本例中本例中,由上面公式由上面公式r=0.7980.75某大学中随机选取某大学中随机选取8

12、名女大学生,其身高和体重数据名女大学生,其身高和体重数据如下表所示如下表所示.编号编号1 12 23 34 45 56 67 78 8身高身高/cm/cm165165165165157157170170175175165165155155170170体重体重/kg/kg48485757505054546464616143435959求根据女大学生的身高预报体重的回归方程,并预报求根据女大学生的身高预报体重的回归方程,并预报一名身高为一名身高为172cm的女大学生的体重的女大学生的体重.故所求回归方程为:故所求回归方程为:r=0.798表明体重与身高有很强的线性相关性,从表明体重与身高有很强的线

13、性相关性,从而说明我们建立的回归模型是有意义的而说明我们建立的回归模型是有意义的.认为她的平均体重的估计值是认为她的平均体重的估计值是60.316kg.因为所有的样本点不共线,所以线性函数模型只能近因为所有的样本点不共线,所以线性函数模型只能近似地刻画身高和体重之间的关系,即:体重不仅受身似地刻画身高和体重之间的关系,即:体重不仅受身高的影响,还受其他因素的影响,把这种影响的结果高的影响,还受其他因素的影响,把这种影响的结果用用e来表示,从而把线性函数模型修改为线性回归模来表示,从而把线性函数模型修改为线性回归模型:型:y=bx+a+e.其中,其中,e包含体重不能由身高的线包含体重不能由身高的

14、线性函数解释的所有部分性函数解释的所有部分.线性回归模型线性回归模型其中其中a a和和b b为模型的未知参数,为模型的未知参数,e e是是y y与与之间的误差,通常之间的误差,通常e e为随机变量为随机变量,称为,称为随机误差随机误差. .均值均值E(e)=0,方差,方差D(e)=20线性回归模型的完整表达式为:线性回归模型的完整表达式为:线性回归模型适用范围比一次函数的适用范围大得多线性回归模型适用范围比一次函数的适用范围大得多.当随机误差当随机误差e恒等于恒等于0时,线性回归模型就变成一次函时,线性回归模型就变成一次函数模型数模型.即:一次函数模型是线性回归模型的特殊形式,即:一次函数模型

15、是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式线性回归模型是一次函数模型的一般形式.随机误差是引起预报值随机误差是引起预报值 与真实值与真实值y之间的误差的原因之间的误差的原因之一,其大小取决于随机误差的方差之一,其大小取决于随机误差的方差. 和和 为截距和斜率的估计值,它们与真实值为截距和斜率的估计值,它们与真实值a和和b之间之间存在误差是引起预报值存在误差是引起预报值 与真实值与真实值y之间的误差的另一之间的误差的另一个原因个原因.随机误差随机误差e的主要来源:的主要来源:(1)用线性回归模型近似真实模型用线性回归模型近似真实模型(真实模型是客观存(真实模型是客观存在的,但

16、我们并不知道到底是什么)在的,但我们并不知道到底是什么)所引起的误差所引起的误差.可能可能存在非线性的函数能更好的描述存在非线性的函数能更好的描述y与与x之间的关系,但我之间的关系,但我们现在却用线性函数来表述这种关系,结果就产生误差,们现在却用线性函数来表述这种关系,结果就产生误差,这种由于模型近似所引起的误差包含在这种由于模型近似所引起的误差包含在e中中.(2)忽略了某些因素的影响忽略了某些因素的影响.影响变量影响变量y的因素不止的因素不止变量变量x一个,可能还有其他因素,但通常它们每一个一个,可能还有其他因素,但通常它们每一个因素的影响可能都比较小,它们的影响都体现在因素的影响可能都比较

17、小,它们的影响都体现在e中中.(3)观测误差观测误差.由于测量工具等原因,得到的由于测量工具等原因,得到的y的观测的观测值一般是有误差的,这样的误差也包含在值一般是有误差的,这样的误差也包含在e中中.以上三项误差越小,则回归模型的拟合效果越好以上三项误差越小,则回归模型的拟合效果越好.在线性回归模型中,在线性回归模型中,e是用是用 预报真实值预报真实值y的误差,它的误差,它是一个不可观测的量,那么该怎样研究随机误差,如是一个不可观测的量,那么该怎样研究随机误差,如何衡量预报的精度?何衡量预报的精度?由于随机误差由于随机误差e的均值为的均值为0,故采用方差,故采用方差 来衡量随机来衡量随机误差的

18、大小误差的大小.随机误差随机误差e的估计量的估计量样本点:样本点:相应的随机误差为:相应的随机误差为:随机误差的估计值为:随机误差的估计值为:称为相应于点称为相应于点 的的残差残差.的估计量的估计量为为称为称为残差平方和残差平方和.残差分析残差分析在研究两个变量间的关系时,首先要根据散点图来粗在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否是线性相关,是否可以用线性回归模略判断它们是否是线性相关,是否可以用线性回归模型来拟合数据型来拟合数据.然后,可以通过残差然后,可以通过残差 来判来判断模型拟合的效果,判断原始数据中是否存在可疑数断模型拟合的效果,判断原始数据中是否存在可疑数据据

19、.这方面的分析工作称为残差分析这方面的分析工作称为残差分析.0.3820.382-2.883-2.8836.6276.6271.1371.137-4.618-4.6182.4192.4192.6272.627-6.373-6.373残差残差59594343616164645454505057574848体重体重/kg/kg170170155155165165175175170170157157165165165165身高身高/cm/cm8 87 76 65 54 43 32 21 1编号编号下表为女大学生身高和体重的原始数据以及相应的残下表为女大学生身高和体重的原始数据以及相应的残差数据:差数

20、据: e以纵坐标为残差,横坐标为编号,作出图形(以纵坐标为残差,横坐标为编号,作出图形(残差图残差图)来分析残差特性来分析残差特性.由图可知,第由图可知,第1个样本点和第个样本点和第6个样本点的残差比较大,个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的需要确认在采集这两个样本点的过程中是否有人为的错误错误.如果数据采集有错误,就予以纠正,然后重新利如果数据采集有错误,就予以纠正,然后重新利用线性回归模型拟合数据用线性回归模型拟合数据;如果数据采集没有错误,如果数据采集没有错误,则需要寻找其他原因则需要寻找其他原因.如何刻画模型拟合的精度?如何刻画模型拟合的精度?相关指数:

21、相关指数:在含有一个解释变量的线性模型中,在含有一个解释变量的线性模型中,R2恰好等于相关恰好等于相关系数系数r的平方的平方.R2取值越大,则残差平方和越小,即模型的拟合效果取值越大,则残差平方和越小,即模型的拟合效果越好越好.R2=0.64,表明:,表明:“女大学生的身高解释了女大学生的身高解释了64的体的体重变化重变化”,或者说,或者说“女大学生的体重差异有女大学生的体重差异有64是是由身高引起的由身高引起的”.建立回归模型的基本步骤:建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量个变量是预报变量;(2)画出

22、确定好的解释变量和预报变量的散点图,)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在线性关系);观察它们之间的关系(是否存在线性关系);(3)由经验确定回归方程的类型(如观察到数据呈线)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程性关系,则选用线性回归方程y=bx+a););(4)按一定规则估计回归方程中的参数(如最小二)按一定规则估计回归方程中的参数(如最小二乘法);乘法);(5)得出结果后分析残差图是否异常(个别数据对)得出结果后分析残差图是否异常(个别数据对应残差过大,或残差呈现不随机的规律性等),若存应残差过大,或残差呈现不随机的规律性等)

23、,若存在异常,则检查数据是否有误,或模型是否合适等在异常,则检查数据是否有误,或模型是否合适等.一只红铃虫的产卵数一只红铃虫的产卵数y和温度和温度x有关,现收集了有关,现收集了7组观组观测数据列于下表,试建立测数据列于下表,试建立y与与x之间的回归方程之间的回归方程.32532511511566662424212111117 7产卵数产卵数y/y/个个3535323229292727252523232121温度温度x/x/0 0C C解:收集数据作散点图:解:收集数据作散点图:在散点图中,样本点没有分布在某个带状区域内,在散点图中,样本点没有分布在某个带状区域内,因此两个变量不呈现线性相关关系

24、,所以不能直接因此两个变量不呈现线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系利用线性回归方程来建立两个变量之间的关系.根据已有的函数知识,可以发现样本点分布在某一条根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线指数函数曲线 的周围,其中的周围,其中c1和和c2是待定是待定参数参数.令令z=lny,则变换后样本点应该分布在直线,则变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2)的周围)的周围.利用线性回归模型建立利用线性回归模型建立y和和x之间的非线性回归方程之间的非线性回归方程.当回归方程不是形如当回归方程不是形如y=bx+a时,我们称之为时,

25、我们称之为非线性回非线性回归方程归方程.5.7844.7454.1903.1783.0452.3981.946z35322927252321X所得线性回归方程为:所得线性回归方程为:a=lnc1,b=c2所以红铃虫的产卵数对温度的非线性回归方程为:所以红铃虫的产卵数对温度的非线性回归方程为:若看成样本点集中在某二次曲线若看成样本点集中在某二次曲线y=c3x2+c4的附近的附近.作变换作变换t=x2,建立,建立y与与t之间的线性回归方程:之间的线性回归方程:y=c3t+c4.325115662421117y12251024841729625529441ty关于关于x的二次回归方程为:的二次回归方

26、程为:利用残差计算公式:利用残差计算公式:77.968-58.265-40.104-41.000-5.83219.40047.69634.675-13.3819.230-8.9501.875-0.1010.557325115662421117Y35322927252321X由残差平方和:由残差平方和:故指数函数模型的拟合效果比二次函数的模拟效果好故指数函数模型的拟合效果比二次函数的模拟效果好.或由条件或由条件R2分别为分别为0.98和和0.80,同样可得它们的效果,同样可得它们的效果.给定样本点:给定样本点:两个含有未知参数(两个含有未知参数(a、b为未知参数)的模型:为未知参数)的模型:如何比较它们的拟合效果:如何比较它们的拟合效果:(1)分别建立对应于两个模型的回归方程)分别建立对应于两个模型的回归方程分别是参数分别是参数a和和b的估计值的估计值.(2)分别计算两个回归方程的残差平方和)分别计算两个回归方程的残差平方和(3)若)若 ,则,则 的拟合效果好;的拟合效果好;反之,反之, 的拟合效果好的拟合效果好.

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号