《高三数学线性回归分析》由会员分享,可在线阅读,更多相关《高三数学线性回归分析(30页珍藏版)》请在金锄头文库上搜索。
1、线性回归问题问题1:正方形的面积:正方形的面积y与正方形的边长与正方形的边长x之间之间 的的函数关系函数关系是是y = x2确定性关系确定性关系问题问题2:某水田水稻产量:某水田水稻产量y与施肥量与施肥量x之间是之间是 否有一个确定性的关系?否有一个确定性的关系?例如:在例如:在7块并排、形状大小相同的试验田块并排、形状大小相同的试验田 上进行施肥量对水稻产量影响的试验,上进行施肥量对水稻产量影响的试验, 得到如下所示的一组数据:得到如下所示的一组数据:施化肥量施化肥量x 15 20 25 30 35 40 45水稻产量水稻产量y 330 345 365 405 445 450 455一、线性
2、回归分析一、线性回归分析当施肥量当施肥量x一定时,水稻产量一定时,水稻产量y的值带有一定的随机性的值带有一定的随机性 自变量取值一定时,因变量的取值带有一自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做定随机性的两个变量之间的关系叫做相关关系相关关系。1、定义、定义: 1):相关关系是一种):相关关系是一种不确定性不确定性关系;关系;注注对具有相关关系的两个变量进行对具有相关关系的两个变量进行统计分析的方法叫统计分析的方法叫回归分析回归分析。2):):相关关系相关关系函数关系函数关系相同点相同点不同点不同点均是指两个变量的关系均是指两个变量的关系 非确定关系非确定关系 非随
3、机变量与随机变量的关系非随机变量与随机变量的关系确定的关系确定的关系两个非随机变量的关系两个非随机变量的关系二、二、现实生活中存在着大量的相关关系。现实生活中存在着大量的相关关系。 如:人的身高与年龄;如:人的身高与年龄; 产品的成本与生产数量;产品的成本与生产数量; 商品的销售额与广告费;商品的销售额与广告费; 家庭的支出与收入。家庭的支出与收入。等等等等三三、回归分析回归分析实质实质:通俗地讲,通俗地讲,回归分析回归分析是寻找是寻找相关关系中非确定性关系的某种确定性。相关关系中非确定性关系的某种确定性。定义定义:对具有相关关系的两个变量对具有相关关系的两个变量进行统计分析的方法进行统计分析
4、的方法。施化肥量x1515202025253030353540404545水稻产量y330330345345365365405405445445450450455455例例1 1:在在7块并排、形状大小相同的试验田上块并排、形状大小相同的试验田上进行施化肥量对水稻产量影响的试验,得到进行施化肥量对水稻产量影响的试验,得到如下表所示的一组数据如下表所示的一组数据(单位:单位:kg) :2.散点图:散点图:(1)定义:)定义:表示具有相关关系的两个变量的表示具有相关关系的两个变量的 一组数据的图形一组数据的图形。(2)作用:)作用:形象反映各对数据的密切程度。形象反映各对数据的密切程度。XYO3、
5、观察散点图的特征、观察散点图的特征 发现各点大致分布在一条直线的附近。发现各点大致分布在一条直线的附近。 XYO哪一条最能代表变量哪一条最能代表变量X与与Y之间的关系呢?之间的关系呢?这样的直线这样的直线可以画多少可以画多少条呢?条呢?其中其中 是待确定的参数,于是,当变是待确定的参数,于是,当变量量x 取一组数值取一组数值 时,相应地时,相应地4、一般地,设一般地,设x与与y是具有相关关系的两个是具有相关关系的两个变量,且相应于变量,且相应于n个观测值的个观测值的n个点大致分布个点大致分布在一条直线的附近,我们来求在整体上与这在一条直线的附近,我们来求在整体上与这n个点个点最接近最接近的的一
6、条直线一条直线。(1)设所求的直线的方程是)设所求的直线的方程是:(2 2)各个偏差:)各个偏差:的符号有正有负,相加会相互抵消。的符号有正有负,相加会相互抵消。的和的和不能不能代表代表n个点与相应直线在个点与相应直线在整体上的接近程度整体上的接近程度。用用Q来表示来表示n个点与相应直线在整体上个点与相应直线在整体上的的接近程度接近程度。即:即:(3)各偏差的平方和:)各偏差的平方和:(4)求出使)求出使Q为最小值时的为最小值时的a、b的值的值:其中其中将所得到的方程将所得到的方程 叫做叫做回归直线方程回归直线方程,相应的直线叫做相应的直线叫做回归直线回归直线。 对两个变量所进行的对两个变量所
7、进行的上述统计分析叫做上述统计分析叫做线性回归分析线性回归分析。i1234567平均平均值值xi1520253035404530yi330345365405445450 455399.3xi yi4950 6900 912512150155751800020475解:由题意,列出如下所示表格。解:由题意,列出如下所示表格。因此所求回归直线方程是:因此所求回归直线方程是:由上表所可知:由上表所可知: 自变量取值一定时,因变量的取值带有一自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做定随机性的两个变量之间的关系叫做相关关系相关关系。1、定义、定义: 1):相关关系是一种):相
8、关关系是一种不确定性不确定性关系;关系;注注对具有相关关系的两个变量进行对具有相关关系的两个变量进行统计分析的方法叫统计分析的方法叫回归分析回归分析。2):):相关关系相关关系函数关系函数关系相同点相同点不同点不同点均是指两个变量的关系均是指两个变量的关系 非确定关系非确定关系 非随机变量与随机变量的关系非随机变量与随机变量的关系确定的关系确定的关系两个非随机变量的关系两个非随机变量的关系施化肥量x1515202025253030353540404545水稻产量y330330345345365365405405445445450450455455例例1 1:在在7块并排、形状大小相同的试验田上
9、块并排、形状大小相同的试验田上进行施化肥量对水稻产量影响的试验,得到进行施化肥量对水稻产量影响的试验,得到如下表所示的一组数据如下表所示的一组数据(单位:单位:kg) :用用Q来表示来表示n个点与相应直线在整体上个点与相应直线在整体上的的接近程度接近程度。即:即:(3)各偏差的平方和:)各偏差的平方和:因此所求回归直线方程是:因此所求回归直线方程是:由上表所可知:由上表所可知:(5)回归直线方程的用途:)回归直线方程的用途: 可以利用它求出相应于可以利用它求出相应于x的估计值。的估计值。 例如:当例如:当x=28kg时,时,y的估计值是多少呢的估计值是多少呢?五五、如下图是一组观测值的散点图如
10、下图是一组观测值的散点图:O XY按照上述方法,同样可同样可以就这组数据求得一以就这组数据求得一个回归直线方程,个回归直线方程,这这显然显然毫无意义。毫无意义。任给出一组数据能任给出一组数据能否由此求出它的线否由此求出它的线形形回归方程?回归方程?想一想?想一想? 所求得的回归直线方程,在什么情况所求得的回归直线方程,在什么情况下才能对相应的一组数据观测值具有下才能对相应的一组数据观测值具有代表代表意义意义呢?呢?6、相关检验、相关检验:(1)样本相关)样本相关系数(相关系数)系数(相关系数)(2)相关系数的范围:)相关系数的范围: |r| 1(3)相关系数的作用:衡量两变量之间的)相关系数的
11、作用:衡量两变量之间的线形线形相关程度相关程度。若若|r|越接近于越接近于1,相关程度越大;,相关程度越大;若若|r|越接近于越接近于0,相关程度越小。,相关程度越小。例例2 2、利用利用r r的计算公式来计算例的计算公式来计算例1 1中水稻中水稻产量与施化肥的相关系数。产量与施化肥的相关系数。解:由解:由得到相关系数得到相关系数7.显著性检验的一般步骤:显著性检验的一般步骤:、在附表在附表3 3中查出与显著性水平中查出与显著性水平0.050.05与自由与自由度度n-2n-2(n n为观测值组数)相应的相关系数临界为观测值组数)相应的相关系数临界值值 . .( (显著性水平显著性水平0.050
12、.05是一个作为发生小概是一个作为发生小概率事件的临界值,率事件的临界值,0.90.9,0.990.99以及上一节中用到以及上一节中用到的的0.9970.997等也都是常用的显著性水平。)等也都是常用的显著性水平。)设待检验的设待检验的统计统计假设是两个变量假设是两个变量不具有不具有相关关系。相关关系。、根据公式求出相关系数根据公式求出相关系数r r的值。的值。 、检验所得结果。检验所得结果。 如果如果|r| ,那么可以认为那么可以认为y与与x之间之间的线形关系不显著,从而接受统计假设。的线形关系不显著,从而接受统计假设。 如果如果|r| ,表明一个发生的概率表明一个发生的概率不到不到5%的事
13、件在一次试验中竟发生了。这的事件在一次试验中竟发生了。这个小概率事件的发生使我们有理由认为个小概率事件的发生使我们有理由认为y与与x之间不具有线形相关关系的假设是不成立之间不具有线形相关关系的假设是不成立的,从而拒绝这一统计假设,也就是表明的,从而拒绝这一统计假设,也就是表明可以认为可以认为y与与x之间具有线性相关关系之间具有线性相关关系。例例3、按照上面的步骤,我们来检验例按照上面的步骤,我们来检验例1中水稻中水稻产量与施化肥量之间是否存在线性相关关系。产量与施化肥量之间是否存在线性相关关系。第第1步:步:在附表在附表3中查出与显著性水平中查出与显著性水平0.05和自由和自由度度7-2相应的
14、相关关系数临界值相应的相关关系数临界值 。第第2步:步:刚刚我们已经算出刚刚我们已经算出第第3步:步:因为因为 ,这说明水稻产量与,这说明水稻产量与施化肥量之间存在着线性相关关系。施化肥量之间存在着线性相关关系。从此也可以表明,前面我们求得的这两个变量之间的回归直线方程是有效、有意义的。课时小结:课时小结:2、共同探讨了已知各对数据如何求回归、共同探讨了已知各对数据如何求回归直线方程。其推导方法是利用配方法;直线方程。其推导方法是利用配方法;3、另外通过本节课的学习,我们看到,另外通过本节课的学习,我们看到,由部分观测值得到的回归直线,可以对由部分观测值得到的回归直线,可以对两个变量间的线形相
15、关关系进行估计;两个变量间的线形相关关系进行估计;1、本节课我们学习了线形回归的几个、本节课我们学习了线形回归的几个基本概念:两个变量之间的相关关系,基本概念:两个变量之间的相关关系,回归分析,散点图,回归直线方程,回回归分析,散点图,回归直线方程,回归直线,线性回归分析;归直线,线性回归分析;4、函数关系是一种理想的关系模型,而函数关系是一种理想的关系模型,而相关关系是一种更一般的情况。相关关系是一种更一般的情况。5、通常,在尚未确定两个变量之间是否具通常,在尚未确定两个变量之间是否具有线性相关关系的情况下,应先进行相关有线性相关关系的情况下,应先进行相关性检验,在确认其具有线性相关关系后,性检验,在确认其具有线性相关关系后,再求其回归直线方程。再求其回归直线方程。