生物统计学课件:第8章 多元线性回归和相关

上传人:枫** 文档编号:569817092 上传时间:2024-07-31 格式:PPT 页数:59 大小:1.04MB
返回 下载 相关 举报
生物统计学课件:第8章 多元线性回归和相关_第1页
第1页 / 共59页
生物统计学课件:第8章 多元线性回归和相关_第2页
第2页 / 共59页
生物统计学课件:第8章 多元线性回归和相关_第3页
第3页 / 共59页
生物统计学课件:第8章 多元线性回归和相关_第4页
第4页 / 共59页
生物统计学课件:第8章 多元线性回归和相关_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《生物统计学课件:第8章 多元线性回归和相关》由会员分享,可在线阅读,更多相关《生物统计学课件:第8章 多元线性回归和相关(59页珍藏版)》请在金锄头文库上搜索。

1、复习:一元回归和相关复习:一元回归和相关 一元回归分析:建立一元回归分析:建立x与与y之间的回归方之间的回归方程,利用方程由程,利用方程由x来预测来预测y。 如果如果x与与y存在相关,但不需要由存在相关,但不需要由x来估来估计计y,只需要对,只需要对x与与y进行相关分析。进行相关分析。R为相关为相关系数,取值范围从系数,取值范围从-1到到1。 R2为决定系数,为决定系数,取值范围为取值范围为01,只能反应相关程度,而不能,只能反应相关程度,而不能反应相关性质。反应相关性质。多元线性回归和相关多元线性回归和相关 一一元元线线性性回回归归研研究究的的是是一一个个依依变变量量与与一一个个自自变变量量

2、之之间间的的回回归归问问题题,但但是是,在在畜畜禽禽、水水产产、食食品品等等科科学学领领域域的的许许多多实实际际问问题题中中,影影响响依依变变量量的的自自变变量量往往往往不不止止一一个个,而而是是多多个个,比比如如绵绵羊羊的的产产毛毛量量这这一一变变量量同同时时受受到到绵绵羊羊体体重重、胸胸围围、体体长长等等多多个个变变量量的的影影响响,因因此此需需要要进进行行一一个个依依变变量量与与多多个个自自变变量量间间的的 回回 归归 分分 析析 , 即即 多多 元元 回回 归归 分分 析析 ( multiple regression analysis),而而其其中中最最为为简简单单、常常用用并并且且具

3、具有有基基础础性性质质的的是是多多元元线线性性回回归归分分析析(multiple linear regression analysis),许许多多 非非 线线 性性 回回 归归 ( non-linear regression) 和和 多多 项项 式式 回回 归归(polynomial regression)都都可可以以化化为为多多元元线线性性回回归归来来解解决决,因因而而多多元元线线性性回回归归分分析析有有着着广广泛泛的的应应用用。研研究究多多元元线线性性回回归归分分析析的的思思想想、方方法法和和原原理理与与直直线线回回归归分分析析基基本本相相同同,但但是是其其中中要要涉涉及及到到一一些些新新

4、的的概概念念以以及及进进行行更更细细致致的的分分析析,特特别别是是在在计计算算上上要要比比直直线线回回归归分分析析复复杂杂得得多多,当当自自变变量量较较多多时时,需需要要应用计算机进行计算。应用计算机进行计算。多元线性回归和相关多元线性回归和相关多元线性回归分析的基本任务包括:多元线性回归分析的基本任务包括:根根据据依依变变量量与与多多个个自自变变量量的的实实际际观观测测值值建建立立依依变变量量对多个自变量的多元线性回归方程;对多个自变量的多元线性回归方程;检检验验、分分析析各各个个自自变变量量对对依依自自变变量量的的综综合合线线性性影影响响的显著性;的显著性;检检验验、分分析析各各个个自自变

5、变量量对对依依变变量量的的单单纯纯线线性性影影响响的的显显著著性性,选选择择仅仅对对依依变变量量有有显显著著线线性性影影响响的的自自变变量量,建立最优多元线性回归方程;建立最优多元线性回归方程;评评定定各各个个自自变变量量对对依依变变量量影影响响的的相相对对重重要要性性以以及及测测定最优多元线性回归方程的偏离度等。定最优多元线性回归方程的偏离度等。多元线性回归方程的建立多元线性回归方程的建立多元线性回归中,自变量多元线性回归中,自变量x个数有个数有k个个(k2)n组,设组,设x1、 x2、 xk为自变量观测值,为自变量观测值,y为因变量观测值,为因变量观测值,则一个则一个k元线性回归的数学模型

6、为:元线性回归的数学模型为: 式中式中k1,0为截距,为截距, 1 k为偏回归系数,为偏回归系数,为为随机误差,服从随机误差,服从N(0,)的正态分布的正态分布 。多元线性回归方程的建立多元线性回归方程的建立多元线性回归中,自变量多元线性回归中,自变量x个数有个数有k个个(k2)n组,设组,设x1、 x2、 xk为自变量观测值,为自变量观测值,y为因变量观测值:为因变量观测值: 假定因假定因变量量y与自与自变量量x1、x2、xm间存在存在线性关系,其数学模型性关系,其数学模型为: 式式中中,x1、x2、xm为可可以以观测的的一一般般变量量(或或为可可以以观测的的随随机机变量量);y为可可以以观

7、测的的随随机机变量量,随随x1、x2、xm而而变,受受试验误差差影影响响;2为相相互互独独立立且且都都服服从从的的随随机机变量量。我我们可可以以根根据据实际观测值对以及以及 方差方差2作出估作出估计。多元线性回归方程的建立多元线性回归方程的建立多元线性回归方程的建立多元线性回归方程的建立 设y对x1、x2、 xm的元线性回归方程为: 式中,b0、b1、b2、bm为 的最小二乘估计值。即b0、b1、b2、bm应使实际观测值y与回归估计值 的偏差平方和最小。 多元线性回归方程的建立多元线性回归方程的建立例例 随机抽查某渔场随机抽查某渔场16次放养记录,得到结果次放养记录,得到结果(单位单位:kg)

8、,要建立鱼产量(,要建立鱼产量(y)和投饵量()和投饵量(x1)、放养量)、放养量(x2)的线性回归方程,并预测)的线性回归方程,并预测x1 =12.5, x2 =2.5时时y平均数的置信区间、平均数的置信区间、y观测值的置信区间。观测值的置信区间。这是一个二元线性回归问题,设这是一个二元线性回归问题,设y对对x1、x2的线性回的线性回归方程为:归方程为:用用DPS解题:解题:(1)输入数据与选择数据:)输入数据与选择数据:注意:和书上顺序不注意:和书上顺序不一样,一样,X1、X2、Y分分别在第别在第1、2、3列,列,顺序不可倒!顺序不可倒!(2)菜单:)菜单:(3)对话框:)对话框:(4)点

9、击)点击“返回编辑返回编辑”,即可出结果:,即可出结果: 方差分析表与决定系数:方差分析表与决定系数: p=0.00080.01,认为鱼产量,认为鱼产量Y与投饵量与投饵量X1、放、放养量养量X2的回归关系是非常显著的。的回归关系是非常显著的。 决定系数决定系数R2=0.668452结果:结果: 回归系数及假设检验:回归系数及假设检验: 根据根据b0、b1、b2我们可以得到回归方程为:我们可以得到回归方程为: 对对b1、b2进行进行t检验,检验,p分别为分别为0.0026、0.0004,说明投饵量说明投饵量X1、放养量、放养量X2对鱼产量对鱼产量Y的影响是非常显的影响是非常显著的。著的。结果:结

10、果: y平均数的置信区间、平均数的置信区间、y观测值的置信区间观测值的置信区间 当当x1=12.5,x2=2.5,预测,预测y平均数的平均数的95%置信置信区间与区间与y观测值观测值95%的置信区间:的置信区间:自变量的重要性和取舍自变量的重要性和取舍在多元回归方程中,在多元回归方程中,x1xk个自变量对因变量个自变量对因变量y的影响的影响程度和对回归方程的贡献大小是不一样的。因此需要程度和对回归方程的贡献大小是不一样的。因此需要进行取舍,去掉那些对因变量影响不显著的自变量,进行取舍,去掉那些对因变量影响不显著的自变量,建立建立“最优最优”的多元线性回归方程,这样才能对因变的多元线性回归方程,

11、这样才能对因变量量y作出有效的准确的分析、预测。作出有效的准确的分析、预测。例例 分别测定分别测定21尾狗鱼性成熟个体的全长尾狗鱼性成熟个体的全长x1 (cm)、体、体长长x2 (cm)、体重、体重x3 (g)、年龄、年龄x4 (a)、空壳重、空壳重x5 (g)、卵巢重卵巢重x6 (g)和绝对怀卵量和绝对怀卵量Y (粒粒),试建立,试建立x1x6与怀与怀卵量卵量Y之间的最优多元线性方程之间的最优多元线性方程用用DPS解题:解题:(1)输入数据与选择数据:)输入数据与选择数据:用用DPS解题:解题:(2)菜单:)菜单:用用DPS解题:解题:(3)结果:)结果: 引入引入1个变量时的最优回归方程个

12、变量时的最优回归方程: X5空壳重对空壳重对Y卵巢重的影响最显著(卵巢重的影响最显著(p=0),优先引),优先引入方程,得到回归方程入方程,得到回归方程决定系数决定系数R2=0.9283,回归关系经方差分析,回归关系经方差分析,F=245.8777,p=0,非常显著。,非常显著。 引入引入2个变量时的最优回归方程:个变量时的最优回归方程: X4、X6对对Y卵巢重的影响非常显著卵巢重的影响非常显著(p0.01),优先,优先引入方程,得到回归方程引入方程,得到回归方程决定系数决定系数R2=0.9470(高于引入一个自变量(高于引入一个自变量X5时的时的0.9283),回归关系经方差分析,),回归关

13、系经方差分析,F=160.8874,p=0,非常显著。,非常显著。 引入引入3个变量时的最优回归方程:个变量时的最优回归方程: X2、X4、X6对对Y卵巢重的影响非常显著卵巢重的影响非常显著(p0.01),优先引入方程,得到回归方程(略)优先引入方程,得到回归方程(略)决定系数决定系数R2=0.9750(高于引入(高于引入2个自变量时的个自变量时的0.9470),回归关系经方差分析,),回归关系经方差分析,F=220.7037,p=0,非常显著。,非常显著。 引入引入4个变量时的最优回归方程:个变量时的最优回归方程: X2、X4、X6对对Y卵巢重的影响非常显著卵巢重的影响非常显著(p0.01)

14、,X1的影响也显著的影响也显著(p0.05),优先引入方程,得到回归,优先引入方程,得到回归方程(略)方程(略)决定系数决定系数R2=0.9820(高于引入(高于引入3个自变量时的个自变量时的0.9750),回归关系经方差分析,),回归关系经方差分析,F=218.2896,p=0,非常显著。,非常显著。 引入引入5个变量时的最优回归方程:个变量时的最优回归方程: X2、X4、X6对对Y卵巢重的影响非常显著卵巢重的影响非常显著(p0.01),X1的影响也显著的影响也显著(p0.05),优先引入方程,而,优先引入方程,而X3对对Y的而影响不显著的而影响不显著(p=0.7259),得到回归方程(略)

15、,得到回归方程(略)决定系数决定系数R2=0.9822(略高于引入(略高于引入4个自变量时的个自变量时的0.9820),回归关系经方差分析,),回归关系经方差分析,F=165.1353,p=0,非常显著。,非常显著。 引入引入6个变量时的最优回归方程:个变量时的最优回归方程: X4、X6对对Y卵巢重的影响非常显著卵巢重的影响非常显著(p0.01),X2的影响也显著的影响也显著(p0.05),得到回归方程(略),得到回归方程(略)决定系数决定系数R2=0.9822(略高于引入(略高于引入4个自变量时的个自变量时的0.9820),回归关系经方差分析,),回归关系经方差分析,F=128.4913,p

16、=0,非常显著。,非常显著。结论:结论: 引入引入X1(全长)、(全长)、X2(体长)、(体长)、X4(年龄)、(年龄)、X6(卵巢重)四个自变量时最好,此时(卵巢重)四个自变量时最好,此时4个自变量都个自变量都对对Y有显著影响(有显著影响(p0.05)。建立四元回归方程:)。建立四元回归方程: X3(体重)、空壳重(体重)、空壳重(X5)没有引入方程,虽)没有引入方程,虽然两者与全长、体长、年两之间有密切关系,但两者然两者与全长、体长、年两之间有密切关系,但两者容易受到外界环境的影响而变化,不引入回归方程也容易受到外界环境的影响而变化,不引入回归方程也是合理的。是合理的。Minitab法做题

17、法做题 例例8.1(1)输入数据:)输入数据:(2)菜单:)菜单:(3)对话框设置:)对话框设置:结果:结果:(1)回归方程:)回归方程:(2)偏回归系数及其显著性检验:)偏回归系数及其显著性检验:结果:结果:(3)决定系数)决定系数R2及方程回归显著性检验:及方程回归显著性检验:结果:结果:(4)y平均数的置信区间、平均数的置信区间、y观测值的置信区间:观测值的置信区间:Minitab对于对于y值的置信区间预测也比较方便。值的置信区间预测也比较方便。例例8.4 看看Minitab如何对自变量进行取舍如何对自变量进行取舍菜单:统计菜单:统计回归回归最佳子集最佳子集对话框设置:对话框设置:选项设

18、置:选项设置:结果:结果:引入引入4个变量时决定系数个变量时决定系数R2(调整)最佳(调整)最佳,Mallows Cp接近入选的变量数目时较好接近入选的变量数目时较好。此时引入的变量为:。此时引入的变量为:全长、体长、年龄、卵巢重,与全长、体长、年龄、卵巢重,与DPS是一致的。然是一致的。然后可以进一步做回归分析:后可以进一步做回归分析:菜单:统计菜单:统计回归回归回归回归对话框:对话框:结果:结果: 回归方程:回归方程: 偏回归系数及其显著性检验:偏回归系数及其显著性检验:结果:结果: 回归决定系数回归决定系数R2及方差分析:及方差分析: DPS一次性操作即可给出回归方程、方差分析、一次性操

19、作即可给出回归方程、方差分析、决定系数等数据,而决定系数等数据,而Minitab需要两次操作。需要两次操作。多元相关与偏相关多元相关与偏相关 多元相关,又称复相关,是多元相关,又称复相关,是y与与k个个x的总相关。的总相关。例例 分析分析X1(全长)、(全长)、X2(体长)、(体长)、X4(年龄)、(年龄)、X6(卵巢重)四个自变量与怀卵量(卵巢重)四个自变量与怀卵量Y的的复相关系数复相关系数,并进行假设检验并进行假设检验在上面的结果中已经解决了这个问题:在上面的结果中已经解决了这个问题: 决定系数决定系数R2=0.9820,p=0.000,相关非常显著。,相关非常显著。偏相关系数及其假设检验

20、偏相关系数及其假设检验例例 分析分析X1(全长)、(全长)、X2(体长)、(体长)、X4(年(年龄)、龄)、X6(卵巢重)四个自变量及怀卵量(卵巢重)四个自变量及怀卵量Y(总共(总共5个变量)之间都存在不同程度线性相个变量)之间都存在不同程度线性相关关系。当关关系。当X1变化,其他变量变化,其他变量X2、X4、X6、Y都在变化,要消除其他变量的影响,就要保都在变化,要消除其他变量的影响,就要保持其他变量不变。比如,要了解持其他变量不变。比如,要了解X1与与Y的关系,的关系,就要保持就要保持 X2、X4、X6不变。这就要进行不变。这就要进行偏偏相关分析相关分析。DPS法法(1)输入数据,选择数据

21、:)输入数据,选择数据:(2)菜单:)菜单:(3)结果:)结果: Pearson相关系数:相关系数: 从相关系数看,所有变量之间都存在非常显著的从相关系数看,所有变量之间都存在非常显著的正相关(正相关(P0.01) 。(3)偏相关系数:)偏相关系数: 从偏相关系数看,年龄与绝对怀卵量正相关非常从偏相关系数看,年龄与绝对怀卵量正相关非常显著,显著,r=0.7829,p=0.0003; 其次是卵巢重,其次是卵巢重, r=0.6716,p=0.0044; 然后是体长,然后是体长,r=-0.5962,p=0.0148,体长与怀卵,体长与怀卵量是负相关。量是负相关。 简单的相关系数与偏相关系数会差别很大

22、,简单的相关系数与偏相关系数会差别很大,符号也存在正负差异。符号也存在正负差异。 简单的相关系数往往不能反应两个变量之简单的相关系数往往不能反应两个变量之间的真实的线性相关关系,而偏相关系数消间的真实的线性相关关系,而偏相关系数消除了其他变量的取值的影响,反映两个变量除了其他变量的取值的影响,反映两个变量的真实关系。的真实关系。逐步回归与通径分析逐步回归与通径分析 在实际研究中,影响在实际研究中,影响y的因素有很多,这些因素之的因素有很多,这些因素之间可能存在多重共线性问题,如温度和雨量、雨量间可能存在多重共线性问题,如温度和雨量、雨量与雨日之间的关系。逐步回归分析就是一种自动从与雨日之间的关

23、系。逐步回归分析就是一种自动从大量变量中选择对建立回归方程比较重要的方法,大量变量中选择对建立回归方程比较重要的方法,它是建立在多元线性回归的基础上派生出来的一种它是建立在多元线性回归的基础上派生出来的一种更算法技巧。更算法技巧。 在多元线性回归分析中,较多的自变量拟合回归在多元线性回归分析中,较多的自变量拟合回归方程,会使得方程稳定性差,建立的方程作为预测方程,会使得方程稳定性差,建立的方程作为预测的可靠性就差,精度低,因此希望得到的可靠性就差,精度低,因此希望得到“最优最优”的的回归方程,把对回归方程,把对y影响不显著的因素剔除。影响不显著的因素剔除。逐步回归与通径分析逐步回归与通径分析

24、逐步回归分析根据自变量对逐步回归分析根据自变量对y的影响显著程度,从的影响显著程度,从大到小逐个引入方程,每次引入自变量都要进行大到小逐个引入方程,每次引入自变量都要进行F检检验,确保引入的自变量有新的统计意义。对验,确保引入的自变量有新的统计意义。对y没有显没有显著影响的变量要从方程中剔除。著影响的变量要从方程中剔除。逐步回归与通径分析逐步回归与通径分析 通径分析通径分析是通径系数分析的简称。通径系数是自是通径系数分析的简称。通径系数是自变量偏回归系数标准化后得到的,用来表示相关变变量偏回归系数标准化后得到的,用来表示相关变量因果关系的统计量。量因果关系的统计量。逐步回归与通径分析逐步回归与

25、通径分析 例例 测定测定“丰产丰产3号号”小麦小麦15株的单株穗数株的单株穗数x1、每穗、每穗的结实穗数的结实穗数x2、百粒重、百粒重x3、株高、株高x4和单株籽粒产量和单株籽粒产量y,结果见下表,试建立,结果见下表,试建立y与与xi之间的最优回归方程。之间的最优回归方程。逐步回归与通径分析逐步回归与通径分析在在DPS中输入数据,选择数据:中输入数据,选择数据:逐步回归与通径分析逐步回归与通径分析点击菜单多元分析点击菜单多元分析回归分析回归分析逐步回归,弹出对逐步回归,弹出对话框:话框:已经引入方程的变量为已经引入方程的变量为x1、x2、x3,调整的,调整的R为为0.94804逐步回归与通径分

26、析逐步回归与通径分析按按yes,则引入变量,则引入变量x4,结果:,结果:已经引入方程的变量为已经引入方程的变量为x1、x2、x3、x4,调整的,调整的R为为0.944730.94804,因此不能引入,因此不能引入x4,需要剔除。,需要剔除。逐步回归与通径分析逐步回归与通径分析按按No,则剔除变量,则剔除变量x4,结果:,结果:已经引入方程的变量为已经引入方程的变量为x1、x2、x3,调整的,调整的R为为0.94804。逐步回归与通径分析逐步回归与通径分析按按OK,得到结果:,得到结果:方程为:方程为:y=-46.9664+2.01317*x1+0.67467*x2+7.83027*x3方程分

27、析表结果表明,自变量方程分析表结果表明,自变量x1、x2、x3与与y之间回之间回归关系极显著。归关系极显著。逐步回归与通径分析逐步回归与通径分析方程的估计标准误方程的估计标准误SSE为为1.1369,调整的决定系数,调整的决定系数R2=0.8988,逐步回归与通径分析逐步回归与通径分析直接通径系数直接通径系数从三个自变量对单株产量从三个自变量对单株产量y的直接影响可以看出:的直接影响可以看出:x1每株穗数的直接作用最大,为每株穗数的直接作用最大,为0.7534;其次为其次为x3百粒重,为百粒重,为0.3414;X2小穗数的直接作用最小,为小穗数的直接作用最小,为0.1993逐步回归与通径分析逐

28、步回归与通径分析间接通径系数间接通径系数从间接通径系数可以看出:从间接通径系数可以看出:每株穗数每株穗数x1通过百粒重通过百粒重x3对产量对产量y的间接作用最大,的间接作用最大,为为0.1709;每株穗数;每株穗数x1通过小穗数通过小穗数x2对对y产生负作用,产生负作用,为为-0.0271,但由于,但由于x1的直接作用加上间接作用,总的直接作用加上间接作用,总的作用为的作用为0.8973,这个负作用就显得不重要了。,这个负作用就显得不重要了。逐步回归与通径分析逐步回归与通径分析间接通径系数间接通径系数从间接通径系数可以看出:从间接通径系数可以看出:百粒重百粒重x3对产量对产量y的间接作用分别为的间接作用分别为0.3773和和-0.0297,连同直接中用,使得,连同直接中用,使得x3与与y也产生了较为密切的正也产生了较为密切的正相关,总的相关系数达到相关,总的相关系数达到0.6890。逐步回归与通径分析逐步回归与通径分析因此,每株穗数因此,每株穗数x1和百粒重和百粒重x3对增加单株重量具有对增加单株重量具有重要作用。而每穗结实小穗数重要作用。而每穗结实小穗数x2的直接作用和间接的直接作用和间接作用都较小,对单株产量的改变无大的影响,可以作用都较小,对单株产量的改变无大的影响,可以不用多考虑。不用多考虑。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号