高级生物统计(14)

上传人:tia****nde 文档编号:70629811 上传时间:2019-01-17 格式:PPT 页数:51 大小:668.81KB
返回 下载 相关 举报
高级生物统计(14)_第1页
第1页 / 共51页
高级生物统计(14)_第2页
第2页 / 共51页
高级生物统计(14)_第3页
第3页 / 共51页
高级生物统计(14)_第4页
第4页 / 共51页
高级生物统计(14)_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《高级生物统计(14)》由会员分享,可在线阅读,更多相关《高级生物统计(14)(51页珍藏版)》请在金锄头文库上搜索。

1、第一节 多元线性回归(Multiple linear regression),任务:研究一个依变量与多个自变量间的线性关系: 如农作物产量与产量构成因素:穗数、粒数、粒重的关系,病虫害的发生期与生态因素:温度、湿度、雨量的关系。,一、多元线性回归方程的建立,(一) 数学模型,设 y 与x1、x2、xm间存在线性关系 y =+1x1+2x2+mxm+ x1、x2、xm可以观测的一般变量或随机变量; y 可以观测的随机变量; 随机变量,相互独立,且都服从N(0,2)。,(一) 建立多元线性回归方程,设变量 x1、 x2、 、xm (自变量)、y(依变量)有n 组观测数据,见下表,,假定依变量 y

2、与自变量x1,x2,xm间存在线性关系,则 y 与x1,x2,xm间的元线性回归方程为:,(21),由 n 组实际观测数据,根据最小二乘法的原理确定元线性回归方程中的b0,b1,b2,bm,即b0,b1,b2,bm应使实际观测值与回归估计值的偏差平方和最小。,令 Q为关于b0,b1,b2,bm的m+1元函数。 根据微分学中多元函数求极值的方法,若使达到最小,应有,(i=1,2,m),经整理得,由方程组(2-2)中的第一个方程可得 即 其中,,若记 并将 分别代入方程组(2-2)中的后m个方程,经整理可得到关于b1,b2,bm的正规方程组(normal equations)为:,解正规方程组(2

3、-4)即可得b1,b2,bm ,而 于是得到元线性回归方程:,m元线性回归方程的图形为m+1维空间的一个平面,称为回归平面(regression plane);b0称为回归常数项(regression constant),当x1=x2= =xm=0时, 在有实际生物学意义时,b0表示y的起始值;bi (i=1,2,m) 称为依变量y对自变量xi的偏回归系数(partial regression coefficient),表示除自变量xi以外的其余个自变量都固定不变时,自变量xi每变化1个单位,依变量y平均变化的单位数量,确切地说,当bi0时,自变量xi每增加1个单位,依变量y平均增加bi个单位

4、;当bi0时,自变量xi每增加1个单位,依变量y平均减少bi个单位。,若将 代入(2-1)式,则得 (2-5)式也为 y 对x1、x2、xm的m元线性回归方程。,对于正规方程组(2-4),记 则正规方程组(2-4)可用矩阵(matrix)形式表示为,即 AbB (27) 其中,A为正规方程组的系数矩阵(coefficient matrix),b为偏回归系数列向量(column vector),B为常数项列向量。,设系数矩阵A的逆矩阵(inverse matrix)为C矩阵,即A-1C,则 其中,C矩阵的元素cij(i、j=1,2,m)称为高斯乘数(Gauss multiplier),是多元线性

5、回归分析中显著性检验与进一步统计分析所需要的。,例如,设依变量 y 与自变量x1、x2间存在线性关系,共有n组实际观测数据,欲建立二元线性回归方程 。,先根据n组实际观测数据计算出,关于b1、b2的正规方程组为: 解正规方程组(2-9)得, 多元线性回归方程的偏离度,离回归平方和 离回归均方 离回归标准误,离回归标准误 sy12m 的大小表示了回归平面与实测点的偏离程度的大小,即回归估计值 与实测值 y 偏离的程度的大小,于是我们把离回归标准误 sy12m 用来表示回归方程的偏离度。离回归标准误 sy12m 大,表示回归方程偏离度大,离回归标准误 sy12m小,表示回归方程偏离度小。,二、多元

6、线性回归的显著性检验, 多元线性回归关系的显著性检验 偏回归系数的显著性检验 自变量剔除与重新建立多元线性回归方程,(一) 回归关系显著性检验 F-检验,Ho:1=2= =m=0, HA:1, 2,m不全为0,1、 t-检验 Ho:i=0, HA:i0, i = 1,2,,m,离回归标准误,偏回归系数标准误,(二) 偏回归系数显著性检验,2、 F-检验,y 对 xi 的偏回归平方和 :bi2/Cii y 对 xi 的偏回归自由度:1,(三) 自变量剔除与重新建立多元线性回归方程,对于m元线性回归方程 剔除一个不显著且偏回归平方和最小的自变量,比如 xi 后,进行m-1元线性回归分析: m-1元

7、线性回归方程。,对于新方程,各项平方和与自由度的计算公式为: 然后计算出新的高斯乘数Cij,进行新的偏回归系数显著性检验。注意每次仅剔除一个不显著的自变量。,【例21】 猪的瘦肉量是肉用型猪育种中的重要指标,而影响猪瘦肉量的有猪的眼肌面积、胴体长、膘厚等性状。设依变量y为瘦肉量(),自变量x1为眼肌面积(2),x2为胴体长(),x3为膘厚()。根据三育种组的54头杂种猪的实测数据资料,经过整理计算,得到如下统计量数据: 进行y对x1、x2、x3的三元线性回归分析。,1、建立三元线性回归方程 将上述有关统计量数据代入(2-4)式,得关于偏回归系数,的正规方程组:,求得系数矩阵的逆矩阵如下:,根据

8、(2-8)式,关于b1、b2、b3的解可表示为: 而,于是得到关于瘦肉量 y 与眼肌面积x1、胴体长x2、膘厚x3的三元线性回归方程为:,2、三元线性回归关系显著性检验,已计算得SSy=70.6617,而 列出方差分析表,进行检验。,3、偏回归系数显著性检验, t检验 首先计算:,然后计算各个 t 值: 由df=n-m-1=50查t值表,得t0.05(50)=2.008,t0.01(50)=2.678。因为|tb1|t0.05(50)、|tb2|t0.05(50)、|tb3|t0.05(50),所以偏回归系数b1是极显著的,而偏回是系数b2、b3都是不显著的。, F检验 首先计算: 然后计算各

9、个F值:,由df1=1,df2=50查F值表,得F0.05(1,50)=4.03,F0.01(1,50)=7.17。因为Fb1F0.01(1,50), Fb2F0.05(1,50), Fb3F0.05(1,50), 表明偏回归系数b1极显著,偏回归系数b2、b3不显著。这与t检验的结果一致。,也可以把上述偏回归系数显著性检验的F检验与检验结果列成方差分析表的形式。,4、剔除一个自变量并重新建立二元线性回归方程,对于建立的三元线性回归方程,经显著性检验,回归方程极显著,偏回归系数b1极显著,b2、b3不显著。因为Fb2Fb3,所以剔除自变量x2(胴体长),重新建立瘦肉量y对眼肌面积x1、膘厚x3

10、的二元线性回归方程 。,根据(2-22)式 计算 和 ,这里i=2,j=1,3。 由(2-23)式计算: 于是重新建立的二元线性回归方程为:,现在对二元线性回归方程即二元线性回归关系进行显著性检验 列出方差分析表,进行F检验。,对新的偏回归系数 和 进行显著性检验,首先应用(2-21)式 计算关于 、 的正规方程组系数矩阵的逆矩阵 的主对角线上的各元素,这里i=2,j、k=1、3。,各个偏回归平方和为 列出方差分析表,进行F检验 。,于是我们得到最优二元线性回归方程为 表明:猪的瘦肉量与眼肌面积、膘厚的线性回归关系极显著。当膘厚保持不变时,眼肌面积每增加1cm2,瘦肉量平均增加0.1297kg

11、;当眼肌面积保持不变时,膘厚每增加1cm,瘦肉量平均减少0.7544kg。该回归方程的离回归标准误 。,四、最优回归方程的选择,最优回归方程指在m元线性回归分析中,包含所有对 y 影响显著的自变量、不包含对 y 影响不显著自变量的回归方程。 选择最优回归方程的方法有下面四种:,1、逐个比较,从所有可能的自变量组合的线性回归方程中挑选最优者。 如:y,x1、x2、x3、x4 包含一个自变量的回归方程,有C41=4个,它们分别包含:x1;x2;x3;x4。 包含二个自变量的回归方程,有C42=6个,它们分别包含:x1, x2; x1, x3; x1, x4; x2, x3; x3, x4。 包含三

12、个自变量的回归方程,有C43=4个,它们分别包含:x1,x2,x3; x1,x2,x4; x1,x3,x4; x2,x3,x4。,包含四个 自变量的回归方程,有C44=1个,即包含: x1,x2,x3 ,x4 从2 4-1=15 个方程中选出最优者。 若有10 个 自变量,则应从2 10-1 =1023个 方程中选择。这种方法计算量太 大 ,无实用价值。,2、 逐个剔 出,从 包 含 全 部 自变量的回归方程中逐次剔 出不显著的自变量,直到 只包含对 y 影 响显著的自变量为止。 这个方 法实 际 上常采用,但计算量较大。,3、 逐个引进,从一个自变量开始把变量逐个引入回归方程,每一步都是将在

13、当时的情形对 y 影响最大的那个自变量引入回归方程,且这个自变量在刚引入方程时一定要经过检验是显著的。 用此方法最后得到的不一定是最优回归方程;且从第二步起都要计算偏相关系数,计算麻烦。,4、 逐步回归,按自变量对 y 作用的显著程度,从大到小地依次逐个地引入回归方程,引入自变量的条件是:该自变量的偏回归平方和经检验是显著的。同时每引入一个新自变量后,要对先引入的各个自变量逐个检验,将偏回归平方和变为不显著的自变量剔除。,优点:不需计算偏相关系数,计算较简便;每一步都作检验,保证最后的方程中所有自变量对 y 影响都是显著的。 注意:在进行逐步回归分析时,先要确定临界F值:F(1, n-1-k) k估计可能入选方程的自变量个数, 可选择0.25或 0.20、 0.10,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号