第七章直线回归与相关

上传人:今*** 文档编号:107076998 上传时间:2019-10-17 格式:PPT 页数:83 大小:1.18MB
返回 下载 相关 举报
第七章直线回归与相关_第1页
第1页 / 共83页
第七章直线回归与相关_第2页
第2页 / 共83页
第七章直线回归与相关_第3页
第3页 / 共83页
第七章直线回归与相关_第4页
第4页 / 共83页
第七章直线回归与相关_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《第七章直线回归与相关》由会员分享,可在线阅读,更多相关《第七章直线回归与相关(83页珍藏版)》请在金锄头文库上搜索。

1、第七章 直线回归与相关分析,变量之间常常是相互影响、彼此相关的, 例如 产量与施肥量有关, 病虫害发生时期与温度有关, 小麦单位面积产量与单位面积穗数、每穗粒数、千粒重有关,等等。 常常需要研究两个或多个变量之间的关系。,变量间的关系有两类,一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。 如长方体的体积(V)与长(a)、宽(b)、高(h)的关系可以表达为: V=abh 它们之间的关系是确定性的,只要知道了其中3个变量的值就可以精确地计算出另一个变量的值。这类变量间的关系称为函数关系。,另一类是变量间不存在完全的确定性关系,不能用精确的数学公式来表示。 如 产量与施肥量的关系

2、, 病虫害发生时期与温度的关系, 小麦单位面积产量与单位面积穗数、每穗粒数、千粒重的关系等。,这些变量间都存在着十分密切的关系,但由于随机误差的影响,不能由一个或几个变量的值精确地求出另一个变量的值。这样的变量在生物界中是大量存在的,统计学中把这类变量称为相关变量。,相关变量间的关系分为两种: 一种是因果关系,即一个变量的变化受另一个或几个变量的影响。 如 病虫害发生时期受温度的影响, 小麦单位面积产量受单位面积穗数、每穗粒数、千粒重的影响;,另一种是平行关系,即二个变量相互影响,互为因果。 如小麦每穗粒数与千粒重之间的关系,株高与穗长之间的关系等都属于平行关系。 统计学上采用回归分析 研究呈

3、因果关系的相关变量间的关系。 表示原因的变量称为自变量,表示结果的变量称为依变量。,研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析; 研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。 一元回归分析又分为直线回归分析与曲线回归分析两种; 多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。,回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。,统计学上采用相关分析研究呈平行关系的相关变量之间的关系。 对两个变量间的直线关系进行相关分析称为直线相关分析(

4、也叫简单相关分析); 对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;,研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。在相关分析中,不区分自变量和依变量。 相关分析只研究两个变量之间线性相关的程度和性质或一个变量与多个变量之间线性相关的程度,不能用一个或多个变量去预测、控制另一个变量的变化。 本章介绍直线回归与相关分析。,第一节 直线回归分析,对于两个相关变量x和y,通过试验或调查获得n对观测值,(x1,y1),(x2,y2), ,(xn,yn),作出散点图。,从散点图可以看出: 两个变量间关系的类型,是直线还是曲线。 图(a)、(d)表明 x 与

5、 y是完全直线关系,这种情况在生物界不多见;图(b)、(e) 表明x与y是直线相关关系,这种情况在生物界较常见;图(f)表明x与y是曲线关系,这种情况在生物界也较常见;图(c)表明x与y无关。,两个变量间关系的性质(是同向增减还是异向增减。 图(a)、(b) 表明 x与y的直线关系是同向增减,图(d)、(e) 表明 x与y的是直线关系是异向增减)和程度(是密切还是不密切)。 是否有异常观测值。,一、直线回归方程的建立,如果呈因果关系的两个相关变量x与y间的关系是直线关系,由于依变量x与y间的关系是直线关系,由于依变量 的实际观测值总是带有随机误差,因而 可表示为:,(i=1,2, , n) (

6、71),为总体回归系数 i 为相互独立、且都服从N(0,2) 的随机变量。,为总体回归截距,其中,,在x,y的直角坐标平面上可以作出无数条直线 ,回归直线是指所有直线中最接近散点图全部散点的直线。,设直线回归方程 为:,(7-2),a、b应使回归估计值与实际观测值的偏差平方和最小,即:,最小,令 Q对a、b的一阶偏导数等于0,即:,整理得关于a、b的正规方程组,解正规方程组,得:,(7-3),(7-4),(7-3)式中的分子是自变量x的离均差与依变量y的离均差的乘积和 ,简称乘积和,记作 ,分母是自变量x的离均差平方和 ,记作 。,a叫做样本回归截距,是总体回归截距的最小二乘估计值也是无偏估计

7、值,是回归直线与y轴交点的纵坐标,当x=0时, =a;,b叫做样本回归系数,是总体回归系数 的最小二乘估计值也是无偏估计值,表示x改变一个单位,y平均改变的数量,b的符号反映了x影响y的性质,b的绝对值大小反映了x影响y的大小; 叫做回归估计值 ,是当x在其研究范围内取某一个值时,y总体平均数( )的估计值。,如果将(7-3)式代入(7-2)式,得到回归方程的另一种形式:,(7-5),【例71】 江苏武进县测定1956-1964年间3月下旬至4月中旬平均温度累积值 (x,单位:旬度)和一代三化螟蛾盛发期 (y,以5月10日为0)的资料如下表,建立y与x的直线回归方程。,表7-1 平均温度累积值

8、(x)与一代三化螟盛发期(y)资料,1、作散点图,图7-2 旬平均温度累积值和一代三化螟蛾盛发期的关系,2、计算回归系数b,回归截距a,建立直线回归方程,(天/旬度),(天),直线回归方程为:,上述回归方程的显著性还有待检验。,注意,由于实测区间为31.7,44.2,当 31.7或 44.2时, 的变化是否还符合 的规律,还必须提供新的依据。,如果显著,回归系数 = -1.0996的意义为:当3月下旬的积温( )每提高1旬度时,一代三化螟盛发期将平均提早1.0996天;,回归截距 =48.5485的意义为:若3月下旬的积温为0,则一代三化螟盛发期为48.5485,即在6月27-28日。,3、直

9、线回归方程的离回归标准误,偏差平方和 的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为n-2。,于是可求得离回归均方为:,离回归均方是模型(7-1)中方差2的估计值。,离回归均方的平方根叫离回归标准误,记为 ,即,(7-6),离回归标准误 的大小表示了回归直线与实测点,即回归估计值 与实际观测值y偏离度的大小。,以后将证明:,(7-7),对于【例71】有,所以,=3.2660(天),三、直线回归的显著性检验,如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量y与x间是否存在直线关系,也就是须对

10、直线回归进行显著性检验。,直线回归显著性检验的方法有F检验和t检验两种。,从图7-3看到, 可表示为 与 之和,即:,则有:,(一) F检验,1、依变量y的总平方和与自由度的分解,由于,所以,于是,所以,(7-8),反映了y的总变异程度,称为y的总平方和,记为 ;,反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为 ;,反映了除y与x存在直线关系以外的原因 (包括随机误差) 所引起的y的变异程度 ,称为离回归平方和或剩余平方和 , 记为 。,于是,(7-8)式又可表示为:,与此相对应,,(7-9),(7-10),在直线回归分析中,、回归关系显著性检验F 检验,对y与x间是

11、否存在直线关系的假设检验其无效假设 :=0,备择假设 :0。,在无效假设成立的条件下,回归均方与离回归均方的比值服从 和 的F分布,所以可以用,, df1=1,df2=n-2 (7-11),来检验回归关系即回归方程的显著性。,(7-12),(7-13),对于【例71】,,,,,,,而, 于是, , p0.01,表明一代三化螟蛾盛发期(y)与积温( )的直线回归关系极显著。,3、回归系数的显著性检验t检验,回归系数显著性检验的无效假设和备择假设分别为 :0, :0。,t检验的计算公式为:,(7-14),其中,为回归系数标准误 :,(7-15),对于【例71】 ,已计算得,,,,,,,故有,因 ,

12、 ,否定 :0,接受 :0,即一代三化螟蛾盛发期(y)与积温(x)的直线回归系数b=-1.0996极显著,表明一代三化螟蛾盛发期与积温间存在极显著的直线关系。,F 检验的结果与t检验的结果一致。 事实上,统计学已证明,在直线回归分析中,这二种检验方法是等价的,可任选一种进行检验。,四、直线回归的区间估计,经检验直线回归关系显著之后:,可用样本统计数 来估计总体参数 ,,可利用 来估计某一 值对应的 总体的平均数( );,还可对总体参数 ,某一 值对应的 总体的平均数( )和单个观测值 作出区间估计,即求出它们在一定置信度下的置信区间。,表7-2 回归截距 ,回归系数 ,总体平均数( )和单个观

13、测值 置信度为( )的置信区间,【例72】 根据【例71】的资料估计:,(1)当3月下旬至4月中旬的积温为40旬度时,历年的一代三化螟蛾平均盛发期在何时(置信度为95)? (2)某年3月下旬至4月中旬的积温为40旬度时,该年的一代三化螟蛾盛发期在何时(置信度为95)?,利用直线回归方程 计算当 时的 ,,因为,将 =4.56、 、 2.36代入,得,所以 (1)在置信度为95时, 的 总体平均数( )的置信区间为:,即当3月下旬至4月中旬的积温为40旬度时,历年的一代三化螟蛾平均盛发期在1.4, 7.7或5月1218日,置信度为95。,(2)在置信度为95时, 的单个观测值 的置信区间为:,将

14、 =4.56、 、 2.36代入,得,即当某年3月下旬至4月中旬的积温为40旬度时,该年的一代三化螟蛾盛发期在-3.8, 19.9或5月630日,置信度为95。,类似地,可求出 取其它值时 总体平均数 ( )和单个观测值的95%置信区间,列于表7-3。,表7-3 一代三化螟蛾盛发期95%置信区间,从 和 的计算公式看出,越接近 , 和 越小,置信区间的置信距也越小,预测越精确。,第二节 直线相关分析,进行直线相关分析的基本任务在于根据x、y的实际观测值计算表示两个相关变量x与y线性相关程度和性质的统计数相关系数r,并进行显著性检验。,、决定系数和相关系数,已经证明了等式:,。,从这个等式不难看

15、到:y与x直线回归效果的好坏取决于回归平方 和与离回归平方和 的大小,或者说取决于回归平方和 在y的总平方和 中所占比例的大小。这个比例越大,y与x的直线回归效果就越好,反之则差。,比值 叫做x对y的决定系数 ,记为 r2,即,(7-16),决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低,显然0r21。,因为,而SPxy/SSx是以x为自变量、y为依变量时的回归系数byx。,若把y作为自变量、x作为依变量,则回归系数bxy=SPxy/SSy。,所以决定系数r2等于y对x的回归系数与x对y的回归系数的乘积。,这就是说,决定系数反应了x为自变量、y为依变量和y为自变量、x为依变量时两个相关变量x与y直线相关的信息,即决定系数表示了两个互为因果关系的相关变量间直线相关的程度。但决定系数介于0和1之间,不能反应直线关系的性质是同向增减或是异向增减。,若求r2的平方根,且取平方根的符号与乘积和SPxy的符号一致,即与bxy 、byx的符号一致,这样求出的平方根既可表示y与x的直线相关的程度,也可表示y与x直线相关的性质。 统计学上把这样计算所得的统计数称为x与y的相关

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号