直线回归与相关知识.ppt

上传人:F****n 文档编号:96130899 上传时间:2019-08-24 格式:PPT 页数:63 大小:633.50KB
返回 下载 相关 举报
直线回归与相关知识.ppt_第1页
第1页 / 共63页
直线回归与相关知识.ppt_第2页
第2页 / 共63页
直线回归与相关知识.ppt_第3页
第3页 / 共63页
直线回归与相关知识.ppt_第4页
第4页 / 共63页
直线回归与相关知识.ppt_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《直线回归与相关知识.ppt》由会员分享,可在线阅读,更多相关《直线回归与相关知识.ppt(63页珍藏版)》请在金锄头文库上搜索。

1、第八章 直线回归与相关,前面各章我们讨论的问题,都只涉及到一个变量,如体重 、日增重、产仔数、体温、血糖浓度 、产奶量 、产毛量或孵化率 、发病率等。 但是,由于客观事物在发展过程中相互联系、相互影响,因而在畜牧、水产等试验研究中常常要研究两个或两个以上变量间的关系。,下一张,主 页,退 出,上一张,例如,变量间的关系有两类: 一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。 如长方形的面积 (S) 与 长(a)和 宽(b)的关系可以表达为: S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系。,下一张

2、,主 页,退 出,上一张,另一类是 变 量 间不存在完全的确定性关系,不能用精确的数学公式来表示。 如黄牛的体长与体重的关系;仔猪初生重与断奶重的关系;猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。像这样一类关系在生物界中是大量存在的,统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。,下一张,主 页,退 出,上一张,相关变量间的关系一般分为两种: 一种是因果关系,即一个变量的变化受另一个或几个变量的影响。如仔猪的生长速度受遗传特性、营养水平、饲养管理条件等因素的影响,子代的体高受

3、亲本体高的影响; 另一种是平行关系,它们互为因果或共同受到另外因素的影响。如黄牛的体长和胸围之间的关系,猪的背膘厚度和眼肌面积之间的关系等都属于平行关系。,下一张,主 页,退 出,上一张,统计学上采用回归分析 (regression analysis)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为依变量。 研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析; 研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。 一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。,下一

4、张,主 页,退 出,上一张,回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。,统计学上采用相关分析 ( correlation analysis)研究呈平行关系的相关变量之间的关系。 对两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析); 对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。,下一张,主 页,退 出,上一张,第一节 直线回归,一、直线回归方程的建立 对于两个相关变量,一个变量用

5、x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值: (x1,y1),(x2,y2),(xn,yn),下一张,主 页,退 出,上一张,为了直观地看出x和y间的变化趋势,可将每一对 观 测 值 在 平 面直角坐标系描点,作出散点图 (见图8-1)。,从散点图(图8-1)可以看出: 两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);,下一张,主 页,退 出,上一张,散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。,两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;

6、,如果呈因果关系的两个相关变量y(依变量)与x(自变量)间的关系是直线关系,根据n对观测值所描出的散点图,如图81(b)和图81(e)所示。,由于依变量y的实际观测值总是带有随机误差,因而依变量y的实际观测值yi可用自变量x的实际观测值xi表示为:,(i=1,2, , n) (81),其中: x 为可以观测的一般变量(也可以是可以观测的随机变量); y 为可以观测的随机变量; 这就是直线回归的数学模型。我们可以根据实际观测值对,以及方差 做出估计。, i为相互独立,且都服从N(0, )的随机变量。,在x、y直角坐标平面上可以作出无数 条直线,我们把所有直线中最接近散点图中全部散点的直线用来表示

7、x与y的直线关系,这条直线称为回归直线。,下一张,主 页,退 出,上一张,其中,a是的估计值,b是的估计值。 a、b应使回归估计值 与实际观测值y的偏差平方和最小,即:,根据微积分学中的求极值的方法,令 Q对a、b的一阶偏导数等于0,即:,最 小,整理得关于a、b的正规方程组:,下一张,主 页,退 出,上一张,解正规方程组,得:,(8-3),(8-4),(8-3)式中的分子是自变量x的离均差 与 依 变 量 y 的 离 均 差 的 乘 积和 ,简 称 乘积和,记作 ,分母是自变量x的离均差 平方和 ,记作SSX。 a叫做样本回归截距,是回归直线与 y轴交点的纵坐标,当x=0时, =a;,b叫做

8、样本回归系数,表 示 x 改 变一个单位,y平均改变的数量;b 的符号反映了x影响y的性质,b的绝对值大小反映了 x 影响 y 的 程度;,回归方程的基本性质: 如果将(8-4)式代入(8-2)式,得到回归方程的另一种形式(中心化形式):,下一张,主 页,退 出,上一张,(8-5),【例8.1】在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(g)与70日龄重(g)的数据,试建立70日龄重(y)与雏鹅重(x)的直线回归方程。,表8-1 四川白鹅雏鹅重与70日龄重测定结果 (单位:g),下一张,主 页,退 出,上一张,1、作散点图 以雏鹅重(x)为横坐标,70日龄重(y)为纵坐标作散点图,见图

9、8-3。 2、计算回归截距a,回归系数b,建立直线回归方程 首先根据实际观测值计算出 下 列数据:,下一张,主 页,退 出,上一张,进而计算出b、a:,得到四川白鹅的70日龄重y对雏鹅重x的 直线回归方程为:,根据直线回归方程可作出回归直线,见图8-3。从图8-3看出,并不是所有的散点都恰好落在回归直线上,这说明用 去估计y是有偏差的。,下一张,主 页,退 出,上一张,3、直线回归的偏离度估计 偏差平方和 的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为n-2。于是可求得离回归均方为: 离回归均方是模型(8-1)中

10、2的估计值。 离回归均方的平方根叫离回归标准误,记为 ,即,(8-6) 离回归标准误Syx的大小表示了回归直线与实测点偏差的程度,即回归估测值 与 实 际观测值y偏差的程度,于是我们把离回归标准误Syx用来表示回归方程的偏离度。,下一张,主 页,退 出,上一张,以后我们将证明: (8-7) 利用(8-7)式先计算出 ,然后再代入(8-6)式求Syx 。,对于【例8.1】有,所以,二、直线回归的显著性检验 若x和y变量间并不存在直线关系, 但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程 =a+bx。 显然,这样的回归方程所反应的两个变量间 的直线关系是不真实的。 如何判断直

11、线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量x与y间是否存在直线关系。我们先探讨依变量y的变异,然后再作出统计推断。,下一张,主 页,退 出,上一张,1、直线回归的变异来源 图8-4 的分解图,从图8-4看到: 上式两端平方,然后对所有的n点求和,则有,下一张,主 页,退 出,上一张,由 于,所 以,于 是,所以有 (8-8) 反映了y的总变异程度,称为y的总平方和,记为SSy; 反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为SSR;,反映了除y与x存在直线关系以外的原因,包括随机误差所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr。

12、(8-8)式又可表示为: (8-9) 这表明y的总平方和剖分为 回归平方和 与离回归平方和两部分。与此相对应,y的总自由度dfy也划分为回归自由度dfr与离回归自由度dfr两部分,即,下一张,主 页,退 出,上一张,(8-10) 在直线回归分析中,回归自由度等于自变量的个数, 即 ;y 的 总 自 由度 ;离回归自由度 。于是: 离回归均方 , 回 归 均 方 。 2、回归关系显著性检验F检验,x与y两个变量间是否存在直线关系,可用F检验法进行检验。 无效假设HO:=0,备择假设HA:0。 在无效假设成立的条件下,回归均方与离回归均方的比值服从 和 的F分布,所以可以用 df1=1,df2=n

13、-2 (8-11),下一张,主 页,退 出,上一张,来检验回归关系即回归方程的显著性。 回归平方和还可用下面的公式计算得到: (8-12) (8-13) 根据(8-9)式,可得到离回归平方和计算公式为:,下一张,主 页,退 出,上一张,对于【例8.1】资料,有 而 。于是可以列出方差分析表进行回归关系显著性检验。,表8-2 四川白鹅70日龄重与雏鹅重回归关系 方差分析,下一张,主 页,退 出,上一张,因为 ,表明四川白鹅70日龄重与雏鹅重间存在极显著的直线关系。 3、回归系数的显著性检验t检验 采用回归系数的显著性检验t检验也可检验x与y间是否存在直线关系。回归系数显著性检验的无效假设和备择假

14、设为 HO:0,HA:0。,t 检验的计算公式为: (8-14) (8-15) 其中,Sb为回归系数标准误。,对于 【例8.1】 资 料 ,已计算得 故有,下一张,主 页,退 出,上一张,当 ,查t值表,得 因 , , 否定HO:0,接受HA:0,即直线回归系数b=21.7122是极显著的,表明四川白鹅 70 日龄重 与雏鹅重间存在极显著的直线关系,可用所建立的直线回归方程来进行 预测和控制。,F检验的结果与t检验的结果一致。 事实上,统计学已证明,在直线回归分析中,这二种检验方法是等价的,可任选一种进行检验。,下一张,主 页,退 出,上一张,特别要指出的是:利用直线回归方程进行预测或控制时,

15、一般 只 适 用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制 , 一 般只能内插,不要轻易外延。,第二节 直线相关,进行直线相关分析的基本任务在于根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量相关系数r并进行显著性检验。,下一张,主 页,退 出,上一张,一、决定系数和相关系数 在上一节中已经证明了等式: 从这个等式不难看到:y与x直线回归效果的好坏取决于回归平方和 与离回归平方和 的大小,或者说取决于回归平方和在y的总平方和 中所占的比例的大小。这个比例越大,y与x的直线回归效果就越好,反之则差。 我们把比值 叫 做 x 对 y 的决定系数 ( coefficient of determination),记为 r2,即,下一张,主 页,退 出,上一张,(8-24) 决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号