202X年统计直线回归与直线相关

上传人:tang****xu2 文档编号:134772447 上传时间:2020-06-08 格式:PPT 页数:63 大小:638.50KB
返回 下载 相关 举报
202X年统计直线回归与直线相关_第1页
第1页 / 共63页
202X年统计直线回归与直线相关_第2页
第2页 / 共63页
202X年统计直线回归与直线相关_第3页
第3页 / 共63页
202X年统计直线回归与直线相关_第4页
第4页 / 共63页
202X年统计直线回归与直线相关_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《202X年统计直线回归与直线相关》由会员分享,可在线阅读,更多相关《202X年统计直线回归与直线相关(63页珍藏版)》请在金锄头文库上搜索。

1、第八章直线回归与相关 前面各章我们讨论的问题 都只涉及到一个变量 如体重 日增重 产仔数 体温 血糖浓度 产奶量 产毛量或孵化率 发病率等 但是 由于客观事物在发展过程中相互联系 相互影响 因而在畜牧 水产等试验研究中常常要研究两个或两个以上变量间的关系 下一张 主页 退出 上一张 例如 变量间的关系有两类 一类是变量间存在着完全确定性的关系 可以用精确的数学表达式来表示 如长方形的面积 S 与长 a 和宽 b 的关系可以表达为 S ab 它们之间的关系是确定性的 只要知道了其中两个变量的值就可以精确地计算出另一个变量的值 这类变量间的关系称为函数关系 下一张 主页 退出 上一张 另一类是变量

2、间不存在完全的确定性关系 不能用精确的数学公式来表示 如黄牛的体长与体重的关系 仔猪初生重与断奶重的关系 猪瘦肉率与背膘厚度 眼肌面积 胴体长等的关系等等 这些变量间都存在着十分密切的关系 但不能由一个或几个变量的值精确地求出另一个变量的值 像这样一类关系在生物界中是大量存在的 统计学中把这些变量间的关系称为相关关系 把存在相关关系的变量称为相关变量 下一张 主页 退出 上一张 相关变量间的关系一般分为两种 一种是因果关系 即一个变量的变化受另一个或几个变量的影响 如仔猪的生长速度受遗传特性 营养水平 饲养管理条件等因素的影响 子代的体高受亲本体高的影响 另一种是平行关系 它们互为因果或共同受

3、到另外因素的影响 如黄牛的体长和胸围之间的关系 猪的背膘厚度和眼肌面积之间的关系等都属于平行关系 下一张 主页 退出 上一张 统计学上采用回归分析 regressionanalysis 研究呈因果关系的相关变量间的关系 表示原因的变量称为自变量 表示结果的变量称为依变量 研究 一因一果 即一个自变量与一个依变量的回归分析称为一元回归分析 研究 多因一果 即多个自变量与一个依变量的回归分析称为多元回归分析 一元回归分析又分为直线回归分析与曲线回归分析两种 多元回归分析又分为多元线性回归分析与多元非线性回归分析两种 下一张 主页 退出 上一张 回归分析的任务是揭示出呈因果关系的相关变量间的联系形式

4、 建立它们之间的回归方程 利用所建立的回归方程 由自变量 原因 来预测 控制依变量 结果 统计学上采用相关分析 correlationanalysis 研究呈平行关系的相关变量之间的关系 对两个变量间的直线关系进行相关分析称为简单相关分析 也叫直线相关分析 对多个变量进行相关分析时 研究一个变量与多个变量间的线性相关称为复相关分析 研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析 下一张 主页 退出 上一张 第一节直线回归 一 直线回归方程的建立对于两个相关变量 一个变量用x表示 另一个变量用y表示 如果通过试验或调查获得两个变量的n对观测值 x1 y1 x2 y2 xn yn

5、下一张 主页 退出 上一张 为了直观地看出x和y间的变化趋势 可将每一对观测值在平面直角坐标系描点 作出散点图 见图8 1 从散点图 图8 1 可以看出 两个变量间直线关系的性质 是正相关还是负相关 和程度 是相关密切还是不密切 下一张 主页 退出 上一张 散点图直观地 定性地表示了两个变量之间的关系 为了探讨它们之间的规律性 还必须根据观测值将其内在关系定量地表达出来 两个变量间有关或无关 若有关 两个变量间关系类型 是直线型还是曲线型 如果呈因果关系的两个相关变量y 依变量 与x 自变量 间的关系是直线关系 根据n对观测值所描出的散点图 如图8 1 b 和图8 1 e 所示 由于依变量y的

6、实际观测值总是带有随机误差 因而依变量y的实际观测值yi可用自变量x的实际观测值xi表示为 i 1 2 n 8 1 其中 x为可以观测的一般变量 也可以是可以观测的随机变量 y为可以观测的随机变量 这就是直线回归的数学模型 我们可以根据实际观测值对 以及方差做出估计 i为相互独立 且都服从N 0 的随机变量 在x y直角坐标平面上可以作出无数条直线 我们把所有直线中最接近散点图中全部散点的直线用来表示x与y的直线关系 这条直线称为回归直线 下一张 主页 退出 上一张 其中 a是 的估计值 b是 的估计值 a b应使回归估计值与实际观测值y的偏差平方和最小 即 根据微积分学中的求极值的方法 令Q

7、对a b的一阶偏导数等于0 即 最小 整理得关于a b的正规方程组 下一张 主页 退出 上一张 解正规方程组 得 8 3 8 4 8 3 式中的分子是自变量x的离均差与依变量y的离均差的乘积和 简称乘积和 记作 分母是自变量x的离均差平方和 记作SSX a叫做样本回归截距 是回归直线与y轴交点的纵坐标 当x 0时 a b叫做样本回归系数 表示x改变一个单位 y平均改变的数量 b的符号反映了x影响y的性质 b的绝对值大小反映了x影响y的程度 回归方程的基本性质 如果将 8 4 式代入 8 2 式 得到回归方程的另一种形式 中心化形式 下一张 主页 退出 上一张 8 5 例8 1 在四川白鹅的生产

8、性能研究中 得到如下一组关于雏鹅重 g 与70日龄重 g 的数据 试建立70日龄重 y 与雏鹅重 x 的直线回归方程 表8 1四川白鹅雏鹅重与70日龄重测定结果 单位 g 下一张 主页 退出 上一张 1 作散点图以雏鹅重 x 为横坐标 70日龄重 y 为纵坐标作散点图 见图8 3 2 计算回归截距a 回归系数b 建立直线回归方程首先根据实际观测值计算出下列数据 下一张 主页 退出 上一张 进而计算出b a 得到四川白鹅的70日龄重y对雏鹅重x的直线回归方程为 根据直线回归方程可作出回归直线 见图8 3 从图8 3看出 并不是所有的散点都恰好落在回归直线上 这说明用去估计y是有偏差的 下一张 主

9、页 退出 上一张 3 直线回归的偏离度估计偏差平方和的大小表示了实测点与回归直线偏离的程度 因而偏差平方和又称为离回归平方和 统计学已经证明 在直线回归分析中离回归平方和的自由度为n 2 于是可求得离回归均方为 离回归均方是模型 8 1 中 2的估计值 离回归均方的平方根叫离回归标准误 记为 即 8 6 离回归标准误Syx的大小表示了回归直线与实测点偏差的程度 即回归估测值与实际观测值y偏差的程度 于是我们把离回归标准误Syx用来表示回归方程的偏离度 下一张 主页 退出 上一张 以后我们将证明 8 7 利用 8 7 式先计算出 然后再代入 8 6 式求Syx 对于 例8 1 有 所以 二 直线

10、回归的显著性检验若x和y变量间并不存在直线关系 但由n对观测值 xi yi 也可以根据上面介绍的方法求得一个回归方程 a bx 显然 这样的回归方程所反应的两个变量间的直线关系是不真实的 如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢 这取决于变量x与y间是否存在直线关系 我们先探讨依变量y的变异 然后再作出统计推断 下一张 主页 退出 上一张 1 直线回归的变异来源图8 4的分解图 从图8 4看到 上式两端平方 然后对所有的n点求和 则有 下一张 主页 退出 上一张 由于 所以 于是 所以有 8 8 反映了y的总变异程度 称为y的总平方和 记为SSy 反映了由于y与x间存在直线关

11、系所引起的y的变异程度 称为回归平方和 记为SSR 反映了除y与x存在直线关系以外的原因 包括随机误差所引起的y的变异程度 称为离回归平方和或剩余平方和 记为SSr 8 8 式又可表示为 8 9 这表明y的总平方和剖分为回归平方和与离回归平方和两部分 与此相对应 y的总自由度dfy也划分为回归自由度dfr与离回归自由度dfr两部分 即 下一张 主页 退出 上一张 8 10 在直线回归分析中 回归自由度等于自变量的个数 即 y的总自由度 离回归自由度 于是 离回归均方 回归均方 2 回归关系显著性检验 F检验 x与y两个变量间是否存在直线关系 可用F检验法进行检验 无效假设HO 0 备择假设HA

12、 0 在无效假设成立的条件下 回归均方与离回归均方的比值服从和的F分布 所以可以用df1 1 df2 n 2 8 11 下一张 主页 退出 上一张 来检验回归关系即回归方程的显著性 回归平方和还可用下面的公式计算得到 8 12 8 13 根据 8 9 式 可得到离回归平方和计算公式为 下一张 主页 退出 上一张 对于 例8 1 资料 有而 于是可以列出方差分析表进行回归关系显著性检验 表8 2四川白鹅70日龄重与雏鹅重回归关系方差分析 下一张 主页 退出 上一张 因为 表明四川白鹅70日龄重与雏鹅重间存在极显著的直线关系 3 回归系数的显著性检验 t检验采用回归系数的显著性检验 t检验也可检验

13、x与y间是否存在直线关系 回归系数显著性检验的无效假设和备择假设为HO 0 HA 0 t检验的计算公式为 8 14 8 15 其中 Sb为回归系数标准误 对于 例8 1 资料 已计算得故有 下一张 主页 退出 上一张 当 查t值表 得因 否定HO 0 接受HA 0 即直线回归系数b 21 7122是极显著的 表明四川白鹅70日龄重与雏鹅重间存在极显著的直线关系 可用所建立的直线回归方程来进行预测和控制 F检验的结果与t检验的结果一致 事实上 统计学已证明 在直线回归分析中 这二种检验方法是等价的 可任选一种进行检验 下一张 主页 退出 上一张 特别要指出的是 利用直线回归方程进行预测或控制时

14、一般只适用于原来研究的范围 不能随意把范围扩大 因为在研究的范围内两变量是直线关系 这并不能保证在这研究范围之外仍然是直线关系 若需要扩大预测和控制范围 则要有充分的理论依据或进一步的实验依据 利用直线回归方程进行预测或控制 一般只能内插 不要轻易外延 第二节直线相关 进行直线相关分析的基本任务在于根据x y的实际观测值 计算表示两个相关变量x y间线性相关程度和性质的统计量 相关系数r并进行显著性检验 下一张 主页 退出 上一张 一 决定系数和相关系数在上一节中已经证明了等式 从这个等式不难看到 y与x直线回归效果的好坏取决于回归平方和与离回归平方和的大小 或者说取决于回归平方和在y的总平方

15、和中所占的比例的大小 这个比例越大 y与x的直线回归效果就越好 反之则差 我们把比值叫做x对y的决定系数 coefficientofdetermination 记为r2 即 下一张 主页 退出 上一张 8 24 决定系数的大小表示了回归方程估测可靠程度的高低 或者说表示了回归直线拟合度的高低 显然有0 r2 1 因为 而SPxy SSx是以x为自变量 y为依变量时的回归系数byx 若把y作为自变量 x作为依变量 则回归系数bxy SPxy Ssy 所以决定系数r2等于y对x的回归系数与x对y的回归系数的乘积 这就是说 决定系数反应了x为自变量 y为依变量和y为自变量 x为依变量时两个相关变量x

16、与y直线相关的信息 即决定系数表示了两个互为因果关系的相关变量间直线相关的程度 但决定系数介于0和1之间 不能反应直线关系的性质 是同向增减或是异向增减 下一张 主页 退出 上一张 若求r2的平方根 且取平方根的符号与乘积和SPxy的符号一致 即与bxy byx的符号一致 这样求出的平方根既可表示y与x的直线相关的程度 也可表示直线相关的性质 统计学上把这样计算所得的统计量称为x与y的相关系数 coefficientofcorrelation 记为r 即 8 25 8 26 下一张 主页 退出 上一张 二 相关系数的计算 例8 6 计算10只绵羊的胸围 cm 和体重 kg 的相关系数 表8 310只绵羊胸围和体重资料 下一张 主页 退出 上一张 根据表8 3所列数据先计算出 代入 8 25 式得 即绵羊胸围与体重的相关系数为0 8475 下一张 主页 退出 上一张 三 相关系数的显著性检验上述根据实际观测值计算得来的相关系数r是样本相关系数 它是双变量正态总体中的总体相关系数 的估计值 样本相关系数r是否来自 0的总体 还须对样本相关系数r进行显著性检验 此时无效假设 备择假设为HO

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号