《相关与回归分析》PPT课件.ppt

上传人:自*** 文档编号:126627010 上传时间:2020-03-26 格式:PPT 页数:53 大小:961.50KB
返回 下载 相关 举报
《相关与回归分析》PPT课件.ppt_第1页
第1页 / 共53页
《相关与回归分析》PPT课件.ppt_第2页
第2页 / 共53页
《相关与回归分析》PPT课件.ppt_第3页
第3页 / 共53页
《相关与回归分析》PPT课件.ppt_第4页
第4页 / 共53页
《相关与回归分析》PPT课件.ppt_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《《相关与回归分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《相关与回归分析》PPT课件.ppt(53页珍藏版)》请在金锄头文库上搜索。

1、相关分析与回归分析 返回总目录 相关分析 1 相关关系的概念及分类 1 相关关系的概念 变量之间的依存关系可以分为函数关系和相关关系两种 函数关系是指变量之间保持着严格的依存关系 呈现一一对应的特征 而相关关系是指变量之间保持着不确定的依存关系 线性相关用于双变量正态分布的资料 体现相关程度的指标 相关系数r 取值范围 1 r 1 返回本章 2 相关关系的识别 1 散点图 识别变量间相关关系最简单的方法就是图形法 图形法就是将所研究变量的观测值以散点的形式绘制在相应的坐标系中 通过它们呈现出的特征 来判断变量之间是否存在相关关系 以及相关的形式 相关的方向和相关的程度等 也可以用于发现异常值

2、典型的散点图 同向变化正相关 反向变化负相关 曲线相关 无线性相关 无伴随变化趋势 无伴随变化趋势 无伴随变化趋势 2 相关系数 样本相关系数的计算公式 分母 XY的协方差 分子 X的方差开根号 Y的方差开根号样本相关系数是根据样本观测值计算的 随着取样的不同 相关系数的值也会有所变化 可以证明 样本相关系数是总体相关系数的一致估计量 相关系数 衡量两个变量之间线性相关关系的重要指标 相关系数的特点 相关系数的符号代表着变量间的相关方向 r 0说明两个变量之间正相关 r 0则表明两个变量之间负相关 相关关系的取值介于 1和1之间 它的绝对值越接近于1 意味着变量之间的线性相关程度越强 r 1或

3、r 1时 说明两个变量之间完全线性相关 r 0 说明两个变量之间不存在线性相关 r的绝对值介于0和1之间时 则说明两个变量之间存在一定程度的线性相关 相关系数强度 两变量相关强度的强弱分以下几个等级 当 r 0 8 视为高度相关当0 5 r 0 8 视为中度相关 当0 3 r 0 5 视为低度相关 当 r 0 3 表明2个变量之间的相关程度极弱 在实际应用中可视为不相关 相关系数的检验 提出假设 计算t检验统计量 返回本章 返回总目录 举例 举例 分析红细胞内铁含量与血红蛋白的关系 SPSS实现 散点图 SPSS实现 散点图 SPSS实现 相关系数 正态性检验 正态资料的用 pearson 非

4、正态选 spearman 得出 相关系数r 0 744双侧Pearson检验P 0 001 有统计学意义 可见 铁含量与血红蛋白相关 相关分析注意事项 直线相关条件 变量是正态分布的随机变量 应用直线相关注意事项 必需有实际意义Pearson相关系数相关分析中变量X Y服从双变量正态分布散点图的作用分层资料对相关的解释 线性回归分析 1 回归分析概述 1 回归分析的概念 在相关分析确定了变量之间相关关系的基础上 采用一定的计算方法 建立起变量间数量变动关系的公式 并根据一个变量的变化来估计或预测另一个变量发展变化的研究方法 就是回归分析 基本思想 使样本点到回归直线的纵向距离的平方和最小 点都

5、在线上 距离的平方和 0最好 完全相关 返回本章 回归分析和相关分析都是对变量之间不严格依存关系的分析 在理论基础和方法上具有一致性 只有存在相关关系的变量才能进行回归分析 相关程度越高 回归分析结果越可靠 方向一致 一组数据得出的b和r 符号一致 假设检验等价 对于同一个样本 假设检验得到的tb和tr值相等 回归可以解释相关 决定系数r2 SS回 SS总 则r2就越接近1 说明相关性好 返回本章 回归分析和相关关系之间的联系 回归分析和相关关系之间的区别 资料要求不同 线性相关要求两个变量X和Y服从双变量正态分布的随机变量 线性回归要求Y是服从正态分布的随机变量 而X不一定 应用目的 意义不

6、同 相关关系 数量关系 回归系数b表示X每增减一个单位时 Y平均改变b个单位 相关系数r说明具有线性关联的的两个变量间关系的密切程度与相关方向 计算方法不同 b lxy lxx r lxy lxylxx取值范围不同 单位 b有量纲 受X Y计量单位的影响 r无量纲 不受X Y计量单位的影响 线性回归模型的前提条件 线性 linear X与Y值之间线性趋势独立 independent 个体观察值间独立正态 normal 给定X 对应的Y服从正态分布等方差 equalvariance 不同X所对应Y的方差相等 绘制散点图 计算相关系数 研究设计 专业知识判断 正态性检验 正态概率P P图残差图 X

7、和Y的散点图残差图正态性检验 线性回归的步骤 1 根据样本数据求得模型参数 0 1 2 m 的估计值 b0b1b2 bm 得到总体回归方程 Y 0 1X1 2X2 mXm的估计值 参数估计 最常用最小二乘法 2 对回归方程及各自变量做假设检验 对方程的拟合效果及各自变量的作用大小做出评价 假设检验 回归方程 各个自变量 2 回归模型的建立 当变量之间存在显著的线性相关关系时 可以建立如下的线性回归模型来表述这种关系 总体线性回归模型为 式中 代表因变量的第i个观测值 代表自变量的第i个观测值 是模型的参数 又称偏回归系数 偏回归系数 1 2 m的意义 在其他变量取值不变的条件下 X每增加或减少

8、一个单位时 Y的平均变化量 线性回归模型参数的估计方法通常有两种 普通最小二乘法和最大似然估计法 最常用的是普通最小二乘法 最小二乘法的意义在于使达到最小 出使估计值Y和实际观察值Y得残差平方和达到最小值 得到的的两个公式为 3 模型的检验 在回归模型估计出来以后 首先要对其进行一系列的检验 只有通过了检验的模型才能用于对总体变量的估计或预测 1 拟合优度的检验 决定系数 因变量的样本观测值与其均值的离差称为总离差 记为 按其来源 总离差可以分解为两个部分 一是因变量的回归值与其样本均值之间的离差 记为 它代表能够由回归方程所解释的部分 称为回归离差 二是样本观测值与回归值之间的离差 记为 它

9、表示的是不能由回归方程解释的部分 称为剩余离差 残差 返回本章 决定系数是衡量自变量对因变量变动的解释程度的指标 它取决于回归方程所解释的y的总离差的百分比 决定系数的公式定义为 决定系数 SS回归 SS总校正决定系数 n为样本容量 k为自变量的个数 意义 用于衡量方程好坏的指标之一 只有有统计学意义的变量进入方程 Radj才会增加 估计标准误差 SE 估计标准误差是回归模型 即估计值 与因变量观测值之间得平均平方误差 这个误差的值越小 说明估计值越接近真实值 回归模型的拟合度越好 估计标准误差的计算公式为 作为回归模型拟合优度的评价指标 估计标准误差显然不如决定系数 因为决定系数是无量纲的系

10、数 并且有确定的取值范围 0 1 便于对不同资料回归模型拟合优度的比较 返回本章 返回总目录 2 显著性检验 通常回归模型的显著性检验包括系数的检验和方程整体的检验两个部分 回归系数的显著性检验是指根据样本计算结果对总体回归系数有关假设所进行的检验 它的主要目的是了解总体自变量与因变量之间是否真正存在样本回归模型所表述的相关关系 回归系数的检验 t检验 返回本章 返回总目录 方程整体性检验 F检验 假设检验 对整个模型的检验 对模型的假设检验 方差分析法 F检验 对模型进行整体检验 H0 1 2 m 0H1 1 2 m不全为0统计量 F不拒绝H0 回归模型无统计学意义拒绝H0 回归模型有统计学

11、意义 假设检验 对各偏回归系数的假设检验 t检验 H0 j 0 H1 j 0单个回归系数的t检验 表示其它m 1个自变量均在当前回归模型中存在时 Xj的回归系数 j是否为0的假设检验 假设检验 各回归系数偏回归平方和的F检验 P 第L步时 方程中自变量的个数SS回l Xj 第L步时 Xj的偏回归平方和SS残l Xj 第L步时的残差平方和回归系数偏回归平方和的F检验 表示其它m 1个自变量均在当前回归模型中存在时 Xj的回归系数 j是否为0的假设检验 与单个回归系数的t检验等价 最佳预测模型选择准则1 最小残差平方和 最大决定系数准则 条件 自变量个数相同时使用 最佳预测模型选择准则2 最小残差

12、均方 最大调整决定系数准则 较最小残差平方和准则合理 考虑变量数量 自变量筛选 全局择优法 对自变量各种不同的组合建立的回归方程进行比较 从全部组合中确定最优回归方程 残差均方最小或调整R2最大的回归方程 适用于自变量较少的情况 缺点 自变量较多时 计算量大 如自变量数 6时 需考虑26 1 63个方程 自变量数 10时 需考虑210 1 1024个方程 自变量筛选 逐步选择法是实际应用中普遍使用的方法根据选入变量的顺序不同分为 前进法 forwardselection 后退法 backwardselection 逐步回归法 stepwiseregression 共性 每一步只引入或剔除一个自

13、变量Xj假设检验方法 对偏回归平方和的F检验 前进法 自变量从无到有 从少到多 逐个引入回归方程1 第一个入选自变量的确定 用因变量Y对每一自变量分别做直线回归 对回归平方和最大的自变量做F检验 有统计学意义则引入模型2 对其它变量 在已选入第一个自变量的基础上 计算其它自变量的偏回归平方和 最大的偏回归平方和F检验有统计学意义 则引入3 重复步骤2 直至没有自变量可以引入为止 优点 可自动去掉高度相关的自变量 一个进入方程后 其它的进不来了 局限性 后续变量的引入 可能会使在其之前进入方程的自变量变得无统计学意义 后退法 1 因变量Y对所有自变量同时做线性回归2 对方程中偏 净 回归平方和最

14、小的变量做F检验 无统计学意义 则剔除3 因变量Y对剩余的所有自变量同时做线性回归4 重复第2步 直至方程中的自变量均不能剔除为止优点 考虑了自变量的组合作用局限性 当自变量数目较多 或某些自变量间高度相关时 可能得不出正确结果 有共线性时 模型参数估计不稳定 逐步回归法 常用 在前进和后退法的基础上 双向筛选变量的方法 本质是前进法 1 引入第一个自变量进入方程 用因变量Y对每一自变量分别做直线回归 对回归平方和最大的自变量做F检验 有统计学意义则引入模型2 对方程中的每一个自变量 做偏回归平方和的F检验 剔除 退化 为无统计学意义的自变量 确保每次引进新变量前 方程中的自变量均有统计学意义

15、 按剔出标准 3 重复1和2 直至既无自变量可以引入 也无自变量可以剔除为止 自变量筛选的检验水准 值小 选取自变量的标准严 选入的自变量少 值大 选取自变量的标准宽 选入的自变量多在逐步选择中 入 出 小样本时 一般定为 0 10或0 15大样本时 一般定为 0 05 多重回归的应用 影响因素分析 不追求最大R2值 根据专业知识和回归系数改变量确定变量 可以用于疾病的影响因素分析 如遗传特征 感染途径 程度 自身免疫等 估计与预测 应选择有较高R2值的模型 举例 儿童的性别 年龄别 身高 体重评价生长发育胎儿的孕周 头颈 胸径和腹径预测出生体重统计控制 回归模型的R2值大 回归系数标准误小

16、利用回归方程逆估计 通过控制自变量的值控制Y值举例 射频治疗仪治疗脑肿瘤 脑皮质毁损半径均数 0 1射频温度 2照射时间按脑皮质毁损半径预定值 确定最佳射频温度和照射时间 共线性诊断 定义 一个或几个回归变量可以由其它的回归变量线性表示时 称回归变量间有共线性 后果 自变量间共线性很高时 最小二乘估计参数不确定 无法取得参数的正确估计值 导致回归系数与专业知识相反 或重要变量不能纳入模型 多重共线性检验 多重共线性是多元回归分析中特有的问题 简单回归不存在此问题 用于检验各个自变量之间是否是无关的 共线性诊断 特征根 多个维度特征根约为0证明存在多重共线性 条件指数 conditionindex k 大于10提示存在 030严重共线性VIF 大于5 存在严重共线性方差比例 同一特征值序号上两或几个系数方差比例较大时 存在共线性 方差比例越大 共线性越大 多重共线性的对策 增大样本量 可部分的解决共线性问题采用多种自变量筛选方法相结合的方式 建立一个最优的逐步回归方程 从专业的角度加以判断 人为的去除在专业上比较次要的 或者缺失值比较多 测量误差比较大的共线性因子 进行主成分分析 用提取

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号