《相关与回归分析》PPT课件.ppt

资源描述

《《相关与回归分析》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《相关与回归分析》PPT课件.ppt（53页珍藏版）》请在金锄头文库上搜索。

1、相关分析与回归分析返回总目录相关分析 1 相关关系的概念及分类 1 相关关系的概念变量之间的依存关系可以分为函数关系和相关关系两种函数关系是指变量之间保持着严格的依存关系呈现一一对应的特征而相关关系是指变量之间保持着不确定的依存关系线性相关用于双变量正态分布的资料体现相关程度的指标相关系数r 取值范围 1 r 1 返回本章 2 相关关系的识别 1 散点图识别变量间相关关系最简单的方法就是图形法图形法就是将所研究变量的观测值以散点的形式绘制在相应的坐标系中通过它们呈现出的特征来判断变量之间是否存在相关关系以及相关的形式相关的方向和相关的程度等也可以用于发现异常值

2、典型的散点图同向变化正相关反向变化负相关曲线相关无线性相关无伴随变化趋势无伴随变化趋势无伴随变化趋势 2 相关系数样本相关系数的计算公式分母 XY的协方差分子 X的方差开根号 Y的方差开根号样本相关系数是根据样本观测值计算的随着取样的不同相关系数的值也会有所变化可以证明样本相关系数是总体相关系数的一致估计量相关系数衡量两个变量之间线性相关关系的重要指标相关系数的特点相关系数的符号代表着变量间的相关方向 r 0说明两个变量之间正相关 r 0则表明两个变量之间负相关相关关系的取值介于 1和1之间它的绝对值越接近于1 意味着变量之间的线性相关程度越强 r 1或

3、r 1时说明两个变量之间完全线性相关 r 0 说明两个变量之间不存在线性相关 r的绝对值介于0和1之间时则说明两个变量之间存在一定程度的线性相关相关系数强度两变量相关强度的强弱分以下几个等级当 r 0 8 视为高度相关当0 5 r 0 8 视为中度相关当0 3 r 0 5 视为低度相关当 r 0 3 表明2个变量之间的相关程度极弱在实际应用中可视为不相关相关系数的检验提出假设计算t检验统计量返回本章返回总目录举例举例分析红细胞内铁含量与血红蛋白的关系 SPSS实现散点图 SPSS实现散点图 SPSS实现相关系数正态性检验正态资料的用 pearson 非

4、正态选 spearman 得出相关系数r 0 744双侧Pearson检验P 0 001 有统计学意义可见铁含量与血红蛋白相关相关分析注意事项直线相关条件变量是正态分布的随机变量应用直线相关注意事项必需有实际意义Pearson相关系数相关分析中变量X Y服从双变量正态分布散点图的作用分层资料对相关的解释线性回归分析 1 回归分析概述 1 回归分析的概念在相关分析确定了变量之间相关关系的基础上采用一定的计算方法建立起变量间数量变动关系的公式并根据一个变量的变化来估计或预测另一个变量发展变化的研究方法就是回归分析基本思想使样本点到回归直线的纵向距离的平方和最小点都

5、在线上距离的平方和 0最好完全相关返回本章回归分析和相关分析都是对变量之间不严格依存关系的分析在理论基础和方法上具有一致性只有存在相关关系的变量才能进行回归分析相关程度越高回归分析结果越可靠方向一致一组数据得出的b和r 符号一致假设检验等价对于同一个样本假设检验得到的tb和tr值相等回归可以解释相关决定系数r2 SS回 SS总则r2就越接近1 说明相关性好返回本章回归分析和相关关系之间的联系回归分析和相关关系之间的区别资料要求不同线性相关要求两个变量X和Y服从双变量正态分布的随机变量线性回归要求Y是服从正态分布的随机变量而X不一定应用目的意义不

6、同相关关系数量关系回归系数b表示X每增减一个单位时 Y平均改变b个单位相关系数r说明具有线性关联的的两个变量间关系的密切程度与相关方向计算方法不同 b lxy lxx r lxy lxylxx取值范围不同单位 b有量纲受X Y计量单位的影响 r无量纲不受X Y计量单位的影响线性回归模型的前提条件线性 linear X与Y值之间线性趋势独立 independent 个体观察值间独立正态 normal 给定X 对应的Y服从正态分布等方差 equalvariance 不同X所对应Y的方差相等绘制散点图计算相关系数研究设计专业知识判断正态性检验正态概率P P图残差图 X

7、和Y的散点图残差图正态性检验线性回归的步骤 1 根据样本数据求得模型参数 0 1 2 m 的估计值 b0b1b2 bm 得到总体回归方程 Y 0 1X1 2X2 mXm的估计值参数估计最常用最小二乘法 2 对回归方程及各自变量做假设检验对方程的拟合效果及各自变量的作用大小做出评价假设检验回归方程各个自变量 2 回归模型的建立当变量之间存在显著的线性相关关系时可以建立如下的线性回归模型来表述这种关系总体线性回归模型为式中代表因变量的第i个观测值代表自变量的第i个观测值是模型的参数又称偏回归系数偏回归系数 1 2 m的意义在其他变量取值不变的条件下 X每增加或减少

8、一个单位时 Y的平均变化量线性回归模型参数的估计方法通常有两种普通最小二乘法和最大似然估计法最常用的是普通最小二乘法最小二乘法的意义在于使达到最小出使估计值Y和实际观察值Y得残差平方和达到最小值得到的的两个公式为 3 模型的检验在回归模型估计出来以后首先要对其进行一系列的检验只有通过了检验的模型才能用于对总体变量的估计或预测 1 拟合优度的检验决定系数因变量的样本观测值与其均值的离差称为总离差记为按其来源总离差可以分解为两个部分一是因变量的回归值与其样本均值之间的离差记为它代表能够由回归方程所解释的部分称为回归离差二是样本观测值与回归值之间的离差记为它

9、表示的是不能由回归方程解释的部分称为剩余离差残差返回本章决定系数是衡量自变量对因变量变动的解释程度的指标它取决于回归方程所解释的y的总离差的百分比决定系数的公式定义为决定系数 SS回归 SS总校正决定系数 n为样本容量 k为自变量的个数意义用于衡量方程好坏的指标之一只有有统计学意义的变量进入方程 Radj才会增加估计标准误差 SE 估计标准误差是回归模型即估计值与因变量观测值之间得平均平方误差这个误差的值越小说明估计值越接近真实值回归模型的拟合度越好估计标准误差的计算公式为作为回归模型拟合优度的评价指标估计标准误差显然不如决定系数因为决定系数是无量纲的系

10、数并且有确定的取值范围 0 1 便于对不同资料回归模型拟合优度的比较返回本章返回总目录 2 显著性检验通常回归模型的显著性检验包括系数的检验和方程整体的检验两个部分回归系数的显著性检验是指根据样本计算结果对总体回归系数有关假设所进行的检验它的主要目的是了解总体自变量与因变量之间是否真正存在样本回归模型所表述的相关关系回归系数的检验 t检验返回本章返回总目录方程整体性检验 F检验假设检验对整个模型的检验对模型的假设检验方差分析法 F检验对模型进行整体检验 H0 1 2 m 0H1 1 2 m不全为0统计量 F不拒绝H0 回归模型无统计学意义拒绝H0 回归模型有统计学

11、意义假设检验对各偏回归系数的假设检验 t检验 H0 j 0 H1 j 0单个回归系数的t检验表示其它m 1个自变量均在当前回归模型中存在时 Xj的回归系数 j是否为0的假设检验假设检验各回归系数偏回归平方和的F检验 P 第L步时方程中自变量的个数SS回l Xj 第L步时 Xj的偏回归平方和SS残l Xj 第L步时的残差平方和回归系数偏回归平方和的F检验表示其它m 1个自变量均在当前回归模型中存在时 Xj的回归系数 j是否为0的假设检验与单个回归系数的t检验等价最佳预测模型选择准则1 最小残差平方和最大决定系数准则条件自变量个数相同时使用最佳预测模型选择准则2 最小残差

12、均方最大调整决定系数准则较最小残差平方和准则合理考虑变量数量自变量筛选全局择优法对自变量各种不同的组合建立的回归方程进行比较从全部组合中确定最优回归方程残差均方最小或调整R2最大的回归方程适用于自变量较少的情况缺点自变量较多时计算量大如自变量数 6时需考虑26 1 63个方程自变量数 10时需考虑210 1 1024个方程自变量筛选逐步选择法是实际应用中普遍使用的方法根据选入变量的顺序不同分为前进法 forwardselection 后退法 backwardselection 逐步回归法 stepwiseregression 共性每一步只引入或剔除一个自

13、变量Xj假设检验方法对偏回归平方和的F检验前进法自变量从无到有从少到多逐个引入回归方程1 第一个入选自变量的确定用因变量Y对每一自变量分别做直线回归对回归平方和最大的自变量做F检验有统计学意义则引入模型2 对其它变量在已选入第一个自变量的基础上计算其它自变量的偏回归平方和最大的偏回归平方和F检验有统计学意义则引入3 重复步骤2 直至没有自变量可以引入为止优点可自动去掉高度相关的自变量一个进入方程后其它的进不来了局限性后续变量的引入可能会使在其之前进入方程的自变量变得无统计学意义后退法 1 因变量Y对所有自变量同时做线性回归2 对方程中偏净回归平方和最

14、小的变量做F检验无统计学意义则剔除3 因变量Y对剩余的所有自变量同时做线性回归4 重复第2步直至方程中的自变量均不能剔除为止优点考虑了自变量的组合作用局限性当自变量数目较多或某些自变量间高度相关时可能得不出正确结果有共线性时模型参数估计不稳定逐步回归法常用在前进和后退法的基础上双向筛选变量的方法本质是前进法 1 引入第一个自变量进入方程用因变量Y对每一自变量分别做直线回归对回归平方和最大的自变量做F检验有统计学意义则引入模型2 对方程中的每一个自变量做偏回归平方和的F检验剔除退化为无统计学意义的自变量确保每次引进新变量前方程中的自变量均有统计学意义

15、按剔出标准 3 重复1和2 直至既无自变量可以引入也无自变量可以剔除为止自变量筛选的检验水准值小选取自变量的标准严选入的自变量少值大选取自变量的标准宽选入的自变量多在逐步选择中入出小样本时一般定为 0 10或0 15大样本时一般定为 0 05 多重回归的应用影响因素分析不追求最大R2值根据专业知识和回归系数改变量确定变量可以用于疾病的影响因素分析如遗传特征感染途径程度自身免疫等估计与预测应选择有较高R2值的模型举例儿童的性别年龄别身高体重评价生长发育胎儿的孕周头颈胸径和腹径预测出生体重统计控制回归模型的R2值大回归系数标准误小

16、利用回归方程逆估计通过控制自变量的值控制Y值举例射频治疗仪治疗脑肿瘤脑皮质毁损半径均数 0 1射频温度 2照射时间按脑皮质毁损半径预定值确定最佳射频温度和照射时间共线性诊断定义一个或几个回归变量可以由其它的回归变量线性表示时称回归变量间有共线性后果自变量间共线性很高时最小二乘估计参数不确定无法取得参数的正确估计值导致回归系数与专业知识相反或重要变量不能纳入模型多重共线性检验多重共线性是多元回归分析中特有的问题简单回归不存在此问题用于检验各个自变量之间是否是无关的共线性诊断特征根多个维度特征根约为0证明存在多重共线性条件指数 conditionindex k 大于10提示存在 030严重共线性VIF 大于5 存在严重共线性方差比例同一特征值序号上两或几个系数方差比例较大时存在共线性方差比例越大共线性越大多重共线性的对策增大样本量可部分的解决共线性问题采用多种自变量筛选方法相结合的方式建立一个最优的逐步回归方程从专业的角度加以判断人为的去除在专业上比较次要的或者缺失值比较多测量误差比较大的共线性因子进行主成分分析用提取

展开阅读全文