多重线性回归ppt课件

上传人:bin****86 文档编号:54613925 上传时间:2018-09-16 格式:PPT 页数:65 大小:1.20MB
返回 下载 相关 举报
多重线性回归ppt课件_第1页
第1页 / 共65页
多重线性回归ppt课件_第2页
第2页 / 共65页
多重线性回归ppt课件_第3页
第3页 / 共65页
多重线性回归ppt课件_第4页
第4页 / 共65页
多重线性回归ppt课件_第5页
第5页 / 共65页
点击查看更多>>
资源描述

《多重线性回归ppt课件》由会员分享,可在线阅读,更多相关《多重线性回归ppt课件(65页珍藏版)》请在金锄头文库上搜索。

1、多重线性回归 (Multiple Linear Regression),一、概述二、参数估计与假设检验三、回归方程评价与共线性诊断四、MLR分析策略五、进一步讨论的问题,提纲,多重线性回归是简单线性回归的推广,是多变量统计分析中的常用方法之一。多变量统计分析是研究客观事物中多种因素间相互依赖和作用统计规律性的一个数理统计学分支。,一、多重线性回归概述,一个结果变量Y和多个自变量(X1, X2 , , Xk)间的线性回归称为多重线性回归(MLR)。,应用: 探索疾病发生的危险因素; 确定自变量对因变量影响相对重要性; 用回归方程进行预测。,例1:某地13岁男童身高、体重、肺活量的实测数据(部分)

2、,问题:,身高、体重与肺活量有无线性关系? 用身高和体重预测肺活量有多高的精度? 单独用身高或体重是否也能达到同样效果? 身高对肺活量的贡献大,还是体重的贡献大?,回归方程:Y:结果变量/应变量/因变量 outcome variable response variable dependent variable X:自变量/解释变量independent variableexplanatory variable,a为截距(intercept),又称常数项(constant),表示各自变量均为0时y的平均估计值。 bi 称为偏回归系数(partial regression coefficient)

3、,简称为回归系数。,称为 y 的估计值或预测值(predicted value)。,例:根据某地29名13岁男童的身高x1(cm),体重x2(kg)和肺活量y(L)建立的回归方程为:,当x1=150,x2=32时, =1.9168, 表示对所有身高为150cm,体重为32kg的13岁男童,肺活量平均估计值为1.9168(L)。,1.MLR的参数估计 最小二乘法 (least square, LS) 基本思想 残差平方和 (sum of squares for residuals)最小,二、MLR的参数估计与假设检验,估计值与残差,估计值与残差有下列性质:,为最小。,Y的总变异分解:,未引进回归

4、时的总变异: (sum of squares about the mean of Y)引进回归以后的变异(剩余): (sum of squares about regression)回归的贡献,回归平方和: (sum of squares due to regression),2. 方程的假设检验,Y的总变异分解为两部分: 回归贡献U 剩余变异Q整个方程是否有意义,就看回归所能解释的变异U比剩余Q大多少而定。,假设检验为:各总体偏回归系数j均为0;:各总体偏回归系数j不全为0。,回归方程的方差分析表,例1资料方差分析表,3.偏回归系数的假设检验与可信区间,偏回归系数的t 检验:,n-m-1个自

5、由度,标准偏回归系数与自变量的贡献,决定系数:,决定系数(coefficient of determination),调整决定系数:,R2可用于检验多重回归方程的统计学意义:,H0:2=0; H1:20。 检验统计量为:,0R1。 当只有一个因变量y与一个自变量x时,R就等于y与x的简单相关系数之绝对值:R= | ryx | 当有多个自变量x1,x2,xm时,R的值比任何一个自变量与因变量的简单相关系数之绝对值大, 即:,复相关系数: R 反映的是应变量与自变量线性组合的总的相关关系,其性质:,剩余标准差,剩余标准差,剩余标准差的用途:,反映回归方程的估计精度; 可用于偏回归系数的假设检验;y

6、的容许区间估计;y的可信区间估计; 自变量的选择等。,因此,剩余标准差在回归分析中是一个非常重要的统计量。,三、回归方程评价与共线性诊断,复相关系数R :校正复相关系数Radj:剩余标准差:,赤池信息准则(AIC准则),统计量,选择 Cp 最接近p 的那个模型。,多重共线性的概念:,方差膨胀因子-VIF多重共线性严重程度的指标。,多重共线性的诊断: 简单相关系数,大于0.8;方差膨胀因子(VIF),VIF大于等于10;逐步回归检测法;丁元林,等. 多重线性回归分析中的常用共线性诊断方法. 数理医药学杂志. 2004; 17: 299.,直观判断法: (1)增加或减少一个自变量,回归系数的估计值

7、变化较大; (2)重要的自变量回归系数的标准误大,没有显著性; (3)某些自变量的回归系数与已知的研究结果相反; (4)相关矩阵中,自变量的相关系数较大。,多重共线性的处理: (1)经验方法 把VIF最大的从模型中剔除,再拟合模型和检验。 增加样本含量,可减小回归参数的方差,也可减小回归参数估计的标准误。 差分后变量之间的相关性要比差分前若许多; 利用先验信息 约束最小二乘估计; 变量变换:相对指标、构造指数、相加合并。 (2)逐步回归方法消除共线性,实例1的拟合:health_weight.sas,回归系数的估计 回归方程的假设检验 决定系数和剩余标准差 偏回归系数的假设检验 标准偏回归系数

8、与自变量的贡献 因变量的区间估计 衡量回归方程的标准 逐步回归以上内容在SAS中均可以用“proc reg” 完成。,Model的选项:Clb: 计算偏回归系数及其回归系数的假设检验与自变量均数95的可信区间。 Stb: 计算出标准偏回归系数(自变量对因变量的直接贡献)。 Cli : 计算每一观察值因变量期望值(均数)的95的可信区间 (95% CL Predict)。 Clm: 计算每一观测值因变量的95的容许区间 (95% CL Mean)。 VIF: 计算方差膨胀因子。,四、MLR分析策略,(一)数据类型: 定量 定性 等级 (二)多重线性回归要求: 应变量为定量指标,且满足线性回归的条

9、件 (LINE); 自变量无特殊要求,但要求与应变量的关系为线性。,1. 定量指标,二分类指标,常用0,1变量表示,如性别:,2. 定性指标,需定量化方可引入模型,多分类指标: 血型 (A,B,AB,O) x1=0, x2=0, x3=0 表示O型 x1=1, x2=0, x3=0 表示A型 x1=0, x2=1, x3=0 表示B型 x1=0, x2=0, x3=1 表示AB型哑变量(dummy)又称指示变量(indicator variable),只适合于分类变量中分类不多的情况。,3. 等级指标 可将等级直接数量化后引入模型; 以哑变量形式引入模型。,(三)变量筛选策略,对自变量进行描述

10、性分析、检验正态性、线性关系、与因变量的简单相关与回归分析。,1. 注重研究变量的策略,2. 最佳子集回归方程,缺点:计算量太大 ,不能保证引入回归方程的各自 变量 ,方程外的各自变量 。,优点:拟合的回归方程MS最小。,例2 数据,Title Optimal subset regression; data exe2; input x1 x2 x3 x4 y; cards; 13 7 26 19 11.5 16 6 19 14 10.2 15 11 40 34 19.8 24 10 32 26 19.8 . . . . . . . . . . . . . . . . . . . . . . .

11、 . . . . . . 21 8 29 17 13.7 22 11 39 38 25.3 19 12 15 33 21.6 10 7 17 20 9.7 21 9 18 19 15.3 29 13 14 38 28.3 35 14 24 34 29.8 18 10 11 35 21.6 ; proc reg; model y=x1 x2 x3 x4/selection=rsquare adjrsq mse cp aic best=6; run;,指定了选择模型的方法。 如缺省,表所有变量都选到模型中。,“best=n”用于指定选择子集的模型的最大个数, n。,解决办法: 剔除自变量 主成分回

12、归 岭回归,2. 应用条件(LINE),线性 (Linearity) 独立性 (Independence) 正态性 (Normality) 方差齐性 (Equal variance/Homogeneity),Linearity:自变量与因变量为线性关系。检验方法:散点图判断。Independent: 因变量y取值之间相互独立,即残差相互独立,不存在自相关。 检验方法:用专业知识判断;残差间相互独立的检验方法,使用线性回归过程中的DW检验。,DW统计量检验是否存在自相关。公式:DW值在0-4之间。,Normal distribution: 自变量的任何一个线性组合,因变量y均服从正态分布,即要求

13、残差服从正态分布。 检验方法:绘制标准化残差的直方图、茎叶图、PP图和QQ图)。,Model ; output out=aaa predicted=pred residual=resistdr=standarizedresi; plot residual. *(npp. nqq.); Run;,Equal variance/Homogeneity:在自变量X的取值范围内,不论X取什么值,Y都有相同的方差。即标准化残差的大小不随变量取值的改变而改变。检验方法:标准化残差图,绘制y的估计值(预测值)和标准化残差之间的散点图。图a-图f。Sample size: 样本量应是分析的变量数20倍以上,太小的样本量造成检验效能不足。 Collinearity diagnostics: 自变量之间不存在共线性。,例如根据血液流变学指标,建立心肌梗塞或脑卒中的预测 方程;根据流脑流行与历年的气温、湿度、降水量、日照时间、 平均风速等建立预测方程。,预测预报,危险 因素分析:在众多因素中筛选主要的影响因素,并可控制混杂因素和分析交互作用。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号