多元回归分析首医大研究生2010

上传人:第*** 文档编号:48825211 上传时间:2018-07-21 格式:PPT 页数:42 大小:222.50KB
返回 下载 相关 举报
多元回归分析首医大研究生2010_第1页
第1页 / 共42页
多元回归分析首医大研究生2010_第2页
第2页 / 共42页
多元回归分析首医大研究生2010_第3页
第3页 / 共42页
多元回归分析首医大研究生2010_第4页
第4页 / 共42页
多元回归分析首医大研究生2010_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《多元回归分析首医大研究生2010》由会员分享,可在线阅读,更多相关《多元回归分析首医大研究生2010(42页珍藏版)》请在金锄头文库上搜索。

1、 Multi-Regression Analysis 多元回归分析童新元 中国人民解放军总医院引例什么是低碳经济?低碳经济是指在可持续发展理念指导下 ,通过技术创新、制度创新、产业转型 、新能源开发等多种手段,尽可能地减 少煤炭石油等高碳能源消耗,减少温室 气体排放,达到经济社会发展与生态环 境保护双赢的一种经济发展形态。研究问题大气污染物一氧化氮NO浓度与汽车流量 ,气温,空气湿度,风速的关系研究1)怎样进行研究?多元线性回归简介直线相关与回归分析一个自变量和 一个因变量间的关系, 在医学实践中 ,常会遇到一个应变量与多个自变 量数量关系的问题。如医院住院人 数不仅与门诊人数有关, 而且可能

2、与 病床周转次数, 床位数等有关, 多元 回归分析正是为解决这些问题而产 生的 。1)多元线性回归模型通过实验测得含有p个自变量x1,x2,x3,xp 及一个因变量y的n个观察对象, 利用最小二 乘法原理, 建立多元线性回归模型:Yb0+b1X1+b2X2+bpXp。 其中b0为截距, b1 ,b2 bp称为偏回归 系数. bi表示当将其它p-1个变量的作用加以固定后, Xi改变1个单位时Y的平均值Y将改 变bi个单位.2)多元回归方程的建立1) 求回归系数常用最小二乘估计的方法求解待定系数 b0和偏回归系数b1、b2bp。2)回归方程的检验 由样本计算得到的回归方程是总体回 归的估计。多元回

3、归方程有没有意义需 要作假设检验,采用的是方差分析。3)样本计算得到的这些偏回归系数bi( i=1,2,p)是总体偏回归系数 (i=1,2p)的估计值。在建立起方程后有 必要对这些偏回归系数作检验。3)多元回归的作用(1) 建立回归模型:Y=0+1X1+2X2+pXp ; (2) 预测预报 若已知x1, x2 xp数值大小时, 通过模型可 以预测y的值以及估计y的变化范围; (3) 因素分析 找出对因变量y有显著影响的因素。 设研究问题中含有p个指标变量x1, x2,xp及Y. n个观察对象. 其数据结构为:编号 X1 X2 . XP y1 x11 x12 x1p y12 x21 x22 x2

4、p y2 3 x31 x32 x3p y3 n xn1 xn2 xnp yp4)数据结构5)CHISS的实现l点击 多元分析线性回归6)实例讲解 例11-1 试进行多元回归分析大气污染物 一氧化氮NO浓度与汽车流量,气温,空 气湿度,风速的关系研究。7)多元回归分析的前提条件(1) 线性 给定X1,X2,Xp的数值后, 相应的y随机变动, 其总体均数y=b0+b1x1+b2x2+.bpxp (2) 独立 n个个体之间互相独立; (3) 正态 给定X1, X2, , Xp的数值后, 相应的y值服从正态分布; (4) 等方差 当X1,X2,Xp的数值变动时,相应的y有相同的方差。 三、逐步回归在多

5、元线性回归分析中,研究者往往是 根据自己的经验或借鉴他人的研究结果 选定若干个自变量,这些自变量对因变 量的影响作用是否都有统计学意义还有 待于考察。通过多元性线回归分析,常 常会发现其中有很多自变量对因变量的 影响无意义。 同时,也常会遇到自变量间存在共线性 的问题,影响到偏回归系数估计和回归 方程的“质量”。 因此,在建立回归方程的过程中有必 要考虑对自变量进行筛选,挑选出若干 个与因变量作用较大的变量建立回归方 程。剔除那些对因变量没有多大影响的 变量,从而建立一个较理想、较稳定的 回归方程。1)逐步回归的思想事先给定挑选自变量进入方程的P界值( 缺省值P=0.1),开始方程中没有自变量

6、 ,然后,按自变量对y的贡献大小由大到小 依次挑选进入方程,每选入一个变量,都 要对已在模型中的变量进行检验,对大于 剔除标准的变量要逐一剔除。逐步回归中F值的计算* 逐步选择变量每一步都在权衡得失的情形下决定变量的取或舍。每一步都作一次如下的检验:H0 : p个自变量为好H1 : p+1个自变量为好采用F作为统计量。SS残 (H0 )-SS残 (H1 ) F SS残 (H1 )/ (n-p-2)其中SS残 (H0 )表示用p个变量回归的残差平方和SS残 (H1 ) 表示用p+1个变量回归的残差平方和。若FF(界值),则拒绝H0 ,可决定增多相应的自变量; 否则,不拒绝H0 , 可决定不增加相

7、应的自变量 。2) CHISS的实现点击 多元分析逐步回归例11-2 试大气污染物一氧化氮NO浓度 与汽车流量,气温,空气湿度,风速的 关系研究进行逐步回归分析。 3)Pe和Ps的确定1 Pe, Ps 需要多次选取。 2 常取0.5, 0.4,0.3, 0.2, 0.1, 0.05. 3 剔除变量的界值Ps要大于选进变量的 界值Pe四、衡量回归方程的标准采用不同的剔除变量方法,选入不 同剔除变量的标准;会得到不同的回归 方程,我们要根据实际问题,对每个变 量的单独作用、变量间的交互作用作出 恰当的评价。一般来说,当回归方程中 自变量个数增加,或多或少总能减少剩 余误差,提高模型的拟合精度,但势

8、必 导致模型的复杂性。因此,在建立回归方程时,要遵循 一个原则,即“少而精”,具体地说:既要 尽可能地提高拟合的精度,又要尽可能 地使模型简单。这就需要有一个量化的 标准来衡量所得模型的“优”与“劣”。目前,常用的衡量方程好坏的标准 有如下几个:1) 决定系数R2 (复相关系数的平方) R2 =1-SS残/SS总= SS模/SS总, , 它表示在因变量y的总变异中可由回归方 程所解释部分的比例。0R21, 越接近于1, 说明回归方程效果 越好。2)校正的决定系数Adj R2 复相关系数是随方程中的变量个数增加而 增加的,即使自变量对Y无显著性意义, 为了克服这一缺点,对它进行校正: Adj R

9、2 =1-MS残/MS总,0AdjR21, 越接近于1, 说明回归方程效果 越好。3) 它反映了应变量在扣除自变量的线性影 响后的离散程度;剩余标准差越接近于0, 说明回归方程 效果越好。3)剩余标准差 五、回归分析注意几点1、定性变量的数值化2、共线性问题3、异常点诊断4、残差分析1、定性变量的数值化在医学研究中,常常会遇到各种不 同的指标,如年龄、性别、病情、疗效 等。统计学上称为随机变量,简称变量. 根据变量取值的不同可分为定量变量 、定性变量和等级变量三种类型。在进行统计分析前,要根据数据的特点 和分析方法的要求,对不同的变量进行转 换处理,如定性变量的定量化等。 定量变量定量变量 定

10、量变量是对研究单位的定量特征的定量变量是对研究单位的定量特征的 描述。诸如个体年龄、身高、体重等变量描述。诸如个体年龄、身高、体重等变量 均可经测量取得数值。均可经测量取得数值。 对于定量变量对于定量变量, , 在通常情况下以原始观在通常情况下以原始观 察值的形式出现。但有根据变量的特点有察值的形式出现。但有根据变量的特点有 时可分段处理时可分段处理, ,亦称定量变量定性化。研亦称定量变量定性化。研 究老年病时究老年病时, ,以其它年龄组作对对照以其它年龄组作对对照, ,可将可将 年龄分年龄分6565岁以上一组和岁以上一组和 6565岁以下一组。岁以下一组。定性变量定性变量是对研究对象的定性特

11、征描述 ,有不同类别之分, 亦称分类变量。 如性别可分为:男、女。称为二分类 血型可分为A、B、 AB、 O四类型。称 为多分类。在多元分析时要对定性变量进行赋值才 能进行统计,称其为定性变量的定量化。 定性变量:二项分类 变量如性别,用一个变量表示,一般可赋值 为0和1,或1和2。 1 女 X= 0 男多分类 变量血型分为A、B、 AB、 O四类型,一元分 析时可用1,2,3,4代表不同的组。 但多元分 析时需要采用哑变量方法进行处理. 1 A 型 1 B 型 1 ABX1= X2= X3= 0 其它 0 其它 0 其它哑变量的个数当X1=0,X2=0,X3=0时为O型. 4分类变量需用三个

12、哑变量来区分。一般N分类,需要N-1个哑变量表示。 等级变量是对研究对象 的等级特征的 描述。如病情分轻、中,重三个等级。数值化法:只须用一个X作为分类变量, 然 后按等级顺序分别赋值。例如,用X表示病 情, 其赋值方法分为: 0 轻 X= 1 中 2 重 等级变量2、共线性问题。当自变量均为随机变量时, 若他们之间 高度相关,则称自变量间存在共线性 (colinearity)。共线性会给多重回归带来很大麻烦, 其参数估计自然极不稳定, 甚至参数值 可大可小,可正可负,其意义无法解释; 有时, 参数估计值的标准差很大, 以致 该参数估计值的统计学意义受到怀疑 。 克服共线性的方法 逐步回归分析

13、 主成分回归分析 逐步选择变量是对付共线性的办法 之一,经逐步选择后,两个高度相关的 自变量X1 和X2 常常不能同时进入方程 , 但两者高度相关, 谁先进入方程带有 偶然性. 经逐步选择后, 固然克服了共线性 的麻烦, 同时也丢失一部份可利用的信 息,故将高度相关的几个变量的信息综 合起来参与回归是个好办法, 即进行 主成分回归分析. 3、异常点诊断当散点图中出现了极端离群的点时,应考 虑其是否为异常的情况. Student残差=(Yi -Y)/Si,当残差值大于2 时, 可认其为异常点.异常点的处理1) 系统误差造成的进行纠正;2) 采用稳健回归分析, 百分位数回归.4、残差分析为了考察模

14、型的前提条件为了考察模型的前提条件线性,独立,正 态和等方差条件是否满足是否满足, , 可进行残差可进行残差 分析。分析。各个实测值与理论值的差各个实测值与理论值的差Yi -YYi -Y称为残称为残 差,差, Yi -Y /SYi -Y /S称为称为student student 残差。残差。以理论值Y为横轴,student残差r为纵 轴制作散点图。 称为student残差对Y 的散点图,简称残差图。根据正态分布的性质:应有大约 95%的点落在残差图中|r|2之内, 且 不呈任何趋势。残差图统计学的普遍性 日常生活,几乎天天都遇到统计学问题 。 统计学工作不难,我们随时可以进行。案例:2010最关注事件调查结果

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 工程造价

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号