常用多变量统计分析方法简介课件

上传人:我*** 文档编号:147787112 上传时间:2020-10-14 格式:PPT 页数:85 大小:1.68MB
返回 下载 相关 举报
常用多变量统计分析方法简介课件_第1页
第1页 / 共85页
常用多变量统计分析方法简介课件_第2页
第2页 / 共85页
常用多变量统计分析方法简介课件_第3页
第3页 / 共85页
常用多变量统计分析方法简介课件_第4页
第4页 / 共85页
常用多变量统计分析方法简介课件_第5页
第5页 / 共85页
点击查看更多>>
资源描述

《常用多变量统计分析方法简介课件》由会员分享,可在线阅读,更多相关《常用多变量统计分析方法简介课件(85页珍藏版)》请在金锄头文库上搜索。

1、1,常用多变量统计分析方法简介,2,多变量统计方法是运用数理统计的方法来研究多变量问题的理论和方法,它是单变量统计统计方法的推广,是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学分支学科。 近年来,多变量统计方法已广泛应用到医学研究的各个领域。医学现象涉及到的变量不止一个,而是多个变量,且这些变量间又存在一定的联系,需要处理多个变量的观测数据。,多变量统计分析方法概述,3,对于多变量医学问题,如果用单变量统计方法就要对多方面分别进行分析,而一次分析一个方面,同时忽视了各方面之间存在的相关性,这样会丢失很多信息,分析的结果不能客观全面地反映情况。 多变量统计方法不仅能够研究多个变

2、量之间的相互关系以及揭示这些变量之间内在的变化规律,而且能够使复杂的指标简单化,并对研究对象进行分类和简化。,多变量统计分析方法概述,4,回归分析的分类,多个因变量 (y1,y2,yk),一个因变量 y,5,一、多重线性回归 二、Logistic回归 三、Cox比例风险回归 四、其他常用多变量统计方法,多变量统计分析方法概述,6,Multivariate linear regression,概念:,多重线性回归分析也称复线性回归分析(multiple linear regression analysis),它研究一组自变量如何直接影响一个因变量。 自变量(independent variabl

3、e)是指独立自由的变量,用向量X表示;因变量(dependent variable)是指非独立的、受其它变量影响的变量,用向量Y表示;由于模型仅涉及一个因变量,所以多元线性回归分析也称单变量线性回归分析(univariate linear regression analysis),7,人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂 射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、照射的时间,一个变量的变化直接与另一组变量的变化有关:,如:,8,一、多元线性回归方程模型,9,只有一个自变量

4、时,回归的结果为二维平面上的一条直线;而有两个自变量时,回归的结果为三维空间的一个平面;有更多自变量时,回归的结果则是在三维以上空间的“超平面”,无法用直观图形表达。,10,应用条件:,注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。若自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分析。对于自变量是分类变量的情形,可以应用广义线性回归模型分析。,11,二、多元线性回归分析的步骤,(一)估计各项参数,建立多元线性回归方程模型 (二)对整个模型进行假设检验,模型有意义的前提下,再分别对各偏回归系数进行假设检验。 (三)计算相应指标,对模型的拟合效果进行评价。,12,(一)模

5、型的参数估计,13,27名糖尿病患者的血清总胆固醇(x1)、甘油三酯(x2)、空腹胰岛素(x3)、糖化血红蛋白(x4)、空腹血糖(y)的测量值列于表中,试建立血糖与其它几项指标关系的多元线性回归方程。,例16.1,14,各变量的离均差矩阵,15,线性回归方程模型为:,16,1、对模型的假设检验F检验 2、对偏回归系数的假设检验F检验和t 检验 3、标准化偏回归系数,(二)对模型及偏回归系数的假设检验,17,1、对模型的假设检验F检验,18,各变量的离均差矩阵,19,SS总=lyy=222.5519;总=n-1=26 SS剩余= SS总- SS回归=222.5519-133.7107=88.84

6、12 剩余=n-m-1=22 MS回归= SS回归/回归; MS剩余= SS剩余/剩余; F= MS回归/ MS剩余,1、对模型的假设检验F检验,20,1、对模型的假设检验F检验,21,2、对偏回归系数的假设检验F检验和t 检验,回归方程成立只能认为总的来说自变量与因变量间存在线性关系,但是否每一个自变量都与因变量间存在线性关系,须对其偏回归系数进行假设检验。, 方差分析法 t 检验法,22, 偏回归系数的假设检验-方差分析法,23, 偏回归系数的假设检验-方差分析法,24,偏回归系数的假设检验 t 检验,系数矩阵A,25,指定REG过程进行多元线性回归分析,拟合y与四个自变量间的多元线性回归

7、方程,26,整个方程有统计学意义,27,28,3、标准化偏回归系数,29,30,(三)计算相应指标,对模型的拟合效果进行评价,评价回归方程回归效果的优劣是回归分析的重要内容之一。 常用评价指标有: 决定系数、 校正决定系数、 剩余标准差等。,31,1.决定系数,32,2、剩余标准差,33,34,3、校正决定系数,35,三、逐步回归分析,36,(一)最优子集回归法,求出所有自变量可能组合子集的回归方程的模型(共有2m1个),按一定准则选择最优模型。,最优子集法的局限性:如果自变量个数为4,则所有的回归有24115个;当自变量数个数为10时,所有可能的回归为 2101 1023个;.;当自变量数个

8、数为50时,所有可能的回归为25011015个。,37,(二)逐步选择法,1. 前进法(forward selection) 2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression)。,它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验,38,(1)前进法,自变量从无到有、从少到多,Y对每一个自变量作直线回归,对回归平方和最大的自变量作F 检验,有意义(P小)则引入。 在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F 检验,。 局限性:后续变量的引入可能会使先进入方程的自变量变得不

9、重要。,39,(2)后退法,先将全部自变量放入方程,然后逐步剔除,偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大) 。 建立新的回归方程。重复上述过程。 局限性:自变量高度相关时,可能得不出正确的结果;开始时剔 除的变量即使后来变得有显著性也不能再进入方程 。,40,(3)逐步回归法,双向筛选:引入有意义的变量(前进法),剔除无意义变量(后退法),小样本检验水准 a 一般定为0.10或0.15,大样本把a值定为0.05。 a值越小表示选取自变量的标准越严。,41,逐步回归分析的基本思想,42,用逐步回归法筛选自变量,43,y=0.35409x2-0.36013x3+0.41

10、334x4,44,变量筛选后去掉截距项后方程各项评价指标的变化,45,第三节 多元线性回归的应用及其注意事项,46,二、 多元线性回归应用时的注意事项,1样本含量 2方程“最优”问题 3关于逐步回归 4多元共线性 5. 异常值识别与强影响分析,47,48,进行变量筛选的结果及方程的残差,49,对于最优子集回归,可以用SAS中的最大R2筛选变量的方法进行,50,对于最优子集回归,可以用SAS中的最大R2筛选变量的方法进行,51,52,4残差分析,model y=x1-x4/selection=stepwise r; output out=bb Residual=z; run; proc cc;

11、set bb; proc univariate normal; var z; run;,正态性检验 检验方法 -统计量- -P 值- Shapiro-Wilk W 0.968787 Pr D 0.1300 Cramer-von Mises W-Sq 0.070919 Pr W-Sq 0.2500 Anderson-Darling A-Sq 0.372642 Pr A-Sq 0.2500,从散点图可以看出,各点子分布无明显规律性,可认为近似随机分布,所以拟合的方程可认为是合适的。,53,例题14.2,非线性的例子,54,直接拟合x1和x2与y的线性模型:,例题14.2,55,例题14.2,X1、

12、x2与y的图形,56,多元共线性是指在进行多元回归分析时,自变量间存在较强的线性相关关系。共线关系的存在,可使得估计系数方差加大,系数估计不稳,结果分析困难。因此在多元回归分析时,特别是当回归结果难以用专业知识解释时,要进行共线性诊断,找出存在共线性且不重要的那些自变量,剔出方程,另行回归分析。 对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除共线性;或者采用岭回归、主成分回归等回归分析方法以避免共线性指标对结果的影响。,5多元共线性,57,“多元共线”一词最早由R.佛里希于1934年提出,其最初的含义是指回归模型中的某些自变量是线性相关的,即对于出现在模型中的自变量有关系 成

13、立.其中常数 km(m=1,2,n)不全为0.称为完全多元共线;,现在所说的“多元共线”有更广泛的含义,除包括完全共线性的情况,也包括变量间有某种关系但又不是十分完全的线性关系.如下式所示的情况 其中 为随机误差项.此时可称为近似多元共线。,58,多元共线性问题产生的根源:,1、由变量性质引起,多元统计分析时,作为自变量的某些变量高度相关,比如身高、体重和胸围,变量之间的相关性是由变量自身的性质决定的,此时不论数据以什么形式取得,样本含量是大是小,都会出现自变量的共线性问题。因此,变量间自身的性质是导致多元共线性的重要原因。,59,多元共线性问题产生的根源:,2、由数据问题引起:样本含量过小、

14、强影响观测值、时序变量,样本含量过小:假设只有两个自变量X1与X2,当n=2时,两点总能连成一条直线,即使性质上原本并不存在线性关系的变量X1与X2,由于样本含量问题产生了共线性。样本含量较小时,自变量容易呈现线性关系。,如果研究的自变量个数大于2,设为X1,X2,.,XP,虽然各自变量之间没有线性关系,但如果样本含量n小于模型中自变量的个数,就可能导致多元共线性问题。,60,多元共线性问题产生的根源:,2、由数据问题引起:样本含量过小、强影响观测值、时序变量,强影响观测值:其存在会(1)导致或加剧多重共线性; (2)掩盖存在着的 多重共线性。,61,多元共线性的表现在实际应用中主要表现为:,

15、(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义; (2)偏回归系数估计值的方差很大; (3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化; (4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释 出现以上情况,提示存在多元共线性问题,应进行多元共线性诊断。,62,63,64,model x2=x3 x4; R-Square= 0.0492;VIF1=1/(1-0.0492)=1.0517 model x3=x2 x4; R-Square= 0.1099;VIF1=1/(1-0.10

16、99)=1.1235 model x4=x2 x3; R-Square= 0.1514;VIF1=1/(1-0.1514)=1.1783,proc reg; model y=x2-x4/tol vif collin; run;,tol输出容许度;vif输出方差膨胀因子;collin输出所有特征值、特征值对应的条件指数及每一个自变量在每一个特征值上的方差比。,65,如果某一自变量只是和截距项存在共线性的话,可以认为不存在共线性。,66,67,68,69,相关分析结果,例16.3,70,71,72,例题14.5,为了分析和预测人体吸入氧气的效率,收集了31名中年男性的健康状况资料。共7个指标:吸氧效率(y)、年龄(x1)、体重(x2)、跑1.5km所用时间(x3)、休息时心跳次数(x4)、跑步是心跳次数(X5)、和最高心率(x6)。该问题中y是因变量,试用多元回归分析建立预测人

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号