相关与回归分析过程

上传人:l**** 文档编号:136679821 上传时间:2020-06-30 格式:PPT 页数:37 大小:975KB
返回 下载 相关 举报
相关与回归分析过程_第1页
第1页 / 共37页
相关与回归分析过程_第2页
第2页 / 共37页
相关与回归分析过程_第3页
第3页 / 共37页
相关与回归分析过程_第4页
第4页 / 共37页
相关与回归分析过程_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《相关与回归分析过程》由会员分享,可在线阅读,更多相关《相关与回归分析过程(37页珍藏版)》请在金锄头文库上搜索。

1、,相关与回归,相关分析简介,在医学科学研究中,常常要分析两个变量之间的关系,例如身高和体重、年龄和血压、体温和脉搏、药物剂量和疗效等问题,因此涉及到研究两个变量的相互关系。这时就涉及到两个变量之间的相关与回归。,积差相关系数,又称Pearson相关系数:定量描述线性相关程度好坏的常用指标,只适用于两变量呈线性相关时。 特点: 相关系数r 是一个无单位的量值,且-1 0 为正相关,r 0 为负相关; r 越接近于1,说明相关性越好;越接近于0,相关性越差。 Spearman等级相关系数:当数据不满足条件双变量正态时。,相关分析简介,连续变量的相关指标(最常见),Gamma统计量:描述有序分类变量

2、数据联系强度的指标,以下指标都是基于Gamma统计量衍生出来的。 Kendalls Tau-b:反映两个有序分类变量的一致性。 Kendalls Tau-c: 对Kendalls Tau-b进行了校正。,相关分析简介,有序变量的相关指标,列联系数:基于2值得出 Phi and Cramers V:也是基于2值得出 Lambda 系数:用于反映自变量对因变量的预测效果 不确定系数,相关分析简介,名义变量的相关指标,Eta Kappa 值 OR、RR等,相关分析简介,其他相关指标,相关分析简介,实际上,在Freq过程中measures选择项提供了非常整齐的相关分析指标体系,如上图。,除了Freq过

3、程的measures选择项外,SAS还提供了其他更专业的相关分析过程:,PROC CORR 过程:线性相关、秩相关和偏相关分析 PROC CANCORR 过程:典型相关分析(略),相关分析简介,相关分析CORR过程:,功能:分析变量间的相关关系 格式: Proc corr ; Var 分析变量1分析变量p; Partial 分析变量1分析变量p; freq 频数变量; With 分析变量;,说明: 1、Corr语句后的选择项很多,主要 是一些控制的功能。 2、var语句指明的分析变量。 3、partial语句作偏相关分析 4、freq语句指明频数变量 5、with语句用来指定和var语句中的

4、变量形成特定的组合。,例1 某医院研究某种代乳粉的营养价值是用大白鼠做试验,得大鼠进食量和体重增量间的关系的原始数据如下,试分析两者有无直线相关关系。,进食量和体重增量的数据,简单相关分析,首先绘制散点图,结果如下:,简单相关分析,两变量间存在线性相关趋势 没有发现明显的异常值,Data corr_1; Input x y; Cards; 165 780 158 720 130 867 180 690 134 787 167 934 186 679 145 639 120 820 158 ; Proc corr spearman; Var x y; Run;,pearson相关系数和p值,Sp

5、earman相关系数和P值,指定计算spearman秩相关系数, 默认时只计算pearson相关系数。,大家可以发现,对相同的数据,秩相关系数的绝对值比积差相关系数小,为什么?,简单相关分析,显然,这是由于在秩变换或数据按有序分类处理时损失信息所导致的。,前面介绍的相关分析是分析两个计量资料间的关系,在计算积差相关系数、Spearman 相关系数时候,都没有考虑第三方的影响,这就导致可能对事物的解释出现偏差。下面以一个例子对此作进一步的说明。,偏相关分析,表1 32例40岁以上男性的BMI指数、年龄、吸烟与收缩压实测值,续表一,续表二,Data corr_2; Input y x1-x3; C

6、ards; 135 45 0 2.876 122 41 0 3.251 130 49 0 3.100 158 52 0 3.768 146 54 1 2.979 129 47 1 2.790 162 60 1 3.668 157 54 1 3.612 144 44 1 2.368 180 64 1 4.637 166 59 1 3.877 ;,Proc corr data=corr_2; Var y x2 x3; Partial x1; Run;,控制x1影响后的结果,例4 仍以前数据为例,进一步作回归分析,计算进食量与体重增量之间的回归方程。,分析: 与相关分析类似,在回归分析之前首先要考虑

7、的问题是两变量是否存在某种趋势,通过前面的散点图已经得到了肯定的结论,因此直接进行回归分析。,简单回归分析,绘制散点图如下:,简单回归分析,两变量间存在线性相关趋势 没有发现明显的异常值,回归分析过程,功能:拟合线性回归模型 格式: Proc reg ; Model 因变量=自变量; Freq 频数变量; Plot ; Run;,Reg过程的选择项较多,用法也比较 复杂,但常用的选择项不多也容易掌 握,说明如下: 1、reg后的选择项主要是对data的一 些操作,比如:data=数据集。 2、model语句后的选择项主要进行自 变量的筛选,比如:selection=stepwise等。 3、f

8、req语句后频数变量。 4、plot语句可以输出各类散点图,符 号和选择项采用默认的设置。 5、一个reg过程最多可以使用9个model 语句(一次同时拟合9个模型)。,简单回归分析,Data reg_1; Input x y; Cards; 820 165 780 158 720 130 867 180 690 134 787 167 934 186 679 145 639 120 820 158 ; Proc reg data=reg_1; Model y=x; Plot y*x; Run;,拟合的回归方程:,多元回归分析,直线回归与相关是分析一个应变量Y与一个自变量X之间的关系。 但通常

9、是一个应变量受到许多因素的影响,例如一个人的收缩 压受到年龄、饮食、锻炼及遗传等许多因素的影响。因此,必 须把直线回归与相关的分析方法推广为多个自变量的分析方法, 从而起到更有效的预报、控制及识别影响因素的作用。 多元线性回归方程的建立 多元线性回归模型为: 式中j是Xj(j1,2,p)对 Y的偏回归系数 ( Partial regression coefficient),它表示在其它自变量固定不变 的情况下,Xj每改变一个测量单位时所引起的应变量 Y的平均改变量, p为自变量的个数,为残差,独立服从 N(0,2)分布。 拟寻求参数0,1, p的适宜估计值 b0,b1,bp,使观察 值Yi和回

10、归预测值 之间残差平方和最小,即:,回归参数的最小二乘估计实为系数矩阵之逆矩阵与常数项矩阵(列向量)之乘积。其计算较为复杂,可以用统计软件求得。 用最小二乘法解出偏回归系数j的估计值bj后,得到相应的多元线性回归方程为: 下面举例说明用SAS reg过程建立多元线性回归方程。,实例分析,例3 为研究男性高血压患者血压与年龄体重等变量的关系,随机测量了32名40岁以上男性的血压(mmHg)、年龄(岁)、身高、体重、以及吸烟史。其中体重指数 BMI100(体重/身高2); 吸烟:0为不吸,1为过去或现在吸烟。(见表1),程序如下: proc reg data=corr_2; Model y=x1-

11、x3/selection=stepwise stb; Run; Quit;,逐步回归法筛选自变量,标准化偏回归系数,最后一步的结果,自变量进出的描述,检验整个模型,分别检验每个自变量,用stepwise时自变量进入或剔除的检验 水准默认时为0.15,Proc reg data=corr_2; Model y=x1-x3 /selection=stepwise stb Sle=0.1 sls=0.1; Run; Quit;,将检验水准改为0.1 X3不能进入模型。,问题: X1(年龄)与x2(吸烟) 哪个变量对SBP的影响大?,协方差分析,协方差分析是把直线回归法与方差分析法结合起来的一种方法,

12、其目的是把与y值呈直线关系的x值化成相等后,再来检验各组y均数(即修正均数)间差别的统计意义。,一元完全随机设计资料的协方差分析,下列数据是研究镉作业工人暴露于烟尘的年数与肺活量的关系。 按暴露年数将工人分为两组:甲组暴露10年,乙组暴露10年。 两组工人年龄未经控制。问该两组暴露于镉作业工人平均肺活量 是否相同?,不考虑年龄对肺活量的关系,直接用t检验比较二组工人的平均肺活量,Data coanova; do group=0,1; input n; do i=1 to n; input x y; output; end; end; Cards; 12 39 4.62 40 5.29 41 5

13、.25 41 3.71 45 4.02 49 5.09 52 2.70 47 4.31 61 2.7 65 3.03 58 2.73 59 3.67 16 43 4.61 39 4.73 38 4.58 42 5.12 43 3.89 43 4.62 37 4.30 50 2.70 50 3.50 45 3.06 48 4.06 51 4.51 46 4.66 58 2.88 38 3.64 38 5.09 ; Proc ttest; Class group; Var y; Run;,不同暴露年限的工人平均肺活量有差异?,协方差分析需调用SAS的GLM过程来分析。 程序如下: proc glm

14、 data=coanova; class group; model y=x group/solution; lsmeans group/stderr pdiff; run;,选择项solution是要输出回归方程中各参数 的估计值,Lsmeans语句(least square means) 是要输出各组(group)修正均数,标准误 (stderr)及均值之间差异比较的概率(pdiff)。,将年龄对肺活量的线性影响 消除后,再比较二组工人的 平均肺活量。,控制了年龄协变量 后二组修正均数间 无差异。,协方差分析对数据的要求:,正态分布 两条回归线平行,肺活量(Y)与年龄(X)均呈线性关系 且回

15、归线必须平行,如何检验回归线是否平行?,先做回归分析,求得回归系数,然后再比较 二个回归系数是否有差异(比较麻烦!),用多元线性回归的方法来解决 1、设置哑变量 group= 2、分析哑变量与年龄的 交互作用,如交互作用 不存在,则回归线平行。 3、检验哑变量的回归系数是 否为零。,0,1,程序如下: Data mreg; set coanova; inter=x*group; Proc reg data=mreg; Model y=x group inter/stb; Run; Quit;,分析交互作用,交互作用不显著,提示回归线平行,Group回归系数不显著,可 推断二组工人的平均肺活量 无差异。,谢谢观看! 2020,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作范文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号