SAS的相关与回归多元回归(正式)

上传人:油条 文档编号:48418227 上传时间:2018-07-15 格式:PPT 页数:107 大小:895KB
返回 下载 相关 举报
SAS的相关与回归多元回归(正式)_第1页
第1页 / 共107页
SAS的相关与回归多元回归(正式)_第2页
第2页 / 共107页
SAS的相关与回归多元回归(正式)_第3页
第3页 / 共107页
SAS的相关与回归多元回归(正式)_第4页
第4页 / 共107页
SAS的相关与回归多元回归(正式)_第5页
第5页 / 共107页
点击查看更多>>
资源描述

《SAS的相关与回归多元回归(正式)》由会员分享,可在线阅读,更多相关《SAS的相关与回归多元回归(正式)(107页珍藏版)》请在金锄头文库上搜索。

1、华中科技大学公卫学院 流行病与卫生统计系相关、回归与多元回归相关、回归与多元回归SASSAS应用应用学习目标 掌握直线相关的定义,熟悉简单相关系数 的计算; 掌握直线相关分析的SAS程序(CORR过 程以及选项); 掌握直线回归的模型假设以及计算方法; 了解直线回归应用的注意事项; 掌握直线回归分析的SAS程序(REG过程 以及选项)。概述 在医学上,许多现象之间都存在着相互联 系,例如身高与体重、体温与脉搏、年龄 与血压、钉螺与血吸虫感染等。而有些事 物的关系是互为因果的,如上述钉螺是因 ,感染血吸虫是果;但有时因果不清,只 是伴随关系。例如父母的兄弟,兄高,弟 也可能高,但不能说兄是因、弟

2、是果,这 里不是因果关系,而可能与社会条件、家 庭经济、营养、遗传等因素有关。概述 相关是解决客观事物或现象相互关系密切程度的 问题,而回归则是用函数的形式表示出因果关系 。有相关不一定因果关系;反之,有因果关系的 ,一定有相关。我们称“因”的变量叫因变量, 习惯上用Y表示。以横轴代表自变量X,纵轴代表 依变量Y,可以将一群观察事物的两种关系在坐标 图上以P(X,Y)的方法定位,作出一群散点图 ,便可在图上看出两者的关系。 相关分析和回归分析是研究现象之间相关关系的 两种基本方法。所谓相关分析,就是用一个指标 来表明现象间相互依存关系的密切程度。直线相关分析介绍 设有两个变量x和y,变量y随变

3、量x一起变化,并 完全依赖于x,当变量x取某个数值时,y依确定的 关系取相应的值,则称y是x的函数,记为 y = f( x),其中x称为自变量,y称为因变量。各观测点 落在一条线上。 自变量取值一定时,因变量的取值带有一定随机 性的两个变量之间的关系叫做相关关系。当一个 或几个相互联系的变量取一定数值时,与之相对 应的另一变量的值虽然不确定,但它仍按某种规 律在一定的范围内变化,变量间的这种相互关系 ,称为具有不确定性的相关关系。直线相关分析介绍 与函数关系不同,相关变量间关系不能用 函数关系精确表达,一个变量的取值不能 由另一个变量唯一确定,当变量x取某个值 时,变量y的取值可能有无数个,各

4、观测点 分布在直线周围。 按相关程度划分可分为完全相关、不完全 相关、和不相关:不相关 如果变量间彼此的数量变化互相独立,则 其关系为不相关,即没有任何相关关系。 自变量x变动时,因变量y的数值不随之相 应变动。完全相关 如果一个变量的变化是由其他变量的数量 变化所唯一确定,此时变量间的关系称为 完全相关。即因变量y的数值完全随自变量 x的变动而变动,它在相关图上表现为所有 的观察点都落在同一条直线上,这种情况 下,相关关系实际上是函数关系。所以, 函数关系是相关关系的一种特殊情况。 不完全相关 如果变量间的关系介于不相关和完全相关 之间,则称为不完全相关。大多数相关关 系属于不完全相关,是统

5、计研究的主要对 象。正相关和负相关 正相关:两个变量之间的变化方向一致, 都是呈增长或下降的趋势。即自变量x的 值增加(或减少),因变量y的值也相应 地增加(或减少),这样的关系就是正相 关。 负相关:两个变量之间变化方向相反,即 自变量的数值增大(或减小),因变量随 之减小(或增大)。线形相关和非线形相关 直线相关(或线性相关):当相关关系的自变 量x发生变动,因变量y值随之发生大致均等的 变动,从图像上近似地表现为直线形式,这种 相关通称为直线相关。 曲线(或非线性)相关。在两个相关现象中, 自变量x值发生变动,因变量y也随之发生变动 ,这种变动不是均等的,在图像上的分布是各 种不同的曲线

6、形式,这种相关关系称为曲线( 或非线性)相关。曲线相关在相关图上的分布 ,表现为抛物线、双曲线、指数曲线等非直线 形式。 单相关、复相关和偏相关 单相关:两个因素之间的相关关系叫单相关, 即研究时只涉及一个自变量和一个因变量。 复相关:三个或三个以上因素的相关关系叫复 相关,即研究时涉及两个或两个以上的自变量 和因变量。 在某一现象与多种现象相关的场合,当假定其 他变量不变时,其中两个变量之间的相关关系 称为偏相关。相关系数所谓相关分析,就是分析测定变量间相互依存关系的密 切程度的统计方法。一般可以借助相关系数来进行相关 分析。 相关系数是表示两个变量(X,Y)之间线性关系密切程 度的指标,用

7、r表示,其值在-1至+1间。如两者呈正相 关,r呈正值,r=1时为完全正相关;如两者呈负相关则 r呈负值,而r=-1时为完全负相关。完全正相关或负相 关时,所有图点都在直线回归线上;点子的分布在直线 回归线上下越离散,r的绝对值越小。当例数相等时, 相关系数的绝对值越接近1,相关越密切;越接近于0, 相关越不密切。当r=0时,说明X和Y两个变量之间无直 线关系。相关系数 简单相关系数反映两个变量之间线性相关 密切程度和相关方向的统计测定,它是其他 相关系数形成的基础。简单相关系数的计 算公式为:直线相关分析的SAS程序 SAS系统中进行直线相关分析的过程步是CORR过程。 CORR过程存在于S

8、AS的base模块,可以计算Pearson积矩相关系数 、Spearman秩相关系数、Kendalls tau-b统计量、 Hoeffdings独立性分析统计量D以及Pearson,Spearman,以及 Kendall偏相关系数。另外,它还对用于估计可靠性的Cronbach系 数进行计算。Corr过程的语句基本格式如下: PROC CORR ; BY 变量名-1 变量名-n ;FREQ 变量名;PARTIAL 变量名(列表);VAR 变量名(列表);WEIGHT 变量名;WITH 变量名(列表);直线相关分析的SAS程序 CORR过程的几条语句中,BY语句、FREQ语句 以及WEIGHT语句

9、与以前所介绍的过程中的完全 相同,大家可以参考以前的内容。下面简要介绍 其余的几条语句。 PARTIAL语句:用以对所指定的变量计算偏相关系 数或类似的偏统计量,可计算的偏统计量与 PROC CORR语句中指定的选项有关。但其中只 有Pearson积矩相关系数、Spearman秩相关系 数及Kendalls Tau-b可计算相应的偏统计量。直线相关分析的SAS程序 VAR语句:VAR语句和其它过程中的也基本 相同,这里VAR语句指定的变量必须为数 值型变量,至少应指定两个变量(当然只 指定一个变量也可以计算,但是你必须确 定你确实需要证明“一个变量和它自身的 相关系数为1”),可同时指定多个变

10、量, 此时SAS会对任意两个变量之间进行相关 分析。直线相关分析的SAS程序 WITH语句:WITH语句用来指定和VAR语句指定的变量进 行相关分析的变量。当有WITH语句存在时,VAR语句中 指定的变量之间不再进行相关性分析,而其中的每个变量 都和WITH语句指定的所有变量进行相关性分析,相关分 析也不会发生在WITH语句所指定的变量之间。输出结果 的相关矩阵中,VAR语句指定的变量排列在行上,WITH 语句指定的变量则排列在列上。如果需要,一个变量可以 同时出现在VAR语句和WITH语句内。 Pearson相关用于双变量正态分布的资料,其相关系数称 为积矩相关系数。进行相关分析时,我们一般

11、会同时对两 变量绘制散点图,以更直观地考察两变量之间的相互变化 关系。例题 某地方病研究所调查了8名正常儿童的尿肌 酐含量(mmol/24h),估计尿肌酐含量 与年龄相关关系。等级相关(秩相关) 秩相关或等级相关是用双变量等级数据作直线相 关分析,这类方法由于对原变量分布不作要求, 故而属于非参数统计方法。适用于下列资料: 不服从双变量正态分布而不宜作积差相关分析; 总体分布型未知;原始数据是用等级表示。 当两变量不符合双变量正态分布的假设时,需用 Spearman秩相关来描述变量间的相互变化关系 。此时,散点图上散点的分布形态不能完全描述 两变量间的相关关系,故此时一般不需再绘制散 点图。等

12、级相关(秩相关) 类似前述积差相关,它是用等级相关系数 rs来说明两个变量间直线相关关系的密切 程度与相关方向。将n对观察值Xi、Yi( i=1,2,n)分别由小到大编秩,Pi表 示Xi的秩,Qi表示Yi的秩,其中每对Pi、 Qi可能相等,也可能不等。用Pi与Qi之差 反映X、Y两变量秩排列一致性的情况。 等级相关(秩相关) 按以下公式计算Spearman等级相关系数 rs值界于-1与1之间,rs为正表示正相关, rs为负表示负相关,rs为零表示为零相关。 样本等级相关系数rs是总体相关系数的估计 值。例题 某省调查了1995年到1999年当地居民18 类死因的构成以及每种死因导致的潜在工 作

13、损失年数WYPLL的构成。以死因构成为 X,WYPLL构成为Y,作等级相关分析。直线回归分析 医学上,不少变量间虽存在一定关系,但这种关 系不象函数关系那样十分确定。例如正常人的血 压随年龄而增高,但这只是总的趋势,有些高龄 人的血压却不一定偏高;一群正常人按年龄和血 压两个变量在坐标上的方位点,并非集中在一条 上升直线上,而是围绕着一条有代表性的直线上 升。 直线回归分析的任务在于找出两个变量有依存关 系的直线方程,以确定一条最接近于各实测点的 直线,使各实测点与该线的纵向距离的平方和为 最小。这个方程称为直线回归方程,据此方程描 绘的直线就是回归直线。直线回归分析 直线回归是用直线回归方程

14、表示两个数量变量间依存关系 的统计分析方法,属双变量分析的范畴。如果某一个变量 随着另一个变量的变化而变化,并且它们的变化在直角坐 标系中呈直线趋势,就可以用一个直线方程来定量地描述 它们之间的数量依存关系,这就是直线回归分析。 直线回归分析中两个变量的地位不同,其中一个变量是依 赖另一个变量而变化的,因此分别称为因变量和自变量, 习惯上分别用y和x来表示。其中x可以是规律变化的或人 为选定的一些数值(非随机变量),也可以是随机变量。 所谓回归分析,就是依据相关关系的具体形态,选择一个 合适的数学模型,来近似地表达变量间的平均变化关系。直线回归分析 相关关系能说明现象间有无关系,但它不能说明一

15、个现象 发生一定量的变化时,另一个变量将会发生多大量的变化 。也就是说,它不能说明两个变量之间的一般数量关系值 。回归分析,是指在相关分析的基础上,把变量之间的具 体变动关系模型化,求出关系方程式,就是找出一个能够 反映变量间变化关系的函数关系式,并据此进行估计和推 算。通过回归分析,可以将相关变量之间不确定、不规则 的数量关系一般化、规范化。从而可以根据自变量的某一 个给定值推断出因变量的可能值(或估计值)。 回归分析包括多种类型,根据所涉及变量的多少不同,可 分为简单回归和多元回归。简单回归又称一元回归,是指 两个变量之间的回归。其中一个变量是自变量,另一个变 量是因变量。直线回归分析 相

16、关分析和回归分析有着密切的联系,它们不仅 具有共同的研究对象,而且在具体应用时,常常 必须相互补充。相关分析研究变量之间相关的方 向和相关程度。但是相关分析不能指出变量间相 互关系的具体形式,也无法从一个变量的变化来 推测另一个变量的变化情况。回归分析则是研究 变量之间相互关系的具体形式,它对具有相关关 系的变量之间的数量联系进行测定,确定一个相 关的数学方程,根据这个数学方程可以从已知量 推测未知量,从而为估算和预测提供了一个重要 的方法。应用直线回归的注意事项 作回归分析要有实际意义,不能把毫无关联的两种现象 ,随意进行回归分析,忽视事物现象间的内在联系和规 律;如对儿童身高与小树的生长数据进行回归分析既无 道理也无用途。另外,即使两个变量间存在回归关系时 ,也不一定是因果关系,必须结合专业知识作出合理解 释和结论。 直线回归分析的资料,一般要求应变量Y是来自正态总 体的随机变量,自变量X可以是正态随机变量,也可以 是精确

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号