SAS软件应用之直线回归与相关

上传人:油条 文档编号:48449882 上传时间:2018-07-15 格式:PPT 页数:68 大小:433KB
返回 下载 相关 举报
SAS软件应用之直线回归与相关_第1页
第1页 / 共68页
SAS软件应用之直线回归与相关_第2页
第2页 / 共68页
SAS软件应用之直线回归与相关_第3页
第3页 / 共68页
SAS软件应用之直线回归与相关_第4页
第4页 / 共68页
SAS软件应用之直线回归与相关_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《SAS软件应用之直线回归与相关》由会员分享,可在线阅读,更多相关《SAS软件应用之直线回归与相关(68页珍藏版)》请在金锄头文库上搜索。

1、第9章 直线回归与相关学习目标v掌握直线相关的定义,熟悉简单相关系数的 计算;v掌握直线相关分析的SAS程序(CORR过程 以及选项);v掌握直线回归的模型假设以及计算方法;v了解直线回归应用的注意事项;v掌握直线回归分析的SAS程序(REG过程 以及选项)。概述v在医学上,许多现象之间都存在着相互联系 ,例如身高与体重、体温与脉搏、年龄与血 压、钉螺与血吸虫感染等。而有些事物的关 系是互为因果的,如上述钉螺是因,感染血 吸虫是果;但有时因果不清,只是伴随关系 。例如父母的兄弟,兄高,弟也可能高,但 不能说兄是因、弟是果,这里不是因果关系 ,而可能与社会条件、家庭经济、营养、遗 传等因素有关。

2、概述v相关是解决客观事物或现象相互关系密切程度的 问题,而回归则是用函数的形式表示出因果关系 。有相关不一定因果关系;反之,有因果关系的 ,一定有相关。我们称“因”的变量叫因变量,习惯 上用Y表示。以横轴代表自变量X,纵轴代表依变 量Y,可以将一群观察事物的两种关系在坐标图上 以P(X,Y)的方法定位,作出一群散点图,便 可在图上看出两者的关系。v相关分析和回归分析是研究现象之间相关关系的 两种基本方法。所谓相关分析,就是用一个指标 来表明现象间相互依存关系的密切程度。直线相关分析介绍 v设有两个变量x和y,变量y随变量x一起变化,并 完全依赖于x,当变量x取某个数值时,y依确定的 关系取相应

3、的值,则称y是x的函数,记为 y = f(x ),其中x称为自变量,y称为因变量。各观测点 落在一条线上。v自变量取值一定时,因变量的取值带有一定随机 性的两个变量之间的关系叫做相关关系。当一个 或几个相互联系的变量取一定数值时,与之相对 应的另一变量的值虽然不确定,但它仍按某种规 律在一定的范围内变化,变量间的这种相互关系 ,称为具有不确定性的相关关系。直线相关分析介绍v与函数关系不同,相关变量间关系不能用函 数关系精确表达,一个变量的取值不能由另 一个变量唯一确定,当变量x取某个值时, 变量y的取值可能有无数个,各观测点分布 在直线周围。v按相关程度划分可分为完全相关、不完全相 关、和不相

4、关:不相关 v如果变量间彼此的数量变化互相独立,则其 关系为不相关,即没有任何相关关系。自变 量x变动时,因变量y的数值不随之相应变动 。完全相关 v如果一个变量的变化是由其他变量的数量变 化所唯一确定,此时变量间的关系称为完全 相关。即因变量y的数值完全随自变量x的变 动而变动,它在相关图上表现为所有的观察 点都落在同一条直线上,这种情况下,相关 关系实际上是函数关系。所以,函数关系是 相关关系的一种特殊情况。 不完全相关 v如果变量间的关系介于不相关和完全相关之 间,则称为不完全相关。大多数相关关系属 于不完全相关,是统计研究的主要对象。正相关和负相关 v正相关:两个变量之间的变化方向一致

5、,都 是呈增长或下降的趋势。即自变量x的值增 加(或减少),因变量y的值也相应地增加 (或减少),这样的关系就是正相关。v负相关:两个变量之间变化方向相反,即自 变量的数值增大(或减小),因变量随之减 小(或增大)。线形相关和非线形相关 v直线相关(或线性相关):当相关关系的自变量x 发生变动,因变量y值随之发生大致均等的变动, 从图像上近似地表现为直线形式,这种相关通称 为直线相关。v曲线(或非线性)相关。在两个相关现象中,自 变量x值发生变动,因变量y也随之发生变动,这 种变动不是均等的,在图像上的分布是各种不同 的曲线形式,这种相关关系称为曲线(或非线性 )相关。曲线相关在相关图上的分布

6、,表现为抛 物线、双曲线、指数曲线等非直线形式。 单相关、复相关和偏相关 v单相关:两个因素之间的相关关系叫单相关,即 研究时只涉及一个自变量和一个因变量。v复相关:三个或三个以上因素的相关关系叫复相 关,即研究时涉及两个或两个以上的自变量和因 变量。v在某一现象与多种现象相关的场合,当假定其他 变量不变时,其中两个变量之间的相关关系称为 偏相关。相关系数v所谓相关分析,就是分析测定变量间相互依存关系的密切 程度的统计方法。一般可以借助相关系数来进行相关分析 。v相关系数是表示两个变量(X,Y)之间线性关系密切程度 的指标,用r表示,其值在-1至+1间。如两者呈正相关,r 呈正值,r=1时为完

7、全正相关;如两者呈负相关则r呈负值 ,而r=-1时为完全负相关。完全正相关或负相关时,所有 图点都在直线回归线上;点子的分布在直线回归线上下越 离散,r的绝对值越小。当例数相等时,相关系数的绝对值 越接近1,相关越密切;越接近于0,相关越不密切。当 r=0时,说明X和Y两个变量之间无直线关系。相关系数v简单相关系数反映两个变量之间线性相关密 切程度和相关方向的统计测定,它是其他相 关系数形成的基础。简单相关系数的计算公 式为:直线相关分析的SAS程序 vSAS系统中进行直线相关分析的过程步是CORR过程。 vCORR过程存在于SAS的base模块,可以计算Pearson积矩相关系数 、Spea

8、rman秩相关系数、Kendalls tau-b统计量、Hoeffdings独立性 分析统计量D以及Pearson,Spearman,以及Kendall偏相关系数。另 外,它还对用于估计可靠性的Cronbach系数进行计算。Corr过程的 语句基本格式如下:vPROC CORR ; BY 变量名-1 变量名-n ;FREQ 变量名;PARTIAL 变量名(列表);VAR 变量名(列表);WEIGHT 变量名;WITH 变量名(列表);直线相关分析的SAS程序vCORR过程的几条语句中,BY语句、FREQ语句 以及WEIGHT语句与以前所介绍的过程中的完全 相同,大家可以参考以前的内容。下面简要

9、介绍 其余的几条语句。vPARTIAL语句:用以对所指定的变量计算偏相关系 数或类似的偏统计量,可计算的偏统计量与 PROC CORR语句中指定的选项有关。但其中只 有Pearson积矩相关系数、Spearman秩相关系数 及Kendalls Tau-b可计算相应的偏统计量。直线相关分析的SAS程序vVAR语句:VAR语句和其它过程中的也基本 相同,这里VAR语句指定的变量必须为数值 型变量,至少应指定两个变量(当然只指定 一个变量也可以计算,但是你必须确定你确 实需要证明“一个变量和它自身的相关系数 为1”),可同时指定多个变量,此时SAS会 对任意两个变量之间进行相关分析。直线相关分析的S

10、AS程序vWITH语句:WITH语句用来指定和VAR语句指定的变量进 行相关分析的变量。当有WITH语句存在时,VAR语句中 指定的变量之间不再进行相关性分析,而其中的每个变量 都和WITH语句指定的所有变量进行相关性分析,相关分 析也不会发生在WITH语句所指定的变量之间。输出结果 的相关矩阵中,VAR语句指定的变量排列在行上,WITH 语句指定的变量则排列在列上。如果需要,一个变量可以 同时出现在VAR语句和WITH语句内。vPearson相关用于双变量正态分布的资料,其相关系数称 为积矩相关系数。进行相关分析时,我们一般会同时对两 变量绘制散点图,以更直观地考察两变量之间的相互变化 关系

11、。直线回归分析 v医学上,不少变量间虽存在一定关系,但这种关 系不象函数关系那样十分确定。例如正常人的血 压随年龄而增高,但这只是总的趋势,有些高龄 人的血压却不一定偏高;一群正常人按年龄和血 压两个变量在坐标上的方位点,并非集中在一条 上升直线上,而是围绕着一条有代表性的直线上 升。v 直线回归分析的任务在于找出两个变量有依存关 系的直线方程,以确定一条最接近于各实测点的 直线,使各实测点与该线的纵向距离的平方和为 最小。这个方程称为直线回归方程,据此方程描 绘的直线就是回归直线。直线回归分析v直线回归是用直线回归方程表示两个数量变量间依存关系 的统计分析方法,属双变量分析的范畴。如果某一个

12、变量 随着另一个变量的变化而变化,并且它们的变化在直角坐 标系中呈直线趋势,就可以用一个直线方程来定量地描述 它们之间的数量依存关系,这就是直线回归分析。v直线回归分析中两个变量的地位不同,其中一个变量是依 赖另一个变量而变化的,因此分别称为因变量和自变量, 习惯上分别用y和x来表示。其中x可以是规律变化的或人 为选定的一些数值(非随机变量),也可以是随机变量。v所谓回归分析,就是依据相关关系的具体形态,选择一个 合适的数学模型,来近似地表达变量间的平均变化关系。直线回归分析v相关关系能说明现象间有无关系,但它不能说明一个现象 发生一定量的变化时,另一个变量将会发生多大量的变化 。也就是说,它

13、不能说明两个变量之间的一般数量关系值 。回归分析,是指在相关分析的基础上,把变量之间的具 体变动关系模型化,求出关系方程式,就是找出一个能够 反映变量间变化关系的函数关系式,并据此进行估计和推 算。通过回归分析,可以将相关变量之间不确定、不规则 的数量关系一般化、规范化。从而可以根据自变量的某一 个给定值推断出因变量的可能值(或估计值)。v回归分析包括多种类型,根据所涉及变量的多少不同,可 分为简单回归和多元回归。简单回归又称一元回归,是指 两个变量之间的回归。其中一个变量是自变量,另一个变 量是因变量。直线回归分析v相关分析和回归分析有着密切的联系,它们不仅 具有共同的研究对象,而且在具体应

14、用时,常常 必须相互补充。相关分析研究变量之间相关的方 向和相关程度。但是相关分析不能指出变量间相 互关系的具体形式,也无法从一个变量的变化来 推测另一个变量的变化情况。回归分析则是研究 变量之间相互关系的具体形式,它对具有相关关 系的变量之间的数量联系进行测定,确定一个相 关的数学方程,根据这个数学方程可以从已知量 推测未知量,从而为估算和预测提供了一个重要 的方法。应用直线回归的注意事项 v作回归分析要有实际意义,不能把毫无关联的两种现象, 随意进行回归分析,忽视事物现象间的内在联系和规律; 如对儿童身高与小树的生长数据进行回归分析既无道理也 无用途。另外,即使两个变量间存在回归关系时,也

15、不一 定是因果关系,必须结合专业知识作出合理解释和结论。 v直线回归分析的资料,一般要求应变量Y是来自正态总体 的随机变量,自变量X可以是正态随机变量,也可以是精 确测量和严密控制的值。若稍偏离要求时,一般对回归方 程中参数的估计影响不大,但可能影响到标准差的估计, 也会影响假设检验时P值的真实性。应用直线回归的注意事项v进行回归分析时,应先绘制散点图。若提示有直线趋势存 在时,可作直线回归分析;若提示无明显线性趋势,则应 根据散点分布类型,选择合适的曲线模型,经数据变换后 ,化为线性回归来解决。一般说,不满足线性条件的情形 下去计算回归方程会毫无意义,最好采用非线性回归方程 的方法进行分析。

16、v绘制散点图后,若出现一些特大特小的离群值(异常点) ,则应及时复核检查,对由于测定、记录或计算机录入的 错误数据,应予以修正和剔除。否则,异常点的存在会对 回归方程中的系数a、b的估计产生较大影响。应用直线回归的注意事项v回归直线不要外延。直线回归的适用范围一 般以自变量取值范围为限,在此范围内求出 的估计值称为内插;超过自变量取值范围所 计算的称为外延。若无充足理由证明,超出 自变量取值范围后直线回归关系仍成立时, 应该避免随意外延。直线回归分析的SAS程序 vREG过程涉及到较多的语句和选项,PROC REG ;MODEL 应变量列表= ;BY 变量名列表 ;VAR 变量名列表 ;WEIGHT 变量名 ;ADD 变量名列表 ;DELETE 变量名列表 ;MTEST ;OUTPUT keyword=变量名列表 ;PLOT ;直线回归分析的SAS程序vMODEL语句:用以指定所要拟合的回归模型。其最前面 的标签为可选项,可以是不超过8个字符的字符串,用来 对定义的模型进行标识,以便于在结果中分辨不同的模型 ,一般情况下系统会以默认的方式对模

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号