山东大学sas课程第9章ppt

上传人:luoxia****01801 文档编号:65798254 上传时间:2019-01-02 格式:PDF 页数:25 大小:146.85KB
返回 下载 相关 举报
山东大学sas课程第9章ppt_第1页
第1页 / 共25页
山东大学sas课程第9章ppt_第2页
第2页 / 共25页
山东大学sas课程第9章ppt_第3页
第3页 / 共25页
山东大学sas课程第9章ppt_第4页
第4页 / 共25页
山东大学sas课程第9章ppt_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《山东大学sas课程第9章ppt》由会员分享,可在线阅读,更多相关《山东大学sas课程第9章ppt(25页珍藏版)》请在金锄头文库上搜索。

1、第9章 相关分析 1 相关分析简介 1. 问题 有时我们需要分析变量之间的关系问题,如: 房子的使用年限如何影响它的销售价格? 心率是否随胆固醇的多少而改变? 广告费用的增加会带来销售量的增加吗? 即当一个变量发生变化时另一个变量变化的方向和幅 度是怎样的情况? 相关分析和回归分析就是用来解决关于变量间相关问 题的统计方法,其中 相关分析度量变量间相关强度; 回归分析描述一个变量与一个或一组变量之间的相关联系。 2. 概念:相关系数 一般用相关系数 r 描述描述了两个变量之间关 系的强度。 相关系数 r( Correlation Coefficient) 取值范围:-11; | r |接近1,

2、表示两变量之间存在很强的相关性; | r |接近0,表示两变量之间的相关性很弱; 3. 常用相关系数计算公式 3.1 皮尔逊相关系数(Pearsons Product Moment Correlation) 适用于:比例变量 vs. 比例变量 公式: 假设数据集中变量 X 的值依次为 X1 , X2 , Xn ,变量 Y 的值依次为 Y1 , Y2 , Yn ,则变量 X 和 Y 的相关系 数为 22 ()() ()() ii ii XX YY r XXYY = 若存在权重变量W的值依次为 w1 , w2 , wn ,则 其中 22 ()() ()() iiwiw iiwiiw w XXYY

3、r w XXw YY = wiii wiii Xw Xw YwYw = = 3.2 斯皮尔曼秩序相关(Spearmans Rank-Order Correlation) 适用于:次序变量 vs. 次序变量 公式: 其中, Ri :第 i 个 X 值的等级,Si :第 i 个 Y 值的等级 是 Ri 的均值, 是 Si 的均值。 22 ()() ()() ii ii RR SS RRSS = SR 3.3 肯氏等级相关(Kendall tau-b) 适用于:次序变量 vs. 次序变量 说明:此相关系数是在成对观测中和谐对和不和谐对的 基础上建立的一个非参数关联性测度。 和谐对(Concordan

4、t):成对观测中两变量值大小关系相同, 个数记为 P; 不和谐对(Discordant):成对观测中两变量值大小关系相 反,个数记为 Q; 相持(结值,Tied):成对观测中在某个变量值上相等。可体 现在变量X上(记作 TX ),或变量Y上(记作 TY ) 。 公式: ()() XY PQ PQTPQT = + 3.4 Hoeffding相关系数D( Hoeffdings Measure of Dependence) 说明:此相关系数测量两变量具有等级水平时的相关程 度,是一个非参数测度。 公式: 其中 Ri :Xi 的秩,Si :Yi 的秩, Qi :双变量的秩,当 X 与 Y 的值分别小于

5、某一点 Xi 、 Yi 时,该点的值加 1。 123 (2)(3)2(2) 30 (1)(2)(3)(4) nnDDnD D n nnnn + = 1 2 3 (1)(2) (1)(2)(1)(2) (2)(2)(1) ii i iiii i iii i DQQ DRRSS DRSQ = = = 2 CORR过程步 1.简介 CORR过程步 是一个对数值变量的统计过程, 可用于计算Pearson相关系数,三个非参数的 变量关系测度,以及有关这些统计量的概率。 2. 一般格式 PROC CORR ; RUN; PROC CORR ; RUN; 3. 语句说明 3.1 PROC CORR语句 PR

6、OC CORR ; PROC CORR语句调用CORR过程,是必须给出的语 句 其它语句都是可选的,如果仅有PROC CORR语句, 则对输入数据集中所有数值变量计算Pearson相关系 数和显著性概率。 常用选项: (1)有关数据集选项 DATA=数据集名 :指定要分析的输入数据集; OUTP=数据集名:指定输出输入数据集,内容是Pearson相 关系数的矩阵、各变量的均值、标准差、观测个数。 OUTS=数据集名:指定输出输入数据集,内容是Spearman 相关系数。 OUTK=数据集名:指定输出输入数据集,内容是Kendall tau-b。 OUTH=数据集名:指定输出输入数据集,内容是H

7、oeffding 系数D 。 (2)有关相关系数类型的选项 PEARSON:计算Pearson相关系数,是系统默认计算的相 关系数; SPEARMAN:计算Spearman相关系数 r,-1r1,此时 不允许有WEIGHT语句; KENDALL:计算Kendall tau-b相关系数,-1tau-b1 , 此时不允许有WEIGHT语句; HOEFFDING:计算Hoeffding统计量 D,D 的取值范围- 0.5,1, D值越大表示独立性越强,关联性越弱,此时不允 许有WEIGHT语句; (3)有关Pearson相关的选项 ALPHA:计算并输出Cronbach的系数; COV:输出协方差;

8、 CSSCP :输出偏差平方及叉积和; NOCORR:不输出Pearson相关; SSCP :输出平方及叉积和 (4)输出控制: BEST=n:对每个变量只显示绝对值最大的n个相关系数 (降序); NOSIMPLE:不显示变量的描述性统计量; NOPRINT:禁止输出; NOPROB:不显示相关系数的显著性概率值; RANK:要求相关系数按照其绝对值由大到小显示; (5)其它选项 VARDEF = N | DF | WEIGHT | WGT | WDF :设置计算方 差和协方差的分母; NOMISS:略过有缺省值的观测。 3.2 VAR语句 VAR 变量列表; 列出要计算相关系数的变量。缺省时

9、,系统默认对所有 数值变量进行分析。 例如 var a b c; 将计算a和b、b和c、a和c三对变量之间的相关系数。 3.3 WITH语句 VAR 变量列表; 与VAR语句联用,指定变量组合。 若WITH语句列出m个变量, VAR语句列出n个变量, 将产生m*n的相关系数矩阵, WITH语句中的变量是行 变量, VAR语句中的变量是列变量。 若仅有VAR语句,则生成n*n的方阵。 3.4 PARTIAL语句 PARTIAL 变量列表; 当需要计算Pearson偏相关、Spearman偏秩序相关 、 Kendall偏tau-b时,在此语句中指定偏出去(即固定) 的变量名。 3.5 BY语句 B

10、Y 变量列表; 指定分组变量。 3.6 FREQ语句 FREQ 频数变量; 指定频数变量。 3.7 WEIGHT语句 WEIGHT 权重变量; 指定权重变量。 4. 例子 假设我们要计算数据集work.fitness中变量 weight(体重)、oxygen(肺活量)、runtime (固定距离跑步时间)的相关系数,可调用如 下CORR过程实现。 proc corr data=fitness pearson spearman hoeffding; var weight oxygen runtime; run; data fitness; input Age Weight Runtime Oxy

11、gen ; datalines; 57 73.37 12.63 39.407 54 79.38 11.17 46.080 52 76.32 9.63 45.441 50 70.87 8.92 . 51 67.25 11.08 45.118 54 91.63 12.88 39.203 51 73.71 10.47 45.790 57 59.08 9.93 50.545 49 76.32 . 48.673 48 61.24 11.5 47.920 52 82.78 10.5 47.467 44 73.03 10.13 50.541 45 87.66 14.03 37.388 45 66.45 11

12、.12 44.754 47 79.15 10.6 47.273 54 83.12 10.33 51.855 49 81.42 8.95 40.836 51 77.91 10.00 46.672 48 91.63 10.25 46.774 49 73.37 10.08 50.388 44 89.47 11.37 44.609 40 75.07 10.07 45.313 44 85.84 8.65 54.297 42 68.15 8.17 59.571 38 89.02 9.22 49.874 47 77.45 11.63 44.811 40 75.98 11.95 45.681 43 81.19

13、 10.85 49.091 44 81.42 13.08 39.442 38 81.87 8.63 60.055 ; run; 生成数据集的代码如下: 结果如下: (1)基本统计量 变量名非缺失 值个数 均值 标准差中位数最大值最小值 (2)相关系数矩阵及相关假设检验 1Pearson相关矩阵中每个单元显示的内容: 相关系数; 假设检验H0 : r=0的显著性概 率值; 非缺失值观测数。 2Spearman相关 3Kendall的tau-b 5. 关于变量相关性的讨论 相关系数描述了两数值变量之间的线性关系的 强度和方向信息。 如果变量X和Y之间存在着一个线性函数,那么相关 系数是1或-1。 如果两变量之间不存在线性可预测性,则相关系数 为0。 如果两变量是正态的且相关系数为0,则两变量相互 独立。 但要注意:相关系数并不能说明因果关系。有 时两变量间可能存在潜在的因果关系。 散点图与相关系数的对照关系 相关系数 r=1的两幅散点图 O X Y O Y X

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 幼儿/小学教育 > 小学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号