统计分析软件教程(第2版)-5(相关与回归分...讲义

上传人:今*** 文档编号:107106009 上传时间:2019-10-18 格式:PPT 页数:124 大小:3.46MB
返回 下载 相关 举报
统计分析软件教程(第2版)-5(相关与回归分...讲义_第1页
第1页 / 共124页
统计分析软件教程(第2版)-5(相关与回归分...讲义_第2页
第2页 / 共124页
统计分析软件教程(第2版)-5(相关与回归分...讲义_第3页
第3页 / 共124页
统计分析软件教程(第2版)-5(相关与回归分...讲义_第4页
第4页 / 共124页
统计分析软件教程(第2版)-5(相关与回归分...讲义_第5页
第5页 / 共124页
点击查看更多>>
资源描述

《统计分析软件教程(第2版)-5(相关与回归分...讲义》由会员分享,可在线阅读,更多相关《统计分析软件教程(第2版)-5(相关与回归分...讲义(124页珍藏版)》请在金锄头文库上搜索。

1、第五章 相关与回归分析,2,2019/10/18,第五章,2,2019/10/18,内容与要求,掌握线性相关分析的CORR过程 掌握线性回归分析的REG过程 了解非线性回归分析过程 了解Logistic回归分析过程,3,2019/10/18,第五章,3,2019/10/18,目 录,5.1 相关与回归分析概述,5.2 线性相关分析的CORR过程,5.3 线性回归分析的REG过程,5.4 非线性回归分析过程*,5.5 Logistic回归分析过程*,4,2019/10/18,第五章,4,2019/10/18,5.1 相关与回归分析概述,1. 相关与回归分析基本概念 相关分析(Correlatio

2、n Analysis):是研究变量之 间依存关系的密切程度。 回归分析(Regression Analysis):是根据相关关 系的具体形态,选择一个合适的数学模型,近似 地表达变量间的平均变化关系。,5,2019/10/18,第五章,5,2019/10/18, 两者的关系:具有共同的研究对象,在应用 中互相补充。相关分析需要回归分析来进一步表 明变量相关的具体形式,而回归分析则需要相关 分析所表明的变量间是否存在相关及相关程度的 高低作为依据。只有变量之间高度相关时,进行 回归分析寻求其相关的具体形式才有意义。而在 相关程度很低的情况下回归函数表达式的代表性 几乎就不存在了。,6,2019/

3、10/18,第五章,6,2019/10/18, 两者的区别:第一,相关分析没有自变量和 因变量之分。回归分析必须事先确定变量中哪个 是自变量,哪个是因变量,两个变量的地位不是 对等的;第二,相关分析所涉及的两个变量都是 随机变量,在回归分析中通常把因变量作为随机 变量,而自变量作为非随机变量;第三,相关分 析通过相关系数描述变量的关系。改变两变量的 地位不影响相关系数的数值。而回归分析是通过 回归方程进行估计和预测。改变两变量的地位后 所形成的回归方程的性质是不同的。,7,2019/10/18,第五章,7,2019/10/18,2. 相关分析的内容与种类 相关分析的主要内容有:确定相关关系的存

4、 在,相关关系呈现的形态和方向,相关关系的密 切程度。其主要方法是绘制相关图表和计算相关 系数。在分析过程中的按分析方法分主要包括两 类: 线性相关(Linear Correlation):又称为简单相 关(Simple Correlation), 适用于双变量符合正态分 布类型的数据属于参数统计分析方法的范畴。,8,2019/10/18,第五章,8,2019/10/18, 秩相关(Rank Correlation):秩相关又称等级 相关,适用于双变量等级资料类型的数据。属于 非参数统计分析方法。秩相关分析方法适用于下 列类型的资料: 不服从变量正态分布的数据。 总体分布类型未知的数据。 以等

5、级表示的数据。,9,2019/10/18,第五章,9,2019/10/18,按关系类型分:,10,2019/10/18,第五章,10,2019/10/18,相关关系的图示,11,2019/10/18,第五章,11,2019/10/18,SAS系统中相关分析的方法主要包括: Pearson(皮尔逊)积差相关 Spearman(斯皮尔曼)等级相关 Kendall(卡德尔)等级相关 HOEFFDING(霍夫丁)D相关,12,2019/10/18,第五章,12,2019/10/18,3.回归分析的内容与种类 如果因变量是(非时间的)连续变量(即一般 定量资料),设自变量的个数为k,当k=1时,回 归分

6、析的种类有: 直线回归分析 通过直线化实现的简单曲线回归分析(以下 简称为曲线拟合) 非线性曲线拟合 一般多项式曲线拟合。 正交多项式曲线拟合。,13,2019/10/18,第五章,13,2019/10/18,5.2 线性相关分析的CORR过程,SAS系统的线性相关分析过程是由CORR过 程完成的。该过程由系统的BASE模块提供,可 以计算: PEARSON(皮尔逊)积差相关系数、 SPEARMAN(斯皮尔曼)秩相关系数、 KENDALL(卡德尔)TAU-B统计量、 HOEFFDING(霍夫丁)独立性分析统计量D 以及Pearson、Spearman以及Kendall线性偏相关 系数。另外,它

7、还对用于估计可靠性的Cronbach 系数进行计算。,14,2019/10/18,第五章,14,2019/10/18,1.语句格式: PROC CORR 选择项; VAR 变量表; WITH 变量表; PARTIAL 变量表; WEIGHT 变量; FREQ 变量; BY 变量表;,15,2019/10/18,第五章,15,2019/10/18,2.常用选项: (1)PROC CORR 语句的选择项: 1.DATA=SAS 数据集 2.PEAESON 计算皮尔逊相关系数(默认) 3.SPEARMAN 计算斯皮尔曼系数 4.HOEFFDING 计算霍夫丁D统计量 5.KENDALL 计算卡德尔系

8、数 6.OUT(PSKH )=SAS 数据集 输出数据集。 分别对应与四个系数输出数据集,16,2019/10/18,第五章,16,2019/10/18,7.NOMISS 分析时剔除缺失值 8.NOSIMPLE 不列出描述统计量 9.COV 列出协方差矩阵 10.ALPHA 计算并输出阿尔法系数 (CRONBACH系数) (2)功能语句 1.VAR语句: 计算所有数值型变量间的相关系数 2.WITH语句: 必须与VAR语句同时使用,只计算 VAR 变量与WITH变量的相关系数。 3.PARTIAL : 偏相关变量表;/*偏相关*/ 4. BY语句: 数据集按照BY语句中变量的值分组,在 每组内

9、分别进行相关系数的计算。数据 集内的数据必须先按照BY变量的值排序,17,2019/10/18,第五章,17,2019/10/18,例5-1,数据集MYDATA.CPI是某地区30户居民家庭的 月可支配收入(INCOME)和月消费支出(CSPT)的 原始资料,试通过相关分析月可支配收入和月消 费支出两个变量间是否存在相关关系。 由于这两个分析变量均为连续变量。因此,可以使用 PEARSON积差相关分析过程。为了更直观的反映两个变 量之间的关系,在使用CORR过程分析之前,使用PLOT 过程作散点图。,18,2019/10/18,第五章,18,2019/10/18,编 程,PROC GPLOT

10、DATA=DATA.CPI; PLOT CSP*INCOME; RUN; PROC CORR DATA=DATA.CPI OUTS=DA1; VAR INCOME CSP; RUN;,19,2019/10/18,第五章,19,2019/10/18,输出结果散点图,从散点图中可以看到两个 变量基本上呈现直线关系,20,2019/10/18,第五章,20,2019/10/18,输出结果相关分析结果,21,2019/10/18,第五章,21,2019/10/18,结果分析,CORR过程的默认输出结果分为两部分: 第一部分“Simple Statistics”为描述分析,输出 VAR语句中所有变量的描

11、述统计量的基本信息 变量名(Variable) 观测数(N) 均值(Mean) 变量值的和(Sum) 标准差(Std Dev) 最小值(Minimum) 最大值(Maximum) 变量标签(Label),22,2019/10/18,第五章,22,2019/10/18,结果分析,第二部分“Pearson Correlation Coefficients”为默 认的PEARSON(皮尔逊)积差相关分析结果。是在原假 设为总体相关系数等于零(Prob |r| under H0: Rho=0) 条件下的PEARSON积差相关系数矩阵,该矩阵是一个 对角方阵。可以看出两变量的线性相关系数值为0.967,

12、 说明两变量为高度线性相关,其检验概率为Prob |r| 小于0.0001。小于默认的显著性水平 ,因此从总体上可 以认为两个变量呈高度线性相关。,23,2019/10/18,第五章,23,2019/10/18,例5-2,数据集DST.BCLASS是某学校学生身体状况的资料。 运行下列两组程序,了解WITH语句的作用。 程序1: 程序2:,PROC CORR DATA=DST.BCLASS NOSIMPLE; VAR AGE HEIGHT WEIGHT; RUN;,PROC CORR DATA=DST.BCLASS NOSIMPLE; VAR HEIGHT WEIGHT; WITH AGE;

13、RUN;,24,2019/10/18,第五章,24,2019/10/18,运行结果,运行结果-未使用WITH语句 运行结果-使用WITH语句,25,2019/10/18,例5-3,数据集MYDATA. VITAL是一组肺活量、身 高体重的实测资料要求: (1)对三个变量进行简单线性相关分析; (2)分别以身高与体重为控制变量进行一阶偏相关分析。 编程1:简单线性相关分析(CORR的一般过程) PROC CORR NOSIMPLE; VAR HEIGHT WEIGHT; WITH VITAL; RUN;,第五章,25,2019/10/18,26,2019/10/18,运行结果,第五章,26,20

14、19/10/18,27,2019/10/18,编程2:偏相关过程(以WEIGHT为控制变量) PROC CORR NOSIMPLE; VAR HEIGHT VITAL; PARTIAL WEIGHT; RUN;,第五章,27,2019/10/18,28,2019/10/18,编程3:偏相关过程(以HEIGHT为控制变量) PROC CORR NOSIMPLE; VAR WEIGHT VITAL; PARTIAL HEIGHT; RUN;,第五章,28,2019/10/18,29,2019/10/18,例5-4,大型企业以“你在企业改革中最需要解决 什么?”为题,分别对企业管理人员和普通员 工共

15、200名进行了问卷调查。经整理后得下表 所列的资料。分析两种人员“需要”的相关程 度。由于两变量是离散变量,因此需要使用秩 相关分析过程。,第五章,29,2019/10/18,30,2019/10/18,第五章,30,2019/10/18,31,2019/10/18,DATA LI54; INPUT worker manager; CARDS; 26 19 10 21 16 8 25 16 5 11 6 15 9 7 3 3 ; PROC PRINT; RUN;,第五章,31,2019/10/18,创建数据集,32,2019/10/18,PROC RANK DATA=LI54 OUT=LI54

16、_R; VAR worker manager; RANKS R_worker R_manager; PROC PRINT; RUN; PROC CORR DATA=LI54_R SPEARMAN; VAR R_worker R_manager; RUN;,第五章,32,2019/10/18,分析过程,33,2019/10/18,运行结果,第五章,33,2019/10/18,两变量的线性相关系数值为 0.61905,说明两 变量为中度线性相关,但其检验概率值Prob |r|为0.1017,大于默认的显著性水平 ,因此从总体上不 能认为两个变量具有线性相关关系。,数据集EXAM包含四个子测验的分数,分别是 VOCAB(词汇)、READING(阅读)、SPELLING (拼写)、USAGE(语法)等,分析这些子测验 成绩是否与英语总成绩有关。 编程: PROC CORR DATA=EXAM ALPHA NOSIMPLE; VAR VO

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号