第七章SAS多元统计分析6讲解学习

上传人:yulij****0329 文档编号:271164333 上传时间:2022-03-28 格式:PPT 页数:84 大小:1.06MB
返回 下载 相关 举报
第七章SAS多元统计分析6讲解学习_第1页
第1页 / 共84页
第七章SAS多元统计分析6讲解学习_第2页
第2页 / 共84页
第七章SAS多元统计分析6讲解学习_第3页
第3页 / 共84页
第七章SAS多元统计分析6讲解学习_第4页
第4页 / 共84页
第七章SAS多元统计分析6讲解学习_第5页
第5页 / 共84页
点击查看更多>>
资源描述

《第七章SAS多元统计分析6讲解学习》由会员分享,可在线阅读,更多相关《第七章SAS多元统计分析6讲解学习(84页珍藏版)》请在金锄头文库上搜索。

1、Chapter7Chapter7 SASSAS多元统计分析多元统计分析Chapter7 SASChapter7 SAS多元统计分析多元统计分析 多元统计分析是统计学的重要应用工具,多元统计分析是统计学的重要应用工具,SASSAS实现了实现了许多常用的多元统计分析方法。许多常用的多元统计分析方法。SASSAS用于多变量分析的过用于多变量分析的过程有程有PRINCOMPPRINCOMP(主成分分析)、(主成分分析)、FACTORFACTOR(因子分析)、(因子分析)、CANCORRCANCORR(典型相关分析)、(典型相关分析)、MDSMDS(多维标度过程)、(多维标度过程)、MULTTESTMU

2、LTTEST(多重检验)、(多重检验)、PRINQUALPRINQUAL(定性数据的主分量分(定性数据的主分量分析)、析)、CORRESPCORRESP(对应分析),用于判别分析的过程有(对应分析),用于判别分析的过程有DISCRIMDISCRIM(判别分析)、(判别分析)、CANDISCCANDISC(典型判别)、(典型判别)、STEPDISCSTEPDISC(逐步判别),用于聚类分析的过程有(逐步判别),用于聚类分析的过程有CLUSTERCLUSTER(谱系聚类)、(谱系聚类)、FASTCLUSFASTCLUS(K K均值快速聚类)、均值快速聚类)、MODECLUSMODECLUS(非参数

3、聚类)、(非参数聚类)、VARCLUSVARCLUS(变量聚类)、(变量聚类)、TREETREE(画谱系聚类的结果谱系图并给出分类结果)。(画谱系聚类的结果谱系图并给出分类结果)。下一页返回本节首页Chapter7 SASChapter7 SAS多元统计分析多元统计分析一、主成分分析一、主成分分析二、因子分析二、因子分析三、聚类分析三、聚类分析四、判别分析四、判别分析下一页返回本节首页上一页主成分分析简介 在实际经济工作中,我们经常碰到多变量或多指标问在实际经济工作中,我们经常碰到多变量或多指标问题,比如,企业经济效益的评价、地区经济发展情况比较题,比如,企业经济效益的评价、地区经济发展情况比

4、较等问题。这些问题的研究一般都先要设定研究的指标,也等问题。这些问题的研究一般都先要设定研究的指标,也就是设定评价企业经济效益与评价地区经济发展情况的指就是设定评价企业经济效益与评价地区经济发展情况的指标体系。由于变量或指标较多,分析问题具有相当的复杂标体系。由于变量或指标较多,分析问题具有相当的复杂性。然而,在多数情况下,这些不同的变量或指标之间,性。然而,在多数情况下,这些不同的变量或指标之间,存在一定的相关性。这样,人们自然希望用较少的变量或存在一定的相关性。这样,人们自然希望用较少的变量或指标来代替原来较多的变量或指标,而这些较少的变量或指标来代替原来较多的变量或指标,而这些较少的变量

5、或信息涵盖了原来变量或指标的信息。利用这种降维的思想,信息涵盖了原来变量或指标的信息。利用这种降维的思想,产生了主成分分析方法。产生了主成分分析方法。下一页上一页 主成分分析,就是设法将原来变量或指标重新组合成一主成分分析,就是设法将原来变量或指标重新组合成一组新的、互不相关的几个综合变量或指标,同时根据实际需组新的、互不相关的几个综合变量或指标,同时根据实际需要从中选取几个较少的综合变量或指标来尽可能多地反映原要从中选取几个较少的综合变量或指标来尽可能多地反映原变量或指标的信息。这种将多变量或多指标转化成少数几个变量或指标的信息。这种将多变量或多指标转化成少数几个互不相关的综合变量或综合指标

6、的统计方法叫做主成分分析互不相关的综合变量或综合指标的统计方法叫做主成分分析或称主分量分析。或称主分量分析。 需要注意的是,主成分分析往往不是目的,而是达到目需要注意的是,主成分分析往往不是目的,而是达到目的的一种手段。因此,它常常用在大型研究项目的某个中间的的一种手段。因此,它常常用在大型研究项目的某个中间环节中。例如,将它用到多重回归中,便产生了主成分回归,环节中。例如,将它用到多重回归中,便产生了主成分回归,它可以克服回归问题中由于自变量之间的高度相关而产生的它可以克服回归问题中由于自变量之间的高度相关而产生的分析困难。另外,主成分分析还可以用于典型相关分析、聚分析困难。另外,主成分分析

7、还可以用于典型相关分析、聚类分析和因子分析中。类分析和因子分析中。下一页返回本节首页上一页数学模型与几何解释数学模型与几何解释 假设我们所讨论的实际问题中,有假设我们所讨论的实际问题中,有p p个指标,个指标,我们把这我们把这p p个指标看作个指标看作p p个随机变量,记为个随机变量,记为X X1 1,X X2 2,X Xp p,主成分分析就是要把这,主成分分析就是要把这p p个指标的问题,个指标的问题,转变为讨论转变为讨论p p个指标的线性组合的问题,而这些个指标的线性组合的问题,而这些新的指标新的指标F F1 1,F F2 2,F Fk k(kp(kp),按照保留主要),按照保留主要信息量

8、的原则充分反映原指标的信息,并且相互信息量的原则充分反映原指标的信息,并且相互独立。独立。 这种由讨论多个指标降为少数几个综合指这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合常的做法是,寻求原指标的线性组合Fi。满足如下的条件:满足如下的条件:主成分之间相互独立,即无重叠的信息。即主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为每个主成分的系数平方和为1。即。即主成分分析的几何解释平移、旋转坐标轴 为

9、了方便,我们在二维空间中讨论主成分的几何意为了方便,我们在二维空间中讨论主成分的几何意义。义。 设有设有n个样品,每个样品有两个观测变量个样品,每个样品有两个观测变量xl和和x2,在由变量在由变量xl和和x2 所确定的二维平面中,所确定的二维平面中,n个样本点所散个样本点所散布的情况如椭圆状。由图可以看出这布的情况如椭圆状。由图可以看出这n个样本点无论是个样本点无论是沿着沿着xl 轴方向或轴方向或x2轴方向都具有较大的离散性,其离轴方向都具有较大的离散性,其离散的程度可以分别用观测变量散的程度可以分别用观测变量xl 的方差和的方差和x2 的方差定的方差定量地表示。显然,如果只考虑量地表示。显然

10、,如果只考虑xl和和x2 中的任何一个,中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。那么包含在原始数据中的经济信息将会有较大的损失。 如果我们将如果我们将xl xl 轴和轴和x2x2轴先平移,再同时按逆时轴先平移,再同时按逆时针方向旋转针方向旋转 角度,得到新坐标轴角度,得到新坐标轴FlFl和和F2F2。FlFl和和F2F2是是两个新变量。两个新变量。 根据旋转变换的公式:根据旋转变换的公式: 旋转变换的目的是为了使得旋转变换的目的是为了使得n n个样品点在个样品点在F Fl l轴轴方向上的离方向上的离 散程度最大,即散程度最大,即F Fl l的方差最大。变量的方差最大。变量

11、F Fl l代表了原始数据的绝大代表了原始数据的绝大 部分信息,在研究某经部分信息,在研究某经济问题时,即使不考虑变量济问题时,即使不考虑变量F F2 2也无损大局。经过上也无损大局。经过上述旋转变换原始数据的大部分信息集中到述旋转变换原始数据的大部分信息集中到F Fl l轴上,轴上,对数据中包含的信息起到了浓缩作用。对数据中包含的信息起到了浓缩作用。 F Fl l,F F2 2除了可以对包含在除了可以对包含在X Xl l,X X2 2中的信息起着浓缩作中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来

12、的虚假性。二维平面上的个点题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在的方差大部分都归结在F Fl l轴上,而轴上,而F F2 2轴上的方差很小。轴上的方差很小。F Fl l和和F F2 2称为原始变量称为原始变量x x1 1和和x x2 2的综合变量。的综合变量。F F简化了系统结构,简化了系统结构,抓住了主要矛盾。抓住了主要矛盾。 PRINCOMP PRINCOMP 过程进行主成份分析过程进行主成份分析PRINCOMPPRINCOMP过程的一般格式:过程的一般格式:Proc Princomp DATA=Proc Princomp DATA=数据集数据集 / ;Va

13、r Var 变量列表;变量列表;Partial Partial 变量列表;变量列表;Weight Weight 变量;变量;Freq Freq 变量;变量;By By 变量;变量;Run Run ;下一页上一页 PROC PRINCOMP PROC PRINCOMP语句语句/ TYPETYPECOVCOV或或TYPETYPECORRCORR指明数据集类型,例如:指明数据集类型,例如: DATA DATAnew TYPEnew TYPECORRCORR:表明:表明newnew为一相关系数为一相关系数CORRCORR数据集。数据集。OUTOUT输出数据集输出数据集存储原始数据和主分量得分等。存储原

14、始数据和主分量得分等。OUTSTATOUTSTAT输出数据集输出数据集存储变量的平均数、标准差、相关系数、特存储变量的平均数、标准差、相关系数、特征值、特征向量等。征值、特征向量等。 另外,另外,COVCOV指定由协方差矩阵计算(一般由相关系数矩阵进行);指定由协方差矩阵计算(一般由相关系数矩阵进行);NN个数个数指定主分量个数。指定主分量个数。STDSTD将输出标准化的主分量得分。将输出标准化的主分量得分。NOINTNOINT不含截距。不含截距。NOPRINTNOPRINT不输出分析结果。不输出分析结果。 PROC PRINCOMPPROC PRINCOMP过程中的主要语句过程中的主要语句V

15、ARVAR语句语句指明分析的数值变量。指明分析的数值变量。PARTIALPARTIAL语句语句指明对偏相关或协方差矩阵进行分析的数值变量。指明对偏相关或协方差矩阵进行分析的数值变量。下一页上一页 例:对我国上市公司的经济效益水平进行主例:对我国上市公司的经济效益水平进行主成分分析,选择的主要经济效益指标共有以下几成分分析,选择的主要经济效益指标共有以下几个:资金利税率,产值利税率,百元销售成本实个:资金利税率,产值利税率,百元销售成本实现的利润,百元销售收入实现的利税,流动资金现的利润,百元销售收入实现的利税,流动资金周转次数,主营业务利润增长率等周转次数,主营业务利润增长率等6 6个。试分析

16、经个。试分析经济效益的主要影响因素。济效益的主要影响因素。下一页上一页Data sasuser.jjxy;Data sasuser.jjxy;infile “x:jjxy.txt”;infile “x:jjxy.txt”;input name$ x1-x6;input name$ x1-x6;run;run;proc princomp data=sasuser.jjxy n=6 out=prin ;proc princomp data=sasuser.jjxy n=6 out=prin ; var X1-x6 ; var X1-x6 ;run;run;proc print data=prin;proc print data=prin; var prin1-prin6; var prin1-prin6;run;run;下一页上一页第一、第二主成分的表达式为:第一、第二主成分的表达式为:PRIN1PRIN1=0.469779 X1+0.440631 X2+0.371196 =0.469779 X1+0.440631 X2+0.371196 X3+0.472717 X4+0.122706 X

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号