《SAS系统的多元统计分析功能》由会员分享,可在线阅读,更多相关《SAS系统的多元统计分析功能(52页珍藏版)》请在金锄头文库上搜索。
1、SASSAS系统系统用于多元统计分析的过程有:用于多元统计分析的过程有:qq多多多多变量分析变量分析变量分析变量分析-PRINCOMPPRINCOMP(主分量分析主分量分析主分量分析主分量分析), , FACTORFACTOR(因因因因子分析子分析子分析子分析), , CANCORRCANCORR(典型相关分析典型相关分析典型相关分析典型相关分析), , , , MDSMDS(多维标度过多维标度过多维标度过多维标度过程程程程), , MULTTESTMULTTEST(多重检验多重检验多重检验多重检验), , PRINQUALPRINQUAL(定性数据的主定性数据的主定性数据的主定性数据的主分量
2、分析分量分析分量分析分量分析), , CORRESPCORRESP(对应分析对应分析对应分析对应分析);qq判别分析判别分析判别分析判别分析-DISCRIMDISCRIM(判别分析判别分析判别分析判别分析), , CANDISCCANDISC(典型判别典型判别典型判别典型判别), , STEPDISCSTEPDISC(逐步判别逐步判别逐步判别逐步判别); qq聚类分析聚类分析聚类分析聚类分析-CLUSTERCLUSTER(谱系聚类谱系聚类谱系聚类谱系聚类), , FASTCLUSFASTCLUS( K K均值均值均值均值快速聚类快速聚类快速聚类快速聚类), , MODECLUSMODECLUS
3、(非参数聚类非参数聚类非参数聚类非参数聚类), , VARCLUSVARCLUS(变量聚变量聚变量聚变量聚类类类类), , TREETREE(画谱系聚类的结果谱系图并给出分类结果画谱系聚类的结果谱系图并给出分类结果画谱系聚类的结果谱系图并给出分类结果画谱系聚类的结果谱系图并给出分类结果). .SAS第五章第五章 SASSAS系统多元统计分析功能系统多元统计分析功能5.1 5.1 主成分分析与主成分分析与PRINCOMPPRINCOMP过程过程5.2 5.2 因子分析与因子分析与FACTORFACTOR过程过程5.3 5.3 判别分析与判别分析与STEPDISCSTEPDISC、DISCRIMD
4、ISCRIM过程过程5.4 5.4 聚类分析与聚类分析与CLUSTERCLUSTER过程过程主成分分析主成分分析 (Principal Component Analysis)(Principal Component Analysis)qq为了全面系统地分析和研究某些社会经济问题,为了全面系统地分析和研究某些社会经济问题,为了全面系统地分析和研究某些社会经济问题,为了全面系统地分析和研究某些社会经济问题,可能必须同时考虑许多存在一定内在联系和相互关可能必须同时考虑许多存在一定内在联系和相互关可能必须同时考虑许多存在一定内在联系和相互关可能必须同时考虑许多存在一定内在联系和相互关联的经济指标,这些
5、指标所反映的信息会有某种程联的经济指标,这些指标所反映的信息会有某种程联的经济指标,这些指标所反映的信息会有某种程联的经济指标,这些指标所反映的信息会有某种程度的重叠,但去除变量又会导致某些信息的损失;度的重叠,但去除变量又会导致某些信息的损失;度的重叠,但去除变量又会导致某些信息的损失;度的重叠,但去除变量又会导致某些信息的损失;qq主成分分析主成分分析主成分分析主成分分析通过降维的方法,把相互关联的多个通过降维的方法,把相互关联的多个通过降维的方法,把相互关联的多个通过降维的方法,把相互关联的多个变量转变成少数互不相关的新变量变量转变成少数互不相关的新变量变量转变成少数互不相关的新变量变量
6、转变成少数互不相关的新变量(即主成分,也(即主成分,也(即主成分,也(即主成分,也称为综合变量)称为综合变量)称为综合变量)称为综合变量),各主成分由原来变量的线性关系,各主成分由原来变量的线性关系,各主成分由原来变量的线性关系,各主成分由原来变量的线性关系表示,其包含信息量的多少由各自的方差测定,主表示,其包含信息量的多少由各自的方差测定,主表示,其包含信息量的多少由各自的方差测定,主表示,其包含信息量的多少由各自的方差测定,主成分的方差越大,所包含的信息量就越多。成分的方差越大,所包含的信息量就越多。成分的方差越大,所包含的信息量就越多。成分的方差越大,所包含的信息量就越多。PRINCOM
7、PPRINCOMP过程过程的主要功能:的主要功能:qq完成主成分分析;完成主成分分析;完成主成分分析;完成主成分分析;qq主成分的个数、名称及得分是否标准化均可由用主成分的个数、名称及得分是否标准化均可由用主成分的个数、名称及得分是否标准化均可由用主成分的个数、名称及得分是否标准化均可由用户自己规定;户自己规定;户自己规定;户自己规定;qq输入的数据集可以是原始数据集、相关阵或协方输入的数据集可以是原始数据集、相关阵或协方输入的数据集可以是原始数据集、相关阵或协方输入的数据集可以是原始数据集、相关阵或协方差阵等;差阵等;差阵等;差阵等;qq计算结果有:简单统计量、相关阵或协方差阵,计算结果有:
8、简单统计量、相关阵或协方差阵,计算结果有:简单统计量、相关阵或协方差阵,计算结果有:简单统计量、相关阵或协方差阵,从大到小排序的特征值和相应特征向量,每个主从大到小排序的特征值和相应特征向量,每个主从大到小排序的特征值和相应特征向量,每个主从大到小排序的特征值和相应特征向量,每个主成分解释的方差比例、累计比例等;成分解释的方差比例、累计比例等;成分解释的方差比例、累计比例等;成分解释的方差比例、累计比例等;qq可揭示变量间的共线关系,若某特征值特别接近可揭示变量间的共线关系,若某特征值特别接近可揭示变量间的共线关系,若某特征值特别接近可揭示变量间的共线关系,若某特征值特别接近于于于于0 0 0
9、 0,则说明变量线性相关。,则说明变量线性相关。,则说明变量线性相关。,则说明变量线性相关。PROCPROC PRINCOMPPRINCOMP DATA= DATA= OPTIONSOPTIONS ; VAR VAR 变量名列;变量名列; WEIGHT WEIGHT 变量名列;变量名列; FREQ FREQ 变量名列;变量名列; PARTIAL PARTIAL 变量名列;变量名列; BY BY 变量名列;变量名列;RUNRUN;PRINCOMPPRINCOMP过程过程的一般形式:的一般形式:PROC PRINCOMPPROC PRINCOMP过程的常用过程的常用选项选项有:有:OUT=OUT=
10、OUT=OUT= 把计算的统计量存入指定的数据集;把计算的统计量存入指定的数据集;把计算的统计量存入指定的数据集;把计算的统计量存入指定的数据集;COVARIANCE(COVARIANCE(COVARIANCE(COVARIANCE(或或或或COV)COV)COV)COV) 指定以协方差矩阵为分析数据,指定以协方差矩阵为分析数据,指定以协方差矩阵为分析数据,指定以协方差矩阵为分析数据,缺省则以相关系数矩阵为分析数据;缺省则以相关系数矩阵为分析数据;缺省则以相关系数矩阵为分析数据;缺省则以相关系数矩阵为分析数据;N=N=N=N=正整数正整数正整数正整数 指定要保留的主成分个数;指定要保留的主成分
11、个数;指定要保留的主成分个数;指定要保留的主成分个数;PREFIX=PREFIX=PREFIX=PREFIX=主成分名主成分名主成分名主成分名 为主成分命名,缺省则自动命名为:为主成分命名,缺省则自动命名为:为主成分命名,缺省则自动命名为:为主成分命名,缺省则自动命名为:PRIN1,PRIN2,PRIN1,PRIN2,PRIN1,PRIN2,PRIN1,PRIN2,;STANDARD (STANDARD (STANDARD (STANDARD (或或或或STD) STD) STD) STD) 对各主成分进行标准化,使各主对各主成分进行标准化,使各主对各主成分进行标准化,使各主对各主成分进行标准
12、化,使各主成分的方差为成分的方差为成分的方差为成分的方差为1 1 1 1; NOINT NOINT NOINT NOINT 作协方差矩阵主成分分析或相关行列主成分作协方差矩阵主成分分析或相关行列主成分作协方差矩阵主成分分析或相关行列主成分作协方差矩阵主成分分析或相关行列主成分分析时,各变量不对其平均数加以修正。分析时,各变量不对其平均数加以修正。分析时,各变量不对其平均数加以修正。分析时,各变量不对其平均数加以修正。VARVARVARVAR语句语句语句语句 指定主成分分析中使用的变量;指定主成分分析中使用的变量;指定主成分分析中使用的变量;指定主成分分析中使用的变量;WEIGHTWEIGHTW
13、EIGHTWEIGHT语句语句语句语句 对已输入的资料附加加权数据;对已输入的资料附加加权数据;对已输入的资料附加加权数据;对已输入的资料附加加权数据;FREQFREQFREQFREQ语句语句语句语句 表示变量的频数;表示变量的频数;表示变量的频数;表示变量的频数;PARTIALPARTIALPARTIALPARTIAL语句语句语句语句 除去特定变量的线性效果后,利用偏除去特定变量的线性效果后,利用偏除去特定变量的线性效果后,利用偏除去特定变量的线性效果后,利用偏 相关分析或者协方差矩阵进行分析;相关分析或者协方差矩阵进行分析;相关分析或者协方差矩阵进行分析;相关分析或者协方差矩阵进行分析;B
14、YBYBYBY语句语句语句语句 按指定变量分类(需先排序)后,对按指定变量分类(需先排序)后,对按指定变量分类(需先排序)后,对按指定变量分类(需先排序)后,对 每一个分类进行主成分分析。每一个分类进行主成分分析。每一个分类进行主成分分析。每一个分类进行主成分分析。PROC PRINCOMPPROC PRINCOMP过程的常用过程的常用语句语句有:有:例例例例5.15.1 已知纽约上市的三只化学产业证券已知纽约上市的三只化学产业证券已知纽约上市的三只化学产业证券已知纽约上市的三只化学产业证券(AC(AC(AC(AC、DPDPDPDP、UC)UC)UC)UC)和两只石油产业证券和两只石油产业证券
15、和两只石油产业证券和两只石油产业证券(EX(EX(EX(EX、TE)100TE)100TE)100TE)100周的收益率调查周的收益率调查周的收益率调查周的收益率调查资料。各证券的收益率依次用资料。各证券的收益率依次用资料。各证券的收益率依次用资料。各证券的收益率依次用X1X1X1X1、X2X2X2X2、X3X3X3X3、X4X4X4X4、X5X5X5X5表表表表示示示示, , , ,且样本的平均收益率和相关矩阵且样本的平均收益率和相关矩阵且样本的平均收益率和相关矩阵且样本的平均收益率和相关矩阵R R R R如下,要求对证如下,要求对证如下,要求对证如下,要求对证券收益率做主成分分析并解释主成
16、分的意义。券收益率做主成分分析并解释主成分的意义。券收益率做主成分分析并解释主成分的意义。券收益率做主成分分析并解释主成分的意义。data onedata one(type=(type=corrcorr) ); ; _type_=_type_=corrcorr ; ; inputinput _name_name_ $ x1 x2 x3 x4 x5 ; $ x1 x2 x3 x4 x5 ; cardscards; ; x1 1 . . . . x1 1 . . . . x2 0.577 1 . . . x2 0.577 1 . . . x3 0.509 0.599 1 . . x3 0.509
17、0.599 1 . . x4 0.387 0.389 0.436 1 . x4 0.387 0.389 0.436 1 . x5 0.462 0.322 0.426 0.523 1 x5 0.462 0.322 0.426 0.523 1 ; ; runrun; ;proc proc princompprincomp; ;runrun; ;相相相相关关关关矩矩矩矩阵阵阵阵数数数数据据据据的的的的输输输输入入入入方方方方法法法法输出结果:输出结果:输出结果:输出结果:(单位特征向量矩阵)(单位特征向量矩阵)(单位特征向量矩阵)(单位特征向量矩阵)各各各各主成分标准化变量的线性系数主成分标准化变量
18、的线性系数主成分标准化变量的线性系数主成分标准化变量的线性系数对主成分意义的解释:对主成分意义的解释:对主成分意义的解释:对主成分意义的解释:qq从第一主成分的系数来看,从第一主成分的系数来看,从第一主成分的系数来看,从第一主成分的系数来看,均为均为均为均为0.450.450.450.45左右的正数左右的正数左右的正数左右的正数表明表明表明表明5 5 5 5个标准化变量对该主成分具有同等的重要性,个标准化变量对该主成分具有同等的重要性,个标准化变量对该主成分具有同等的重要性,个标准化变量对该主成分具有同等的重要性,并且均成正比关系,故可认为该主成分是反映并且均成正比关系,故可认为该主成分是反映
19、并且均成正比关系,故可认为该主成分是反映并且均成正比关系,故可认为该主成分是反映“整整整整个证券市场景气个证券市场景气个证券市场景气个证券市场景气”的综合指标;的综合指标;的综合指标;的综合指标;qq从第二主成分的系数来看,从第二主成分的系数来看,从第二主成分的系数来看,从第二主成分的系数来看,有关化学产业证券有关化学产业证券有关化学产业证券有关化学产业证券(X1,X2,X3X1,X2,X3X1,X2,X3X1,X2,X3)的)的)的)的系数均为负,有关石油产业证券系数均为负,有关石油产业证券系数均为负,有关石油产业证券系数均为负,有关石油产业证券(X4,X5X4,X5X4,X5X4,X5)的
20、系数均为正,说明该主成分代表化学产的系数均为正,说明该主成分代表化学产的系数均为正,说明该主成分代表化学产的系数均为正,说明该主成分代表化学产业证券和石油产业证券的对立关系,故可认为该主业证券和石油产业证券的对立关系,故可认为该主业证券和石油产业证券的对立关系,故可认为该主业证券和石油产业证券的对立关系,故可认为该主成分是反映成分是反映成分是反映成分是反映“有关产业情报有关产业情报有关产业情报有关产业情报”的综合指标。的综合指标。的综合指标。的综合指标。用用用用SAS/INSIGHTSAS/INSIGHTSAS/INSIGHTSAS/INSIGHT方式进行主成分分析方式进行主成分分析方式进行主
21、成分分析方式进行主成分分析选定数据集选定数据集选定数据集选定数据集 AnalyzeAnalyze Multivariate(Y X)Multivariate(Y X) 将各分析变量都选为将各分析变量都选为将各分析变量都选为将各分析变量都选为Y Y变量变量变量变量 OutputOutput 选中主选中主选中主选中主成分分析成分分析成分分析成分分析(Principal Component AnalysisPrincipal Component AnalysisPrincipal Component AnalysisPrincipal Component Analysis)复选复选复选复选框框框框
22、OKOK. .用用用用分析员应用分析员应用分析员应用分析员应用方式进行主成分分析方式进行主成分分析方式进行主成分分析方式进行主成分分析选定数据集选定数据集选定数据集选定数据集 StatisticsStatistics Multivariate Multivariate Principal ComponentsPrincipal Components 选择分析变量选择分析变量选择分析变量选择分析变量 OKOK. .SAS第五章第五章 SASSAS系统多元统计分析功能系统多元统计分析功能5.1 5.1 主成分分析与主成分分析与PRINCOMPPRINCOMP过程过程5.2 5.2 因子分析与因子分
23、析与FACTORFACTOR过程过程5.3 5.3 判别分析与判别分析与STEPDISCSTEPDISC、DISCRIMDISCRIM过程过程5.4 5.4 聚类分析与聚类分析与CLUSTERCLUSTER过程过程因子分析因子分析(Factor Analysis)(Factor Analysis)qq因子分析因子分析因子分析因子分析是主成分分析的推广,它通过少数几个不是主成分分析的推广,它通过少数几个不是主成分分析的推广,它通过少数几个不是主成分分析的推广,它通过少数几个不可直接测量的、独立的、专业上有意义的公因子来说可直接测量的、独立的、专业上有意义的公因子来说可直接测量的、独立的、专业上有
24、意义的公因子来说可直接测量的、独立的、专业上有意义的公因子来说明相关变量之间复杂结构关系;明相关变量之间复杂结构关系;明相关变量之间复杂结构关系;明相关变量之间复杂结构关系;qq因子分析与主成分分析的不同:因子分析与主成分分析的不同:因子分析与主成分分析的不同:因子分析与主成分分析的不同:后者是寻找反映多后者是寻找反映多后者是寻找反映多后者是寻找反映多个指标的独立的综合指标,而前者是寻找解释多个指个指标的独立的综合指标,而前者是寻找解释多个指个指标的独立的综合指标,而前者是寻找解释多个指个指标的独立的综合指标,而前者是寻找解释多个指标的独立的公因子,若初始因子难以合理解释,可利标的独立的公因子
25、,若初始因子难以合理解释,可利标的独立的公因子,若初始因子难以合理解释,可利标的独立的公因子,若初始因子难以合理解释,可利用因子旋转法从旋转后因子得到合理解释;用因子旋转法从旋转后因子得到合理解释;用因子旋转法从旋转后因子得到合理解释;用因子旋转法从旋转后因子得到合理解释;qq因子分析的主要用途:因子分析的主要用途:因子分析的主要用途:因子分析的主要用途:利用公因子来探索和解释原利用公因子来探索和解释原利用公因子来探索和解释原利用公因子来探索和解释原多个指标对个体特征的描述,对原始变量进行分门别多个指标对个体特征的描述,对原始变量进行分门别多个指标对个体特征的描述,对原始变量进行分门别多个指标
26、对个体特征的描述,对原始变量进行分门别类的综合评价等。类的综合评价等。类的综合评价等。类的综合评价等。FACTORFACTORFACTORFACTOR过程过程过程过程的主要功能的主要功能的主要功能的主要功能qq进行因子分析、分量分析和因子旋转;进行因子分析、分量分析和因子旋转;进行因子分析、分量分析和因子旋转;进行因子分析、分量分析和因子旋转;qq对因子模型使用正交旋转和斜交旋转;对因子模型使用正交旋转和斜交旋转;对因子模型使用正交旋转和斜交旋转;对因子模型使用正交旋转和斜交旋转;qq用回归法计算得分系数,同时把因子得分值存储用回归法计算得分系数,同时把因子得分值存储用回归法计算得分系数,同时
27、把因子得分值存储用回归法计算得分系数,同时把因子得分值存储在输出数据集中。在输出数据集中。在输出数据集中。在输出数据集中。PROCPROCPROCPROC FACTORFACTORFACTORFACTOR DATA= DATA= DATA= DATA= OPTIONSOPTIONSOPTIONSOPTIONS ; VAR VAR VAR VAR 变量名列;变量名列;变量名列;变量名列; PRIORS PRIORS PRIORS PRIORS 变量共通性的预估值;变量共通性的预估值;变量共通性的预估值;变量共通性的预估值; PARTIAL PARTIAL PARTIAL PARTIAL 变量名列
28、;变量名列;变量名列;变量名列; WEIGHT WEIGHT WEIGHT WEIGHT 变量名列;变量名列;变量名列;变量名列; FREQ FREQ FREQ FREQ 变量名列;变量名列;变量名列;变量名列; BY BY BY BY 变量名列;变量名列;变量名列;变量名列;RUNRUNRUNRUN;FACTORFACTORFACTORFACTOR过程过程过程过程的一般形式的一般形式的一般形式的一般形式PROC FACTORPROC FACTOR过程过程的常用选项的常用选项1.1.1.1.关于数据存储的选项:关于数据存储的选项:关于数据存储的选项:关于数据存储的选项:OUT=OUT=OUT=
29、OUT= 把原始资料和计算的因子存入指定数据把原始资料和计算的因子存入指定数据把原始资料和计算的因子存入指定数据把原始资料和计算的因子存入指定数据集;集;集;集;OUTSTAT=OUTSTAT=OUTSTAT=OUTSTAT= 把几乎所有的因子分析结果都详尽把几乎所有的因子分析结果都详尽把几乎所有的因子分析结果都详尽把几乎所有的因子分析结果都详尽地存入指定数据集。地存入指定数据集。地存入指定数据集。地存入指定数据集。2.2.2.2.关于数据输出的选项:关于数据输出的选项:关于数据输出的选项:关于数据输出的选项:ALLALLALLALL( ( ( (输出输出输出输出PLOTPLOTPLOTPLO
30、T以外的全部统计量以外的全部统计量以外的全部统计量以外的全部统计量),),),),CORRCORRCORRCORR( ( ( (输出相关系输出相关系输出相关系输出相关系数数数数),),),),EIGENVECTORSEIGENVECTORSEIGENVECTORSEIGENVECTORS( ( ( (输出特征值输出特征值输出特征值输出特征值),),),),MSAMSAMSAMSA( ( ( (输出部分相关输出部分相关输出部分相关输出部分相关系数系数系数系数),),),),NPLOTNPLOTNPLOTNPLOT( ( ( (指定指定指定指定PLOTPLOTPLOTPLOT的因子数的因子数的因子
31、数的因子数),),),),RESIDUALSRESIDUALSRESIDUALSRESIDUALS( ( ( (输出残输出残输出残输出残差的相关系数差的相关系数差的相关系数差的相关系数),),),),SCORESCORESCORESCORE( ( ( (输出因子得分输出因子得分输出因子得分输出因子得分),),),),SCREESCREESCREESCREE( ( ( (利用特利用特利用特利用特征值作征值作征值作征值作SCREE PLOT),SCREE PLOT),SCREE PLOT),SCREE PLOT),SIMPLESIMPLESIMPLESIMPLE( ( ( (输出基础统计量输出基础
32、统计量输出基础统计量输出基础统计量).).).).3.3.3.3.有关提取因子的常用选项:有关提取因子的常用选项:有关提取因子的常用选项:有关提取因子的常用选项:M M M M(ETHOD)(ETHOD)(ETHOD)(ETHOD)=PRIN (PRIORS=ONE) =PRIN (PRIORS=ONE) =PRIN (PRIORS=ONE) =PRIN (PRIORS=ONE) 主成分分析法;主成分分析法;主成分分析法;主成分分析法;M=PRIN (PRIORS=SMC) M=PRIN (PRIORS=SMC) M=PRIN (PRIORS=SMC) M=PRIN (PRIORS=SMC)
33、主因子分析法;主因子分析法;主因子分析法;主因子分析法;M=ML (PRIORS=SMC) M=ML (PRIORS=SMC) M=ML (PRIORS=SMC) M=ML (PRIORS=SMC) 最大似然法;最大似然法;最大似然法;最大似然法;MINMINMINMIN(EIGEN)(EIGEN)(EIGEN)(EIGEN)=n =n =n =n 设定最小特征根的值;设定最小特征根的值;设定最小特征根的值;设定最小特征根的值;N N N N(FACTORS)(FACTORS)(FACTORS)(FACTORS)=n =n =n =n 指定初始因子的数量。指定初始因子的数量。指定初始因子的数量
34、。指定初始因子的数量。PROC FACTORPROC FACTOR过程过程的常用选项的常用选项4.4.4.4.有关规定因子轴旋转方法的常用选项:有关规定因子轴旋转方法的常用选项:有关规定因子轴旋转方法的常用选项:有关规定因子轴旋转方法的常用选项:R R R R(OTATE)(OTATE)(OTATE)(OTATE)=VARIMAX=VARIMAX=VARIMAX=VARIMAX| | | |ORTHOMAXORTHOMAXORTHOMAXORTHOMAX| | | |PROMAXPROMAXPROMAXPROMAX| | | |QUARTIMAXQUARTIMAXQUARTIMAXQUARTI
35、MAX界定因子轴的旋转方法界定因子轴的旋转方法界定因子轴的旋转方法界定因子轴的旋转方法( ( ( (最大方差法最大方差法最大方差法最大方差法| | | |正交最大方差法正交最大方差法正交最大方差法正交最大方差法| | | |在正交最大方差旋转基础上进行斜交旋转在正交最大方差旋转基础上进行斜交旋转在正交最大方差旋转基础上进行斜交旋转在正交最大方差旋转基础上进行斜交旋转| | | |四次方最四次方最四次方最四次方最大法大法大法大法),内定值为),内定值为),内定值为),内定值为R=R=R=R=NONENONENONENONE( ( ( (不进行坐标变换不进行坐标变换不进行坐标变换不进行坐标变换)
36、) ) ) 。VARVARVARVAR语句语句语句语句 指定因子分析中使用的变量;指定因子分析中使用的变量;指定因子分析中使用的变量;指定因子分析中使用的变量;WEIGHTWEIGHTWEIGHTWEIGHT语句语句语句语句 对已输入的资料附加加权数据;对已输入的资料附加加权数据;对已输入的资料附加加权数据;对已输入的资料附加加权数据;FREQFREQFREQFREQ语句语句语句语句 表示变量的频数;表示变量的频数;表示变量的频数;表示变量的频数;PARTIALPARTIALPARTIALPARTIAL语句语句语句语句 除去特定变量的线性效果后,利用偏除去特定变量的线性效果后,利用偏除去特定变
37、量的线性效果后,利用偏除去特定变量的线性效果后,利用偏 相关分析或者协方差矩阵进行分析;相关分析或者协方差矩阵进行分析;相关分析或者协方差矩阵进行分析;相关分析或者协方差矩阵进行分析;BYBYBYBY语句语句语句语句 按指定变量分类(需先排序)后,对按指定变量分类(需先排序)后,对按指定变量分类(需先排序)后,对按指定变量分类(需先排序)后,对 每一个分类进行因子分析。每一个分类进行因子分析。每一个分类进行因子分析。每一个分类进行因子分析。PROC FACTORPROC FACTOR过程过程的常用语句的常用语句PROCPROCPROCPROC SCORE DATA= SCORE DATA= S
38、CORE DATA= SCORE DATA= SCORE= SCORE= SCORE= SCORE=FACTORFACTORFACTOR OUT= OUT= OUT= OUT= ; VAR VAR VAR VAR 用来计算得分的原始变量集合;用来计算得分的原始变量集合;用来计算得分的原始变量集合;用来计算得分的原始变量集合;RUNRUNRUNRUN;计算因子得分计算因子得分需事先在需事先在需事先在需事先在FACTORFACTORFACTORFACTOR语句中增加语句中增加语句中增加语句中增加SCORESCORESCORESCORE和和和和OUTSTAT=OUTSTAT=OUTSTAT=OUTS
39、TAT= 选项选项选项选项data onedata one(type=(type=corrcorr) ); ; _type_=_type_=corrcorr ; ; inputinput _name_name_ $ x1 x2 x3 x4 x5 ; $ x1 x2 x3 x4 x5 ; cardscards; ; x1 1 . . . . x1 1 . . . . x2 0.577 1 . . . x2 0.577 1 . . . x3 0.509 0.599 1 . . x3 0.509 0.599 1 . . x4 0.387 0.389 0.436 1 . x4 0.387 0.389
40、0.436 1 . x5 0.462 0.322 0.426 0.523 1 x5 0.462 0.322 0.426 0.523 1 ; ; runrun; ;proc factor proc factor screescree nfactnfact=2=2 score score rotate rotate= =varimaxvarimax; ; varvar x1-x5x1-x5; ;runrun; ;对对对对例例例例5.15.15.15.1中五只证券的平均收益率进行因子分析中五只证券的平均收益率进行因子分析中五只证券的平均收益率进行因子分析中五只证券的平均收益率进行因子分析例例例例5.
41、25.2输出结果输出结果输出结果输出结果(1 1):(初始因子载荷矩阵)(初始因子载荷矩阵)(初始因子载荷矩阵)(初始因子载荷矩阵)(旋转后因子载荷矩阵)(旋转后因子载荷矩阵)(旋转后因子载荷矩阵)(旋转后因子载荷矩阵)( (化学产业因子化学产业因子化学产业因子化学产业因子) ) ( (石油产业因子石油产业因子石油产业因子石油产业因子) )特征值对因子的散点图(碎石图)特征值对因子的散点图(碎石图)特征值对因子的散点图(碎石图)特征值对因子的散点图(碎石图)输出结果输出结果输出结果输出结果(2 2):输出结果输出结果输出结果输出结果(3 3):SAS第五章第五章 SASSAS系统多元统计分析功
42、能系统多元统计分析功能5.1 5.1 主成分分析与主成分分析与PRINCOMPPRINCOMP过程过程5.2 5.2 因子分析与因子分析与FACTORFACTOR过程过程5.3 5.3 判别分析与判别分析与STEPDISCSTEPDISC、DISCRIMDISCRIM过程过程5.4 5.4 聚类分析与聚类分析与CLUSTERCLUSTER过程过程判别分析判别分析 ( (DiscriminantDiscriminant Analysis) Analysis)qq判别分析判别分析判别分析判别分析是根据表明事物特点的变量值及其分类,是根据表明事物特点的变量值及其分类,是根据表明事物特点的变量值及其分
43、类,是根据表明事物特点的变量值及其分类,求出判别函数,再根据判别函数对未知所属类别求出判别函数,再根据判别函数对未知所属类别求出判别函数,再根据判别函数对未知所属类别求出判别函数,再根据判别函数对未知所属类别的事物进行分类的一种分析方法;的事物进行分类的一种分析方法;的事物进行分类的一种分析方法;的事物进行分类的一种分析方法;qq判别分析的步骤:判别分析的步骤:判别分析的步骤:判别分析的步骤:在各归属类的在各归属类的在各归属类的在各归属类的K K K K个独立变量个独立变量个独立变量个独立变量中,选择对判别分析有显著影响的中,选择对判别分析有显著影响的中,选择对判别分析有显著影响的中,选择对判
44、别分析有显著影响的P P P P个独立变量;个独立变量;个独立变量;个独立变量;利用被选定的利用被选定的利用被选定的利用被选定的P P P P个独立变量的观测值拟合判别函个独立变量的观测值拟合判别函个独立变量的观测值拟合判别函个独立变量的观测值拟合判别函数;数;数;数;计算判别函数的误判率,分析判别函数模计算判别函数的误判率,分析判别函数模计算判别函数的误判率,分析判别函数模计算判别函数的误判率,分析判别函数模型的选择是否正确;型的选择是否正确;型的选择是否正确;型的选择是否正确;利用已建立的判别函数判利用已建立的判别函数判利用已建立的判别函数判利用已建立的判别函数判别新样本别新样本别新样本别
45、新样本( ( ( (观测值观测值观测值观测值) ) ) )的归属类别。的归属类别。的归属类别。的归属类别。PROCPROCPROCPROC STEPDISC STEPDISC STEPDISC STEPDISC DATA= DATA= DATA= DATA= OPTIONSOPTIONSOPTIONSOPTIONS ; VAR VAR VAR VAR 变量名列;变量名列;变量名列;变量名列; CLASS CLASS CLASS CLASS 因因因因( ( ( (类类类类) ) ) )变量;变量;变量;变量; BY BY BY BY 变量名列;变量名列;变量名列;变量名列;RUNRUNRUNRU
46、N;STEPDISCSTEPDISC过程过程的一般形式的一般形式( ( ( (利用逐步判别分析法对变量进行筛选利用逐步判别分析法对变量进行筛选利用逐步判别分析法对变量进行筛选利用逐步判别分析法对变量进行筛选) ) ) )语句说明:语句说明:语句说明:语句说明:CLASSCLASSCLASSCLASS语句语句语句语句 指明归属类的变量(数值变量、文字变指明归属类的变量(数值变量、文字变指明归属类的变量(数值变量、文字变指明归属类的变量(数值变量、文字变量均可);量均可);量均可);量均可); BYBYBYBY语句语句语句语句 按指定变量分类(需先排序)后,对每一按指定变量分类(需先排序)后,对每
47、一按指定变量分类(需先排序)后,对每一按指定变量分类(需先排序)后,对每一个分类进行逐步判别分析。个分类进行逐步判别分析。个分类进行逐步判别分析。个分类进行逐步判别分析。常用常用选项选项有:有:METHODMETHODMETHODMETHOD=STEPWISE=STEPWISE=STEPWISE=STEPWISE| | | |FORWARDFORWARDFORWARDFORWARD| | | |BACKWARDBACKWARDBACKWARDBACKWARD 指定筛选变指定筛选变指定筛选变指定筛选变量的方法量的方法量的方法量的方法( ( ( (逐步排除法逐步排除法逐步排除法逐步排除法| | |
48、 |顺向选择法顺向选择法顺向选择法顺向选择法| | | |反向淘汰法反向淘汰法反向淘汰法反向淘汰法) ) ) );SHORT SHORT SHORT SHORT 只显示判别分析的最后结果;只显示判别分析的最后结果;只显示判别分析的最后结果;只显示判别分析的最后结果;SLE=SLE=SLE=SLE=( ( ( (内定为内定为内定为内定为0.15) 0.15) 0.15) 0.15) 在顺向选择法中,规定变量被在顺向选择法中,规定变量被在顺向选择法中,规定变量被在顺向选择法中,规定变量被纳入模型要达到的显著性水平;纳入模型要达到的显著性水平;纳入模型要达到的显著性水平;纳入模型要达到的显著性水平;
49、SLS=SLS=SLS=SLS=( ( ( (内定为内定为内定为内定为0.15) 0.15) 0.15) 0.15) 在反向淘汰法中,规定某一变在反向淘汰法中,规定某一变在反向淘汰法中,规定某一变在反向淘汰法中,规定某一变量留在模型内要达到的显著性水平。量留在模型内要达到的显著性水平。量留在模型内要达到的显著性水平。量留在模型内要达到的显著性水平。STEPDISCSTEPDISC过程过程的一般形式的一般形式PROCPROCPROCPROC DISCRIM DISCRIM DISCRIM DISCRIM DATA= DATA= DATA= DATA= OPTIONSOPTIONSOPTIONSO
50、PTIONS ; CLASS CLASS CLASS CLASS 因因因因( ( ( (类类类类) ) ) )变量;变量;变量;变量; VAR VAR VAR VAR 变量名列;变量名列;变量名列;变量名列; PRIORSPRIORSPRIORSPRIORS 概率;概率;概率;概率; WEIGHT WEIGHT WEIGHT WEIGHT 变量名列;变量名列;变量名列;变量名列; TESTCLASS TESTCLASS TESTCLASS TESTCLASS 变量名列;变量名列;变量名列;变量名列; BY BY BY BY 变量名列;变量名列;变量名列;变量名列;RUNRUNRUNRUN;DI
51、SCRIMDISCRIM过程过程的一般形式的一般形式1.1.1.1.关于资料的选项:关于资料的选项:关于资料的选项:关于资料的选项:TESTDATA=TESTDATA=TESTDATA=TESTDATA= 指定用来交叉确认判别函数有效指定用来交叉确认判别函数有效指定用来交叉确认判别函数有效指定用来交叉确认判别函数有效度的数据集,与度的数据集,与度的数据集,与度的数据集,与TESTLISTTESTLISTTESTLISTTESTLIST,TESTLISTERRTESTLISTERRTESTLISTERRTESTLISTERR选项选项选项选项或或或或TESTCLASSTESTCLASSTESTCL
52、ASSTESTCLASS等指令合并使用;等指令合并使用;等指令合并使用;等指令合并使用;OUT=OUT=OUT=OUT= 把观测值、后验概率和分类结果存储把观测值、后验概率和分类结果存储把观测值、后验概率和分类结果存储把观测值、后验概率和分类结果存储入指定数据集;入指定数据集;入指定数据集;入指定数据集;OUTSTAT=OUTSTAT=OUTSTAT=OUTSTAT= 把归属类的平均值、标准差、相把归属类的平均值、标准差、相把归属类的平均值、标准差、相把归属类的平均值、标准差、相关系数、判别函数系数等统计量存储入指定数据集;关系数、判别函数系数等统计量存储入指定数据集;关系数、判别函数系数等统
53、计量存储入指定数据集;关系数、判别函数系数等统计量存储入指定数据集;TESTOUT=TESTOUT=TESTOUT=TESTOUT= 把在把在把在把在TESTDATATESTDATATESTDATATESTDATA中指定数据集的观中指定数据集的观中指定数据集的观中指定数据集的观测值、后验概率和分类结果存储入指定数据集测值、后验概率和分类结果存储入指定数据集测值、后验概率和分类结果存储入指定数据集测值、后验概率和分类结果存储入指定数据集. . . .PROC DISCRIMPROC DISCRIM过程过程的常用选项的常用选项2.2.2.2.关于界定判别函数种类的选项:关于界定判别函数种类的选项:
54、关于界定判别函数种类的选项:关于界定判别函数种类的选项:METHOD=NOMALMETHOD=NOMALMETHOD=NOMALMETHOD=NOMAL| | | |NPAR NPAR NPAR NPAR 指定建立判别函数的方法指定建立判别函数的方法指定建立判别函数的方法指定建立判别函数的方法( ( ( (参数参数参数参数方法方法方法方法| | | |非参数方法非参数方法非参数方法非参数方法) ) ) );POOL=YES POOL=YES POOL=YES POOL=YES 利用合并协方差阵建立判别函数利用合并协方差阵建立判别函数利用合并协方差阵建立判别函数利用合并协方差阵建立判别函数( (
55、 ( (线性线性线性线性) ) ) );POOL=NO POOL=NO POOL=NO POOL=NO 利用总体协方差阵建立判别函数利用总体协方差阵建立判别函数利用总体协方差阵建立判别函数利用总体协方差阵建立判别函数( ( ( (二次二次二次二次) ) ) ); POOL=TEST POOL=TEST POOL=TEST POOL=TEST 检验总体协方差阵的齐性,检验总体协方差阵的齐性,检验总体协方差阵的齐性,检验总体协方差阵的齐性,满足齐性条件满足齐性条件满足齐性条件满足齐性条件建立线性判别函数,不满足则建立二次判别函数建立线性判别函数,不满足则建立二次判别函数建立线性判别函数,不满足则建
56、立二次判别函数建立线性判别函数,不满足则建立二次判别函数;SLPOOL= SLPOOL= SLPOOL= SLPOOL= 用于设用于设用于设用于设定定定定检验两类协方差阵齐性的显著性检验两类协方差阵齐性的显著性检验两类协方差阵齐性的显著性检验两类协方差阵齐性的显著性水平水平水平水平. . . .PROC DISCRIMPROC DISCRIM过程过程的常用选项的常用选项3.3.3.3.关于数据输出的常用选项:关于数据输出的常用选项:关于数据输出的常用选项:关于数据输出的常用选项:LISTLISTLISTLIST( ( ( (输出所有观测值的分类结果输出所有观测值的分类结果输出所有观测值的分类结
57、果输出所有观测值的分类结果),),),),LISTERRLISTERRLISTERRLISTERR( ( ( (输出误判输出误判输出误判输出误判观测值的分类结果观测值的分类结果观测值的分类结果观测值的分类结果), ), ), ), TESTLISTTESTLISTTESTLISTTESTLIST( ( ( (输出存储在输出存储在输出存储在输出存储在TESTDATATESTDATATESTDATATESTDATA中的观测值的分类结果中的观测值的分类结果中的观测值的分类结果中的观测值的分类结果), ), ), ), TESTLISTERRTESTLISTERRTESTLISTERRTESTLIST
58、ERR( ( ( (输出存储在输出存储在输出存储在输出存储在TESTDATATESTDATATESTDATATESTDATA中误判观测值的分类结果中误判观测值的分类结果中误判观测值的分类结果中误判观测值的分类结果),),),),BCORRBCORRBCORRBCORR( ( ( (输出各类输出各类输出各类输出各类间的相关矩阵间的相关矩阵间的相关矩阵间的相关矩阵), ), ), ), ALLALLALLALL( ( ( (输出全部结果输出全部结果输出全部结果输出全部结果),),),),ANOVAANOVAANOVAANOVA( ( ( (利用多变利用多变利用多变利用多变量方差分析各类平均值相等的
59、假设量方差分析各类平均值相等的假设量方差分析各类平均值相等的假设量方差分析各类平均值相等的假设),),),),DISTANCEDISTANCEDISTANCEDISTANCE( ( ( (输出两输出两输出两输出两类间的距离类间的距离类间的距离类间的距离),),),),SIMPLESIMPLESIMPLESIMPLE( ( ( (输出变量的描述统计量输出变量的描述统计量输出变量的描述统计量输出变量的描述统计量).).).).PROC DISCRIMPROC DISCRIM过程过程的常用选项的常用选项CLASSCLASSCLASSCLASS语句语句语句语句 指明归属类的变量;指明归属类的变量;指明
60、归属类的变量;指明归属类的变量; VARVARVARVAR语句语句语句语句 指定判别分析中使用的变量;指定判别分析中使用的变量;指定判别分析中使用的变量;指定判别分析中使用的变量;WEIGHTWEIGHTWEIGHTWEIGHT语句语句语句语句 对已输入的资料附加加权数据;对已输入的资料附加加权数据;对已输入的资料附加加权数据;对已输入的资料附加加权数据;PRIORSPRIORSPRIORSPRIORS语句语句语句语句 指定先验概率;指定先验概率;指定先验概率;指定先验概率;TESTCLASSTESTCLASSTESTCLASSTESTCLASS语句语句语句语句指定存储在指定存储在指定存储在指
61、定存储在TESTDATATESTDATATESTDATATESTDATA中的某些变量,中的某些变量,中的某些变量,中的某些变量, 以检验其观测值是否存在误判的情况;以检验其观测值是否存在误判的情况;以检验其观测值是否存在误判的情况;以检验其观测值是否存在误判的情况;BYBYBYBY语句语句语句语句 按指定变量分类(需先排序)后,对按指定变量分类(需先排序)后,对按指定变量分类(需先排序)后,对按指定变量分类(需先排序)后,对 每一个分类进行判别分析。每一个分类进行判别分析。每一个分类进行判别分析。每一个分类进行判别分析。PROC DISCRIMPROC DISCRIM过程过程的常用语句的常用语
62、句数据集数据集数据集数据集SUNNY.BANKRYSUNNY.BANKRYSUNNY.BANKRYSUNNY.BANKRY是为研究中小企业破产模型而是为研究中小企业破产模型而是为研究中小企业破产模型而是为研究中小企业破产模型而收集的收集的收集的收集的38383838个企业的相关财务数据资料,各变量含义个企业的相关财务数据资料,各变量含义个企业的相关财务数据资料,各变量含义个企业的相关财务数据资料,各变量含义如下:如下:如下:如下:X1X1X1X1总总总总负债率负债率负债率负债率(Cash Flow/Total Debt);(Cash Flow/Total Debt);(Cash Flow/To
63、tal Debt);(Cash Flow/Total Debt); X2X2X2X2收益性指标收益性指标收益性指标收益性指标(Net Income/Total Assets); (Net Income/Total Assets); (Net Income/Total Assets); (Net Income/Total Assets); X3X3X3X3短期支付能力短期支付能力短期支付能力短期支付能力(Current Assets/Current (Current Assets/Current (Current Assets/Current (Current Assets/Current Li
64、abilities);Liabilities);Liabilities);Liabilities); X4X4X4X4生产效益性指标生产效益性指标生产效益性指标生产效益性指标(Current Assets/Net Sales);(Current Assets/Net Sales);(Current Assets/Net Sales);(Current Assets/Net Sales);Y Y Y Y 类别类别类别类别(0=(0=(0=(0=已破产企业,已破产企业,已破产企业,已破产企业,1=1=1=1=正常运营企业正常运营企业正常运营企业正常运营企业).).).). 例例例例4.94.9pr
65、oc stepdisc data=sunny.bankry method=stepwise; var x1-x4; class y;run;输出结果输出结果输出结果输出结果( (部分部分部分部分) ):proc discrim data=sunny.bankry pool=test slpool=0.05 listerr outstat=one; var x2 x3; class y;run;proc print data=one;run;输出结果输出结果输出结果输出结果( (部分部分部分部分) ):可见,应拒绝两类的协方差矩阵相等的原假设,即两类的可见,应拒绝两类的协方差矩阵相等的原假设,即
66、两类的可见,应拒绝两类的协方差矩阵相等的原假设,即两类的可见,应拒绝两类的协方差矩阵相等的原假设,即两类的协方差矩阵不满足方差齐性的要求,应建立二次判别函数协方差矩阵不满足方差齐性的要求,应建立二次判别函数协方差矩阵不满足方差齐性的要求,应建立二次判别函数协方差矩阵不满足方差齐性的要求,应建立二次判别函数. .输出结果输出结果输出结果输出结果( (部分部分部分部分) ):(后验概率的计算方法)(后验概率的计算方法)(后验概率的计算方法)(后验概率的计算方法)(误报样本信息)(误报样本信息)(误报样本信息)(误报样本信息)误判率误判率误判率误判率先验概率假设先验概率假设先验概率假设先验概率假设现
67、有新的现有新的现有新的现有新的8 8 8 8个企业的财务资料如下,试分个企业的财务资料如下,试分个企业的财务资料如下,试分个企业的财务资料如下,试分析它们归属上述两类的后验概率并分类。析它们归属上述两类的后验概率并分类。析它们归属上述两类的后验概率并分类。析它们归属上述两类的后验概率并分类。例例例例4.94.9(续)(续)(续)(续)OBSX1X2X3X4Y10.040.011.500.7102-0.06-0.061.370.40030.07-0.011.370.3404-0.13-0.141.420.44050.150.062.230.56160.160.052.310.20170.290.
68、061.840.38180.540.112.330.481datadatadatadata two; two; two; two; input input input input x1-x4 y; x1-x4 y; x1-x4 y; x1-x4 y; cards cards cards cards; ; ; ; 0.040.040.040.040.010.010.010.011.501.501.501.500.710.710.710.710 0 0 0 -0.06 -0.06 -0.06 -0.06 -0.06 -0.06 -0.06 -0.061.37 0.401.37 0.401.37 0
69、.401.37 0.400 0 0 0 0.07 -0.01 0.07 -0.01 0.07 -0.01 0.07 -0.011.371.371.371.370.340.340.340.340 0 0 0 -0.13 -0.14 -0.13 -0.14 -0.13 -0.14 -0.13 -0.141.421.421.421.420.440.440.440.440 0 0 0 0.15 0.15 0.15 0.150.060.060.060.062.232.232.232.230.560.560.560.561 1 1 1 0.16 0.16 0.16 0.160.050.050.050.05
70、2.312.312.312.310.200.200.200.201 1 1 1 0.29 0.29 0.29 0.290.060.060.060.061.841.841.841.840.380.380.380.381 1 1 1 0.54 0.54 0.54 0.540.110.110.110.112.332.332.332.330.480.480.480.481 1 1 1 ; ; ; ;runrunrunrun; ; ; ;procprocprocproc discrimdiscrimdiscrimdiscrim datadatadatadata=one =one =one =one te
71、stdatatestdatatestdatatestdata=two =two =two =two testlisttestlisttestlisttestlist; ; ; ; classclassclassclass y; y; y; y; testclasstestclasstestclasstestclass y; y; y; y;runrunrunrun; ; ; ;输出结果:输出结果:输出结果:输出结果:SAS第五章第五章 SASSAS系统多元统计分析功能系统多元统计分析功能5.1 5.1 主成分分析与主成分分析与PRINCOMPPRINCOMP过程过程5.2 5.2 因子分析与因
72、子分析与FACTORFACTOR过程过程5.3 5.3 判别分析与判别分析与STEPDISCSTEPDISC、DISCRIMDISCRIM过程过程5.4 5.4 聚类分析与聚类分析与CLUSTERCLUSTER过程过程聚类分析聚类分析 (Cluster Analysis)(Cluster Analysis)qq聚类分析聚类分析聚类分析聚类分析是依据事物的性质和特征的不同,将具是依据事物的性质和特征的不同,将具是依据事物的性质和特征的不同,将具是依据事物的性质和特征的不同,将具有相似性质或距离的个体聚为一类,具有不同性质有相似性质或距离的个体聚为一类,具有不同性质有相似性质或距离的个体聚为一类,
73、具有不同性质有相似性质或距离的个体聚为一类,具有不同性质的个体聚为不同类的分类方法;的个体聚为不同类的分类方法;的个体聚为不同类的分类方法;的个体聚为不同类的分类方法;qq聚类分析与判别分析的区别:聚类分析与判别分析的区别:聚类分析与判别分析的区别:聚类分析与判别分析的区别:前者是用某种方法前者是用某种方法前者是用某种方法前者是用某种方法把分类未知的观测进行合理分类,使同一类的观测把分类未知的观测进行合理分类,使同一类的观测把分类未知的观测进行合理分类,使同一类的观测把分类未知的观测进行合理分类,使同一类的观测比较接近,是无指导的学习;后者则是已知分类然比较接近,是无指导的学习;后者则是已知分
74、类然比较接近,是无指导的学习;后者则是已知分类然比较接近,是无指导的学习;后者则是已知分类然后总结出判别规律,是有指导的学习;后总结出判别规律,是有指导的学习;后总结出判别规律,是有指导的学习;后总结出判别规律,是有指导的学习;qqSASSASSASSAS系统系统系统系统提供了提供了提供了提供了谱系聚类谱系聚类谱系聚类谱系聚类( ( ( (常用常用常用常用) ) ) )、快速聚类、变量快速聚类、变量快速聚类、变量快速聚类、变量聚类聚类聚类聚类等聚类过程。等聚类过程。等聚类过程。等聚类过程。谱系聚类法谱系聚类法(Hierarchical Cluster Method)(Hierarchical
75、Cluster Method)qq谱系聚类法谱系聚类法谱系聚类法谱系聚类法有合并聚类和分割聚类两种,前者是有合并聚类和分割聚类两种,前者是有合并聚类和分割聚类两种,前者是有合并聚类和分割聚类两种,前者是把较有密切相似性关系的个体逐一聚类,由原来的把较有密切相似性关系的个体逐一聚类,由原来的把较有密切相似性关系的个体逐一聚类,由原来的把较有密切相似性关系的个体逐一聚类,由原来的n n n n个类最后变成一个新类;后者是把非相似性关系个类最后变成一个新类;后者是把非相似性关系个类最后变成一个新类;后者是把非相似性关系个类最后变成一个新类;后者是把非相似性关系的个体逐一分割出去,由原来的一个类最后变
76、成的个体逐一分割出去,由原来的一个类最后变成的个体逐一分割出去,由原来的一个类最后变成的个体逐一分割出去,由原来的一个类最后变成n n n n个新个新个新个新类,以合并聚类法较为常用;类,以合并聚类法较为常用;类,以合并聚类法较为常用;类,以合并聚类法较为常用;qq两类之间距离的定义方法主要有:两类之间距离的定义方法主要有:两类之间距离的定义方法主要有:两类之间距离的定义方法主要有:最短距离法最短距离法最短距离法最短距离法(Single Linkage Method)(Single Linkage Method)(Single Linkage Method)(Single Linkage Me
77、thod)、最长距离法最长距离法最长距离法最长距离法(Complete (Complete (Complete (Complete Linkage Method)Linkage Method)Linkage Method)Linkage Method)、类平均法类平均法类平均法类平均法(Average Linkage (Average Linkage (Average Linkage (Average Linkage Method)Method)Method)Method)、重心法重心法重心法重心法( ( ( (CentroridCentroridCentroridCentrorid Link
78、age Method) Linkage Method) Linkage Method) Linkage Method). . . .CLUSTERCLUSTER过程过程实现谱系聚类的分析过程实现谱系聚类的分析过程PROCPROC CLUSTER CLUSTER DATA= DATA= OPTIONSOPTIONS ; VAR VAR 变量名列;变量名列; ID ID 变量名列;变量名列; COPY COPY 变量名列;变量名列; FREQ FREQ 变量名列;变量名列; BY BY 变量名列;变量名列;RUNRUN;一般形式:一般形式:CLUSTERCLUSTER过程过程的常用选项的常用选项1
79、.1.1.1.关于资料的选项:关于资料的选项:关于资料的选项:关于资料的选项:OUTTREE=OUTTREE=OUTTREE=OUTTREE= 把谱系聚类树输出到指定数据集,把谱系聚类树输出到指定数据集,把谱系聚类树输出到指定数据集,把谱系聚类树输出到指定数据集,可用可用可用可用TREETREETREETREE过程过程过程过程绘图并实际分类;绘图并实际分类;绘图并实际分类;绘图并实际分类;OUTSTAT=OUTSTAT=OUTSTAT=OUTSTAT= 把聚类分析的结果存入到指定数把聚类分析的结果存入到指定数把聚类分析的结果存入到指定数把聚类分析的结果存入到指定数据集据集据集据集. . . .
80、2.2.2.2.关于聚类分析方法的选项:关于聚类分析方法的选项:关于聚类分析方法的选项:关于聚类分析方法的选项:STANDARDSTANDARDSTANDARDSTANDARD(STD)(STD)(STD)(STD) 对变量进行标准化;对变量进行标准化;对变量进行标准化;对变量进行标准化;METHOD=SINGLEMETHOD=SINGLEMETHOD=SINGLEMETHOD=SINGLE| | | |COMPLETECOMPLETECOMPLETECOMPLETE| | | |AVERAGEAVERAGEAVERAGEAVERAGE| | | |CENTRORIDCENTRORIDCENT
81、RORIDCENTRORID| | | |EMLEMLEMLEML( ( ( (最大似然法最大似然法最大似然法最大似然法) ) ) )| | | |WARDWARDWARDWARD( ( ( (最小方差法最小方差法最小方差法最小方差法) ) ) ) 指定定义类间距指定定义类间距指定定义类间距指定定义类间距离的方法。离的方法。离的方法。离的方法。能能能能最大限度地控制情最大限度地控制情最大限度地控制情最大限度地控制情报损失,最为常用报损失,最为常用报损失,最为常用报损失,最为常用2.2.2.2.关于数据输出的选项:关于数据输出的选项:关于数据输出的选项:关于数据输出的选项:CCC CCC CCC
82、 CCC 打印聚类的基准和打印聚类的基准和打印聚类的基准和打印聚类的基准和R R R R2 2 2 2值;值;值;值;NOID NOID NOID NOID 省略聚类过程;省略聚类过程;省略聚类过程;省略聚类过程;PRINT=n PRINT=n PRINT=n PRINT=n 指定需要打印的聚类过程指定需要打印的聚类过程指定需要打印的聚类过程指定需要打印的聚类过程(n=0(n=0(n=0(n=0,则省略则省略则省略则省略) ) ) );PSEUDO PSEUDO PSEUDO PSEUDO 打印打印打印打印pseudo F-pseudo F-pseudo F-pseudo F-统计量和统计量和
83、统计量和统计量和t t t t2 2 2 2值;值;值;值;RMSSTD RMSSTD RMSSTD RMSSTD 打印各聚类打印各聚类打印各聚类打印各聚类( ( ( (群体群体群体群体) ) ) )的标准差;的标准差;的标准差;的标准差;RSQ RSQ RSQ RSQ 打印打印打印打印R R R R2 2 2 2值;值;值;值;SIMPLE SIMPLE SIMPLE SIMPLE 打印各变量的描述性统计量。打印各变量的描述性统计量。打印各变量的描述性统计量。打印各变量的描述性统计量。CLUSTERCLUSTER过程过程的常用选项的常用选项VARVARVARVAR语句语句语句语句 指定聚类分
84、析中使用的变量;指定聚类分析中使用的变量;指定聚类分析中使用的变量;指定聚类分析中使用的变量;IDIDIDID语句语句语句语句 指定用于识别观测值的标志变量;指定用于识别观测值的标志变量;指定用于识别观测值的标志变量;指定用于识别观测值的标志变量;COPYCOPYCOPYCOPY语句语句语句语句 将指定的输入数据集中的变量复制到由将指定的输入数据集中的变量复制到由将指定的输入数据集中的变量复制到由将指定的输入数据集中的变量复制到由OUTTREE=OUTTREE=OUTTREE=OUTTREE= 所指定的输出数据集中;所指定的输出数据集中;所指定的输出数据集中;所指定的输出数据集中; BYBYB
85、YBY语句语句语句语句 按指定变量分类(需先排序)后,对每一按指定变量分类(需先排序)后,对每一按指定变量分类(需先排序)后,对每一按指定变量分类(需先排序)后,对每一个分类进行聚类分析。个分类进行聚类分析。个分类进行聚类分析。个分类进行聚类分析。CLUSTERCLUSTER过程过程的常用语句的常用语句TREETREE过程过程把把把把CLUSTERCLUSTERCLUSTERCLUSTER过程过程过程过程中由中由中由中由OUTTREEOUTTREEOUTTREEOUTTREE指定的数据集指定的数据集指定的数据集指定的数据集作为输入,画出谱系聚类的树图,并按用作为输入,画出谱系聚类的树图,并按用
86、作为输入,画出谱系聚类的树图,并按用作为输入,画出谱系聚类的树图,并按用户指定的聚类水平产生分类结果数据集户指定的聚类水平产生分类结果数据集户指定的聚类水平产生分类结果数据集户指定的聚类水平产生分类结果数据集. . . .PROCPROC TREE TREE DATA=DATA= OPTIONSOPTIONS ; NAME NAME 变量名列变量名列; ; COPY COPY 变量名列;变量名列; FREQ FREQ 变量名列;变量名列; BY BY 变量名列;变量名列;RUNRUN;一般形式:一般形式:TREETREE过程过程的常用选项的常用选项OUT=OUT=OUT=OUT= 指定包含最后
87、输出结果的数据集指定包含最后输出结果的数据集指定包含最后输出结果的数据集指定包含最后输出结果的数据集NCLUSTER=NCLUSTER=NCLUSTER=NCLUSTER= 指定输出数据集内集群的数目;指定输出数据集内集群的数目;指定输出数据集内集群的数目;指定输出数据集内集群的数目;HORIZONTAL HORIZONTAL HORIZONTAL HORIZONTAL 将将将将树形图横向显示;树形图横向显示;树形图横向显示;树形图横向显示;LIST LIST LIST LIST 显示所有的树节点显示所有的树节点显示所有的树节点显示所有的树节点. . . .NAMENAMENAMENAME语句
88、语句语句语句 为树节点命名为树节点命名为树节点命名为树节点命名;COPYCOPYCOPYCOPY语句语句语句语句 将指定的变量复制到输出数据集;将指定的变量复制到输出数据集;将指定的变量复制到输出数据集;将指定的变量复制到输出数据集; BYBYBYBY语句语句语句语句 按指定变量分类(需先排序)后,对每一按指定变量分类(需先排序)后,对每一按指定变量分类(需先排序)后,对每一按指定变量分类(需先排序)后,对每一个分类分别制作树形图个分类分别制作树形图个分类分别制作树形图个分类分别制作树形图. . . .TREETREE过程过程的常用语句的常用语句数据集数据集数据集数据集SUNNY.CITYSU
89、NNY.CITYSUNNY.CITYSUNNY.CITY是评价我国各主要城市经济效益是评价我国各主要城市经济效益是评价我国各主要城市经济效益是评价我国各主要城市经济效益状况的相关资料(状况的相关资料(状况的相关资料(状况的相关资料(X1X1X1X1人均国内生产总值人均国内生产总值人均国内生产总值人均国内生产总值, , , ,X2X2X2X2人人人人均客运总量均客运总量均客运总量均客运总量, , , ,X3X3X3X3人均货运总量人均货运总量人均货运总量人均货运总量, , , ,X4X4X4X4人均固定资产人均固定资产人均固定资产人均固定资产投资总额,投资总额,投资总额,投资总额,X5X5X5X5在岗职工人均工资在岗职工人均工资在岗职工人均工资在岗职工人均工资),试利用聚类),试利用聚类),试利用聚类),试利用聚类分析方法对这些城市进行分类。分析方法对这些城市进行分类。分析方法对这些城市进行分类。分析方法对这些城市进行分类。 例例例例4.104.10proc cluster data=sunny.city out=clust std method=ward; var x1 x2 x3 x4 x5; proc tree data=clust horizontal;run; 输出结果:输出结果:输出结果:输出结果: