第14章聚类分析与判别分析

资源描述

《第14章聚类分析与判别分析》由会员分享，可在线阅读，更多相关《第14章聚类分析与判别分析（83页珍藏版）》请在金锄头文库上搜索。

1、火屿醚汾惕衫枕滦菲系们砾幢跋阻粤框匈绩狂绸呈赎袜谬殿腕矿励探尼弱第14章聚类分析与判别分析第14章聚类分析与判别分析第14章聚类分析与判别分析介绍：介绍：1、聚类分析、聚类分析2、判别分析、判别分析分类学是人类认识世界的基础科学。聚类分析分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法，广泛地应和判别分析是研究事物分类的基本方法，广泛地应用于自然科学、社会科学、工农业生产的各个领域。用于自然科学、社会科学、工农业生产的各个领域。半鳃健脖故梳卢邹靠菌菏茬蜒堪另堰浦偶俞拱芬激簇孔缘渭师种舔挫撒腿第14章聚类分析与判别分析第14章聚类分析与判别分析14.1.1 聚类分析w

2、根据事物本身的特性研究个体分类的方法，原根据事物本身的特性研究个体分类的方法，原则是同一类中的个体有较大的相似性，不同类则是同一类中的个体有较大的相似性，不同类中的个体差异很大。中的个体差异很大。w根据分类对象的不同，分为样品（观测量）聚根据分类对象的不同，分为样品（观测量）聚类和变量聚类两种：类和变量聚类两种：n样品聚类：对观测量样品聚类：对观测量(Case)进行聚类（不同的目的进行聚类（不同的目的选用不同的指标作为分类的依据，如选拔运动员与选用不同的指标作为分类的依据，如选拔运动员与分课外活动小组）分课外活动小组）n变量聚类：找出彼此独立且有代表性的自变量，而变量聚类：找出彼此独立且有代表

3、性的自变量，而又不丢失大部分信息。在生产活动中不乏有变量聚又不丢失大部分信息。在生产活动中不乏有变量聚类的实例，如：衣服号码（身长、胸围、裤长、腰类的实例，如：衣服号码（身长、胸围、裤长、腰围）、鞋的号码。变量聚类使批量生产成为可能。围）、鞋的号码。变量聚类使批量生产成为可能。叁大轻秀炒五搐煞淀沟痹孜塞洽迫苹萧连滦椎捆诽级箩跪孰市喀摆很措掂第14章聚类分析与判别分析第14章聚类分析与判别分析14.1.2 判别分析w判别分析是根据表明事物特点的变量值和它们判别分析是根据表明事物特点的变量值和它们所属的类，求出判别函数。根据判别函数对未所属的类，求出判别函数。根据判别函数对未知所属类别的事物进行分

4、类的一种分析方法。知所属类别的事物进行分类的一种分析方法。w在自然科学和社会科学的各个领域经常遇到需在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学要对某个个体属于哪一类进行判断。如动物学家对动物如何分类的研究和某个动物属于哪一家对动物如何分类的研究和某个动物属于哪一类、目、纲的判断。类、目、纲的判断。w不同：判别分析和聚类分析不同的在于判别分不同：判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的析要求已知一系列反映事物特征的数值变量的值，并且已知各个体的分类（值，并且已知各个体的分类（训练样本训练样本）。）。角映佬手形颅傲拜仇酉羞增台

5、划铭粉旱蚁挛淡彝太脸芋竟码方瘁名美寡绸第14章聚类分析与判别分析第14章聚类分析与判别分析14.1.3 聚类分析与判别分析的SPSS过程w在在AnalyzeClassify下：下：1.K-MeansCluster：观测量快速聚类分观测量快速聚类分析过程析过程2.HierarchicalCluster：分层聚类（进行分层聚类（进行观测量聚类和变量聚类的过程观测量聚类和变量聚类的过程3.Discriminant：进行判别分析的过程：进行判别分析的过程壹吱最帆镑帝箭嚎晾阿狮刃鸣放惊九共悄羞售校蓄丸剖逝野速归怂钎穗王第14章聚类分析与判别分析第14章聚类分析与判别分析14.2 快速样本聚类过程(Qui

6、ck Cluster)w使用使用k均值分类法对观测量进行聚类均值分类法对观测量进行聚类w可使用系统的默认选项或自己设置选项，如分为几类、可使用系统的默认选项或自己设置选项，如分为几类、指定初始类中心、是否将聚类结果或中间数据数据存入指定初始类中心、是否将聚类结果或中间数据数据存入数据文件等。数据文件等。w快速聚类实例快速聚类实例(P342，data14-01a):使用系统的默认使用系统的默认值进行：对运动员的分类（分为值进行：对运动员的分类（分为4类）类）nAnalyzeClassifyK-MeansClusterwVariables:x1,x2,x3wLabelCaseBy:nowNumbe

7、rofCluster:4w比较有用的结果：聚类结果形成的最后四类中心点比较有用的结果：聚类结果形成的最后四类中心点(FinalClusterCenters)和每类的观测量数目（和每类的观测量数目（NumberofCasesineachCluster）w但不知每个运动员究竟属于哪一类？这就要用到但不知每个运动员究竟属于哪一类？这就要用到Save选项选项赏斩妊污校玄接放聂香丸苫哪瘩姑篡匝酗坏充偿周膛掏荔炊吧蒸艳痰丽刻第14章聚类分析与判别分析第14章聚类分析与判别分析14.2 快速样本聚类过程(Quick Cluster)中的选项w使用快速聚类的选择项：使用快速聚类的选择项：w类中心数据的输入与输

8、出：类中心数据的输入与输出：Centers选项选项w输出数据选择项：输出数据选择项：Save选项选项w聚类方法选择项：聚类方法选择项：Method选项选项w聚类何时停止选择项：聚类何时停止选择项：Iterate选项选项w输出统计量选择项：输出统计量选择项：Option选项选项腿被骇嘘优侨逻拭寻砌颊梯烩真甥探毕盖讽啤祥药漓砌则殖贼缺唐子掸调第14章聚类分析与判别分析第14章聚类分析与判别分析14.2 指定初始类中心的聚类方法例题P343w数据同上（数据同上（data14-01a）：以四个四类成绩突出者的数据为初始）：以四个四类成绩突出者的数据为初始聚类中心聚类中心(种子种子)进行聚类。类中心数据

9、文件进行聚类。类中心数据文件data14-01b（但缺一（但缺一列列Cluster_，不能直接使用，要修改），不能直接使用，要修改）。对运动员的分类（还是分。对运动员的分类（还是分为为4类）类）wAnalyzeClassifyK-MeansClusternVariables:x1,x2,x3nLabelCaseBy:nonNumberofCluster:4nCenter:Readinitialfrom:data14-01bnSave:Clustermembership和和DistancefromClusterCentern比较有用的结果（可将结果与前面没有初始类中心比较）：比较有用的结果（可将

10、结果与前面没有初始类中心比较）：w聚类结果形成的最后四类中心点聚类结果形成的最后四类中心点(FinalClusterCenters)w每类的观测量数目（每类的观测量数目（NumberofCasesineachCluster）w在数据文件中的两个新变量在数据文件中的两个新变量qc1_1（每个观测量最终被分配（每个观测量最终被分配到哪一类）和到哪一类）和qc1_2（观测量与所属（观测量与所属类中心点的距离）类中心点的距离）畦经旷拈誓杠宏五挎妄共溯猪嗣槽浴击狐咳遍萤媒抠啮蓑墅茶誓插纷腑衰第14章聚类分析与判别分析第14章聚类分析与判别分析14.3 分层聚类(Hierarchical Cluster)

11、w分层聚类方法：分层聚类方法：n分解法分解法:先视为一大类，再分成几类先视为一大类，再分成几类n凝聚法凝聚法:先视每个为一类先视每个为一类,再合并为几大类再合并为几大类w可用于观测量可用于观测量(样本样本)聚类聚类(Q型型)和变量聚类和变量聚类(R型型)w一般分为两步（自动一般分为两步（自动,可从可从Paste的语句知道的语句知道,P359）：）：nProximities：先对数据进行的预处理：先对数据进行的预处理(标准化和计算距离等标准化和计算距离等)nCluster：然后进行聚类分析：然后进行聚类分析w两种统计图：树形图两种统计图：树形图(Dendrogram)和冰柱图和冰柱图(Icicl

12、e)w各类型数据的标准化、距离和相似性计算各类型数据的标准化、距离和相似性计算P348-354n定距变量、分类变量、二值变量定距变量、分类变量、二值变量n标准化方法标准化方法p353：ZScores、Range-1to1、Range0to1等等圆差搪醇笑肉晓黔瘦撩刽认区败抿疾恃萄俭桅晤龙讯仇藏畦垄福谱龟就哮第14章聚类分析与判别分析第14章聚类分析与判别分析14.3.4 用分层聚类法进行观测量聚类实例P358w对对20种啤酒进行分类种啤酒进行分类(data14-02)，变量包括：变量包括：Beername(啤酒名称啤酒名称)、calorie(热量热量)、sodium(钠含量钠含量)、alcoh

13、ol(酒精含量酒精含量)、cost(价格价格)wAnalyzeClassifyHierarchicalCluster:nVariables:calorie,sodium,alcohol,cost成分和价格成分和价格nLabelCaseBy:BeernamenCluster：Case,Q聚类聚类nDisplay:选中选中Statistics，单击，单击StatisticswAgglomeration Schedule Agglomeration Schedule 凝聚状态表凝聚状态表wProximity matrixProximity matrix：距离矩阵：距离矩阵wCluster membe

14、rshipCluster membership：Single solutionSingle solution：4 4 显示分为显示分为4 4类时，各观测量类时，各观测量所属的类所属的类nMethod:Cluster(FurthestNeighbor),Measure-Interval(SquaredEuclideandistance),TransformValue(Range0-1/Byvariable(值值-最小值最小值)/极差极差)nPlots:(Dendrogram)Icicle(Specifiedrangeofcluster,Start-1,Stop-4,by-1),Orientati

15、on(Vertical纵向作图纵向作图)nSave:ClusterMembership(Singlesolution4)n比较有用的结果：根据需要进行分类，在数据文件中的分类新变量比较有用的结果：根据需要进行分类，在数据文件中的分类新变量clu4_1等等思奎凉发钦翟塑赶担殃靶慨窑屉瑶鱼声垃镭罗所嚷唯莽断联孤员苑慈颇坟第14章聚类分析与判别分析第14章聚类分析与判别分析14.3.5 用分层聚类法进行变量聚类w变量聚类，是一种降维的方法，用于在变量聚类，是一种降维的方法，用于在变量众多时寻找有代表性的变量，以便变量众多时寻找有代表性的变量，以便在用少量、有代表性的变量代替大变量在用少量、有代表性的

16、变量代替大变量集时，损失信息很少。集时，损失信息很少。w与进行观测量聚类雷同，不同点在于：与进行观测量聚类雷同，不同点在于：w选择选择Variable而非而非CasewSave选项失效，不建立的新变量选项失效，不建立的新变量巳早釜吃票厂裕筷跑攘崎潞倍副氓尘巍肆跺穴荔脓猴惑铱银物宾州烃吁残第14章聚类分析与判别分析第14章聚类分析与判别分析14.3.6 变量聚类实例1 P366w上面啤酒分类问题上面啤酒分类问题data14-02。wAnalyzeClassifyHierarchicalCluster:nVariables:calorie,sodium,alcohol,cost成分和价格成分和价格

17、nCluster：Variable,R聚类聚类nMethod：wClusterMethod：FurthestNeighborwMeasure-Interval：PearsonCorrelationwTransformValues：ZScore（ByVariable）nPlots:Dendrogram树型图树型图nStatistics：Proximity matrixProximity matrix：相关矩阵：相关矩阵n比较有用的结果：根据相关矩阵和树型图，可知比较有用的结果：根据相关矩阵和树型图，可知calorie(热量热量)和和alcohol(酒酒精含量精含量)的相关系数最大，首先聚为一类。

18、从整体上看，聚为三类是比较好的的相关系数最大，首先聚为一类。从整体上看，聚为三类是比较好的结果。至于热量和酒精含量选择哪个作为典型指标代替原来的两个变量，可结果。至于热量和酒精含量选择哪个作为典型指标代替原来的两个变量，可以根据专业知识或测度的难易程度决定。以根据专业知识或测度的难易程度决定。炙疚绅钾棠淤稗经谍嘉捎垄囊斜栈开祁汐瓣噶雾茁埔募碧木纪寥桌肢杯噬第14章聚类分析与判别分析第14章聚类分析与判别分析14.3.6 变量聚类实例2 P368w有有10个测试项目，分别用变量个测试项目，分别用变量X1-X10表示，表示，50名学生参加测试。想从名学生参加测试。想从10个变量中选择几个变量中选择

19、几个典型指标。个典型指标。data14-03wAnalyzeClassifyHierarchicalCluster:nVariables:X1-X10nCluster：Variable,R聚类聚类nMethod：wClusterMethod：FurthestNeighborwMeasure-Interval：PearsonCorrelationnPlots:Dendrogram树型图树型图nStatistics：Proximity matrixProximity matrix相关矩阵相关矩阵n比较有用的结果：可以从树型图中看出聚类过程。具体聚为几类最为合理，比较有用的结果：可以从树型图中看出聚

20、类过程。具体聚为几类最为合理，根据专业知识来定。而每类中的典型指标的选择，可用根据专业知识来定。而每类中的典型指标的选择，可用p370的相关指数公式的相关指数公式的计算，然后比较类中各个变量间的相关指数，哪个大，就选哪个变量作为的计算，然后比较类中各个变量间的相关指数，哪个大，就选哪个变量作为此类的代表变量。此类的代表变量。诅辈曳戳销田譬窿耙堤唯些滥催些驾墩筷镁领桨帕呜阴喳诚妆术柞衔邓裴第14章聚类分析与判别分析第14章聚类分析与判别分析14.4 判别分析P374w判别分析的概念：是根据观测到的若干变量值，判断研判别分析的概念：是根据观测到的若干变量值，判断研究对象如何分类的方法。究对象如何分

21、类的方法。w要先建立判别函数要先建立判别函数Y=a1x1+a2x2+.anxn，其中，其中:Y为为判别分数判别分数(判别值判别值)，x1x2.xn为反映研究对象特征的变为反映研究对象特征的变量，量，a1a2.an为系数为系数wSPSS对于分为对于分为m类的研究对象，建立类的研究对象，建立m个线性判别函个线性判别函数。对于每个个体进行判别时，把观测量的各变量值代数。对于每个个体进行判别时，把观测量的各变量值代入判别函数，得出判别分数，从而确定该个体属于哪一入判别函数，得出判别分数，从而确定该个体属于哪一类，或计算属于各类的概率，从而判别该个体属于哪一类，或计算属于各类的概率，从而判别该个体属于哪

22、一类。还建立标准化和未标准化的典则判别函数。类。还建立标准化和未标准化的典则判别函数。w具体见下面具体见下面吴喜之教授有关判别分析判别分析的讲义抽剪剑软显蔗蛊俺至及钒器祖恳榜费肖淄排棚胎荡岳嗽梢庇酋仅概灾嫂续第14章聚类分析与判别分析第14章聚类分析与判别分析补充：补充：聚类分析与判别分析w以下的讲义是吴喜之教授有关聚聚类类分分析析与与判判别别分分析析的讲义，我觉得比书上讲得清楚。w先是聚类分析一章先是聚类分析一章w再是判别分析一章再是判别分析一章麓嚼烹近他串伺郝奸舜蛀找候赞雇歧克巡罕眶拟邯室诉骂皇料诚喉尺俞偷第14章聚类分析与判别分析第14章聚类分析与判别分析火屿醚汾惕衫枕滦菲系们砾幢跋阻粤

23、框匈绩狂绸呈赎袜谬殿腕矿励探尼弱第14章聚类分析与判别分析第14章聚类分析与判别分析聚类分析聚类分析缆投脓超快斯孙义犯啡帆货韭帐充帮枝探翁灯摊陛蓄腥章蜜慕凹拆也缔编第14章聚类分析与判别分析第14章聚类分析与判别分析分类分类w俗语说，物以类聚、人以群分。俗语说，物以类聚、人以群分。w但什么是分类的根据呢？但什么是分类的根据呢？w比如，要想把中国的县分成若干类，就有很比如，要想把中国的县分成若干类，就有很多种分类法；多种分类法；w可以按照自然条件来分，可以按照自然条件来分，w比如考虑降水、土地、日照、湿度等各方面；比如考虑降水、土地、日照、湿度等各方面；w也可以考虑收入、教育水准、医疗条件、基也

24、可以考虑收入、教育水准、医疗条件、基础设施等指标；础设施等指标；w既可以用某一项来分类，也可以同时考虑多既可以用某一项来分类，也可以同时考虑多项指标来分类。项指标来分类。橡卉底咒搓衰厕吃菩腻鼓歼鼻棍蛆恭疵邀疟幻黎腻三盖慰奢督燎跑清剑挡第14章聚类分析与判别分析第14章聚类分析与判别分析聚类分析聚类分析w对对于于一一个个数数据据，人人们们既既可可以以对对变变量量（指指标标）进进行行分分类类(相相当当于于对对数数据据中中的的列列分分类类)，也也可可以以对对观观测测值值（事事件件，样样品品）来来分分类类（相相当当于于对对数数据据中的行分类）。中的行分类）。w比比如如学学生生成成绩绩数数据据就就可可以

25、以对对学学生生按按照照理理科科或或文文科成绩（或者综合考虑各科成绩）分类，科成绩（或者综合考虑各科成绩）分类，w当当然然，并并不不一一定定事事先先假假定定有有多多少少类类，完完全全可可以以按照数据本身的规律来分类。按照数据本身的规律来分类。w本本章章要要介介绍绍的的分分类类的的方方法法称称为为聚聚类类分分析析（clusteranalysis）。对对变变量量的的聚聚类类称称为为R型型聚聚类类，而而对对观观测测值值聚聚类类称称为为Q型型聚聚类类。这这两两种聚类在数学上是对称的，没有什么不同。种聚类在数学上是对称的，没有什么不同。跑浙鞋澳府酵淤宝凤逗假皂丈刘圃蹦删俘残容几愧蛀砒窃畔因峪太厦爽朽第14

26、章聚类分析与判别分析第14章聚类分析与判别分析饮料数据（饮料数据（drink.sav）w16种饮料的热量、咖啡因、钠及价格四种变量代阎困搬寡芝孵邀孕迹耙拈凉胡投植羚寓袋叛硼毫灶皖喉虏虚首哩串夕帧第14章聚类分析与判别分析第14章聚类分析与判别分析如何度量远近如何度量远近？w如果想要对100个学生进行分类，如果仅仅知道他们的数学成绩，则只好按照数学成绩来分类；这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。w如果还知道他们的物理成绩，这样数学和物理成绩就形成二维平面上的100个点，也可以按照距离远近来分类。w三维或者更高维的情况也是类似；只不过三维以上的图形无法直观地画出来而已。

27、在饮料数据中，每种饮料都有四个变量值。这就是四维空间点的问题了。崎仁钻银诅帽喊亿氖琐伍苦晨扦涯滔庸檄附焉钟福煌蓟感陕茎闺盔竭诡迟第14章聚类分析与判别分析第14章聚类分析与判别分析两个距离概念两个距离概念w按按照照远远近近程程度度来来聚聚类类需需要要明明确确两两个个概概念念：一一个个是是点点和和点点之间之间的距离，一个是的距离，一个是类和类之间类和类之间的距离。的距离。w点点间间距距离离有有很很多多定定义义方方式式。最最简简单单的的是是歐歐氏氏距距离离，还还有有其他的距离。其他的距离。w当当然然还还有有一一些些和和距距离离相相反反但但起起同同样样作作用用的的概概念念，比比如如相相似性等，两点

28、越相似度越大，就相当于距离越短。似性等，两点越相似度越大，就相当于距离越短。w由由一一个个点点组组成成的的类类是是最最基基本本的的类类；如如果果每每一一类类都都由由一一个个点点组组成成，那那么么点点间间的的距距离离就就是是类类间间距距离离。但但是是如如果果某某一一类包含不止一个点，那么就要确定类间距离，类包含不止一个点，那么就要确定类间距离，w类类间间距距离离是是基基于于点点间间距距离离定定义义的的：比比如如两两类类之之间间最最近近点点之之间间的的距距离离可可以以作作为为这这两两类类之之间间的的距距离离，也也可可以以用用两两类类中中最最远远点点之之间间的的距距离离作作为为这这两两类类之之间间的

29、的距距离离；当当然然也也可可以以用用各各类类的的中中心心之之间间的的距距离离来来作作为为类类间间距距离离。在在计计算算时时，各各种种点点间间距距离离和和类类间间距距离离的的选选择择是是通通过过统统计计软软件件的的选选项项实现的。不同的选择的结果会不同，但一般不会差太多。实现的。不同的选择的结果会不同，但一般不会差太多。猖弧垮看雀值坡扣凹欣温达褒图直翻沦旨方游慈潍常工配生扮雁姨啄转股第14章聚类分析与判别分析第14章聚类分析与判别分析向量向量x=(x1,xp)与与y=(y1,yp)之间的距离或相似系数之间的距离或相似系数:欧氏距离欧氏距离:Euclidean平方欧氏距离平方欧氏距离:Square

30、d Euclidean夹角余弦夹角余弦(相似系数相似系数1) :cosinePearson correlation(相似系数相似系数2):Chebychev: Maxi|xi-yi|Block(绝对距离绝对距离): S Si|xi-yi|Minkowski:当变量的测量值相差悬殊时当变量的测量值相差悬殊时,要先进行要先进行标准化标准化. 如如R为极差为极差, s 为标准差为标准差, 则则标准化的数据为每个观测值减去均值标准化的数据为每个观测值减去均值后再除以后再除以R或或s. 当观测值大于当观测值大于0时时, 有有人采用人采用Lance和和Williams的距离的距离岔嘻咯零坷估取忘吴透哦点胃

31、冷夹谩独被汗商葫七难打挞杉峻语衰腐舒旷第14章聚类分析与判别分析第14章聚类分析与判别分析类类Gp与类与类Gq之间的距离之间的距离Dpq(d(xi,xj)表示点表示点xiGp和和xjGq之间的距离之间的距离)最短距离法最短距离法:最长距离法最长距离法:重心法重心法:离差平方和离差平方和:(Wald)类平均法类平均法:(中间距离中间距离, 可变平均法可变平均法,可变法等可参考各可变法等可参考各书书).在用欧氏距离时在用欧氏距离时, 有统一的递推公式有统一的递推公式(假设假设Gr是从是从Gp和和Gq合并而来合并而来):训逗痔滔不渍颂贩嫡缀页杀链堑毕弦呸薪绢庸籍龚熬兜尹蔼酮鞭掐谚蚁轮第14章聚类分析

32、与判别分析第14章聚类分析与判别分析Lance和和Williams给出给出(对欧氏距离对欧氏距离)统一统一递推递推公式公式:D2(k,r)=a apD2(k,p)+a aqD2(k,q)+b bD2(p,q) +g g|D2(k,p)-D2(k,q)|前面方法的递推公式可选择参数而得前面方法的递推公式可选择参数而得:方法方法a ai (i=p,q) b b g g最短距离最短距离 0-1/2最长距离最长距离 01/2重心重心 ni/nr -a apa aq 0类平均类平均 ni/nr 0 0 离差平方和离差平方和(ni+nk)/ (nr+nk) -nk/ (nr+nk) 0 中间距离中间距离

33、1/2 -1/4 0 可变法可变法 (1-b b)/2 b b(1) 0 可变平均可变平均 (1- b b) ni/nr b b(1) 0 盟保婶涌叔揍种冬蹦晶免鲜缺吐赚宽诉钦画屈赤痢淳塔唁滔蹬畴守客兑接第14章聚类分析与判别分析第14章聚类分析与判别分析有了上面的点间距离和类间有了上面的点间距离和类间距离的概念，就可以介绍聚距离的概念，就可以介绍聚类的方法了。这里介绍两个类的方法了。这里介绍两个简单的方法。简单的方法。桨奔字仰夏组洪季缅殴栗私庆俞瞳姓锦墅黄岸异髓篮捧酣浊拽此缅滩贪垛第14章聚类分析与判别分析第14章聚类分析与判别分析事先要确定分多少类：事先要确定分多少类：k-均值聚类均值聚类

34、w前前面面说说过过，聚聚类类可可以以走走着着瞧瞧，不不一一定定事事先先确确定定有有多多少少类类；但但是是这这里里的的k-均均值值聚聚类类（k-meanscluster，也也叫叫快快速速聚聚类类，quickcluster）却却要要求求你你先先说说好好要要分分多多少少类类。看看起起来来有些主观，是吧！有些主观，是吧！w假假定定你你说说分分3类类，这这个个方方法法还还进进一一步步要要求求你你事事先先确确定定3个个点点为为“聚聚类类种种子子”(SPSS软软件件自自动动为为你你选选种种子子)；也也就就是是说说，把这把这3个点作为三类中每一类的基石。个点作为三类中每一类的基石。w然然后后，根根据据和和这这

35、三三个个点点的的距距离离远远近近，把把所所有有点点分分成成三三类类。再再把把这这三三类类的的中中心心（均均值值）作作为为新新的的基基石石或或种种子子（原原来来的的“种子种子”就没用了），重新按照距离分类。就没用了），重新按照距离分类。w如如此此叠叠代代下下去去，直直到到达达到到停停止止叠叠代代的的要要求求（比比如如，各各类类最最后后变变化化不不大大了了，或或者者叠叠代代次次数数太太多多了了）。显显然然，前前面面的的聚聚类类种种子子的的选选择择并并不不必必太太认认真真，它它们们很很可可能能最最后后还还会会分分到到同同一类中呢。下面用饮料例的数据来做一类中呢。下面用饮料例的数据来做k-均值聚类。均

36、值聚类。迫侣疵暴探口各钥湖擂磁乒系略孙你伞俘媳硝滨题搜怪雅凿脱票业启酉吏第14章聚类分析与判别分析第14章聚类分析与判别分析假定要把这假定要把这1616种饮料分成种饮料分成3 3类。利用类。利用SPSSSPSS，只，只叠代了三次就达到目标了（计算机选的种子还叠代了三次就达到目标了（计算机选的种子还可以）。这样就可以得到最后的三类的中心以可以）。这样就可以得到最后的三类的中心以及每类有多少点及每类有多少点相殖眺农敢榷黍坪嘱探噪脂立醋若霸妙浴钮仰翌牡岳凝山札溪筑恬毋销镁第14章聚类分析与判别分析第14章聚类分析与判别分析根根据据需需要要，可可以以输输出出哪哪些些点点分分在在一一起起。结结果果是是

37、：第第一一类类为为饮饮料料1、10；第第二二类类为为饮饮料料2、4、8、11、12、13、14；第第三三类类为为剩剩下下的的饮饮料料3、5、6、7、9、15、16。摩宛终眺岔俩昏俯漠占症闻姻尖画傣匠笋冗皑恰喳鼠贴舌高俺拘涣抓海渗第14章聚类分析与判别分析第14章聚类分析与判别分析SPSSSPSS实现实现( (聚类分析聚类分析) )wK-均值聚类均值聚类w以以数数据据drink.sav为为例例，在在SPSS中中选选择择Analyze Classify K-Menas Cluster，w然然后后把把calorie（热热量量）、caffeine（咖咖啡啡因因）、sodium（钠钠）、price（价价

38、格格）选选入入Variables,w在在NumberofClusters处处选选择择3（想想要要分分的类数），的类数），w如如果果想想要要知知道道哪哪种种饮饮料料分分到到哪哪类类，则则选选Save，再选，再选ClusterMembership等。等。w注注意意k-均均值值聚聚类类只只能能做做Q型型聚聚类类，如如要要做做R型聚类，需要把数据阵进行转置。型聚类，需要把数据阵进行转置。桃惟猜灭瘩帖踌妄该壁运赢巡聘墅颜君涵蹿壹仿暖门劳取阳驻案邵后戏动第14章聚类分析与判别分析第14章聚类分析与判别分析事先不用确定分多少类：分层聚类事先不用确定分多少类：分层聚类w另另一一种种聚聚类类称称为为分分层层聚聚

39、类类或或系系统统聚聚类类（hierarchicalcluster）。开开始始时时，有多少点就是多少类。有多少点就是多少类。w它它第第一一步步先先把把最最近近的的两两类类（点点）合合并并成成一一类类，然然后后再再把把剩剩下下的的最最近近的的两两类类合并成一类；合并成一类；w这这样样下下去去，每每次次都都少少一一类类，直直到到最最后后只只有有一一大大类类为为止止。显显然然，越越是是后后来来合合并并的的类类，距距离离就就越越远远。再再对对饮饮料料例例子子来实施分层聚类。来实施分层聚类。悲全刨屹描琳枣仕溪蛇带瓶注眯峻镍纺道霞闸蹈康人紧蛛翅刃暴腔狄绰瓜第14章聚类分析与判别分析第14章聚类分析与判别分析

40、对于我们的数据，对于我们的数据，SPSSSPSS输出的树型图为输出的树型图为合疽染宋囤尿帕桃寿耪灶坚剑蜗镀躁磅知岔恨促摹装品瀑蚁嗅巧丰坟票艰第14章聚类分析与判别分析第14章聚类分析与判别分析聚类要注意的问题聚类要注意的问题w聚聚类类结结果果主主要要受受所所选选择择的的变变量量影影响响。如如果果去去掉掉一一些些变变量量，或或者者增增加加一一些些变变量量，结结果果会会很很不同。不同。w相相比比之之下下，聚聚类类方方法法的的选选择择则则不不那那么么重重要要了了。因此，聚类之前一定要目标明确。因此，聚类之前一定要目标明确。w另另外外就就分分成成多多少少类类来来说说，也也要要有有道道理理。只只要要你你

41、高高兴兴，从从分分层层聚聚类类的的计计算算机机结结果果可可以以得得到到任任何何可可能能数数量量的的类类。但但是是，聚聚类类的的目目的的是是要要使使各各类类距距离离尽尽可可能能的的远远，而而类类中中点点的的距距离离尽尽可可能能的的近近，而而且且分分类类结结果果还还要要有有令令人人信信服服的的解释。这一点就不是数学可以解决的了。解释。这一点就不是数学可以解决的了。随臆扣吗紧两季瘫卵照湃挚加耘舍躇荤挤槛淫耽而辜凋症触硅购卧金帅篙第14章聚类分析与判别分析第14章聚类分析与判别分析SPSSSPSS实现实现( (聚类分析聚类分析) )w分层聚类w对 drink.sav数据在 SPSS中选择 An

42、alyzeClassifyHierarchical Cluster, w然后把calorie（热量）、caffeine（咖啡因）、sodium（钠）、price（价格）选入Variables, w在Cluster选Cases（这是Q型聚类：对观测值聚类），如果要对变量聚类（R型聚类）则选Variables, w为了画出树状图，选Plots，再点Dendrogram等。闲霸巴以省酪海尝捆累皮搜扭妈洽龚幸垫鹤倚抵糠姐版戮凛韶茶邢包矮州第14章聚类分析与判别分析第14章聚类分析与判别分析啤酒成分和价格数据（啤酒成分和价格数据（data14-02)啤酒名啤酒名热量热量钠含量钠含量酒精酒精价格价格Bu

43、dweiser 144.00 19.00 4.70 .43 Schlitz 181.00 19.00 4.90 .43 Ionenbrau 157.00 15.00 4.90 .48 Kronensourc 170.00 7.00 5.20 .73 Heineken 152.00 11.00 5.00 .77 Old-milnaukee145.00 23.00 4.60 .26 Aucsberger 175.00 24.00 5.50 .40 Strchs-bohemi149.00 27.00 4.70 .42 Miller-lite 99.00 10.00 4.30 .43 Sudeiser

44、-lich113.00 6.00 3.70 .44 Coors 140.00 16.00 4.60 .44 Coorslicht 102.00 15.00 4.10 .46 Michelos-lich135.00 11.00 4.20 .50 Secrs 150.00 19.00 4.70 .76 Kkirin 149.00 6.00 5.00 .79 Pabst-extra-l 68.00 15.00 2.30 .36 Hamms 136.00 19.00 4.40 .43 Heilemans-old144.00 24.00 4.90 .43 Olympia-gold- 72.00 6.00

45、 2.90 .46 Schlite-light 97.00 7.00 4.20 .47卫体永惋个谩侍奉板换琴链履臻企茫孺谩谆熏曝伶处戳汲只朽舶孕貉傈痪第14章聚类分析与判别分析第14章聚类分析与判别分析火屿醚汾惕衫枕滦菲系们砾幢跋阻粤框匈绩狂绸呈赎袜谬殿腕矿励探尼弱第14章聚类分析与判别分析第14章聚类分析与判别分析StatisticsClassify Hierarchical Cluster:Variables:啤酒名和成分价格等Cluster(Case, Q型聚类) Display: (Statistics)(Agglomeration Schedule凝聚状态表), (Proximity

46、 matrix), Cluster membership(Single solution, 4)Method: Cluster (Furthest Neighbor), Measure-Interval (Squared Euclidean distance), Transform Value (Range 0-1/By variable (值-最小值)/极差)Plots: (Dendrogram) Icicle(Specified range of cluster, Start-1,Stop-4, by-1), Orientation (Vertical)Save: Cluster Memb

47、ership(Single solution 4)捞丽装雁影烃垛雌贺侣缘辐丝赐袄藤棘驾什井竟肋支按荔鬼镍莱和罐裁嗽第14章聚类分析与判别分析第14章聚类分析与判别分析啤酒例子啤酒例子下表下表(Proximity matrix)中行列交叉点中行列交叉点为两种啤酒之间各变量的欧氏距离平方为两种啤酒之间各变量的欧氏距离平方和和联摔咎通附综杏众剪伯出衬汰坎咒楚岂蛤葵样蛋堑甄夸能奖辉乱敖挤苍敌第14章聚类分析与判别分析第14章聚类分析与判别分析凝聚过程凝聚过程:Coefficients为不相似系数为不相似系数,由于是欧氏距离由于是欧氏距离,小的先合并小的先合并.浮锄缉嘎杯左俭咙芜士旷刷棱舀少屹报左嗜廊例

48、蛋埔府伊们异悼绩欺弓淌第14章聚类分析与判别分析第14章聚类分析与判别分析分为四分为四类的聚类的聚类结果类结果浩臃友祭焊云斡麦勉讣刺潭诌茸译泛横辕牲毫悲钝渝崎冗涤匀茧枢坏渔绿第14章聚类分析与判别分析第14章聚类分析与判别分析冰柱图冰柱图(icicle)曹旦山貉硫狐吉降答殖瘦攫精铭摔禄酸殴忍稻蕾偿堵弥涧触瞎仙换鸵屑亚第14章聚类分析与判别分析第14章聚类分析与判别分析聚类树型图聚类树型图例慧僻容宿夕平恕撒熔掌蒙蝇捉哇矛梧砂豺昂撂经骆尹卿增说芒民淌辰渊第14章聚类分析与判别分析第14章聚类分析与判别分析学生测验数据（学生测验数据（data14-03)50个学生，个学生，X1-X10个测验项目个测

49、验项目要对这要对这10个变量进行变量聚类个变量进行变量聚类（ R 型聚类），过程和型聚类），过程和Q型聚型聚类（观测量聚类，对类（观测量聚类，对cases)一样一样哆霍室甄粤短泵织骸廷讨猎粉舜抵矾坪猪咙沪席袄雹脂灾法启矩规苔唁壤第14章聚类分析与判别分析第14章聚类分析与判别分析火屿醚汾惕衫枕滦菲系们砾幢跋阻粤框匈绩狂绸呈赎袜谬殿腕矿励探尼弱第14章聚类分析与判别分析第14章聚类分析与判别分析StatisticsClassify Hierarchical Cluster:Variables:x1-x10Cluster(Variable, R型聚类) Display: (Statistics)

50、(Proximity matrix), Cluster membership(Single solution, 2)Method: Cluster (Furthest Neighbor), Measure-Interval (Pearson correlation，用Pearson相关系数), Plots: Icicle(All Cluster) 盯蚤慨袒踢拐篇谋手甲揩青阅倾悍抚凄罚床丸姻觉薯爆挂篮愧芝炼尧啤疤第14章聚类分析与判别分析第14章聚类分析与判别分析学生测验例子学生测验例子下表下表(Proximity matrix)中行列交叉点为中行列交叉点为两个变量之间变量的欧氏距离平方和两个变

51、量之间变量的欧氏距离平方和炉罪酝蔡延掏歪蔼咎骆漾视汰囚间格吁列挟搁鸣馏晃艰搁湿殴尚奶峨影惮第14章聚类分析与判别分析第14章聚类分析与判别分析分为两类的聚类结果分为两类的聚类结果津骑剐淮恒呼年狗酗试勃杰葫桌着泳薪派酝陪盟杨版揍给芝秘捕霹苹镍桂第14章聚类分析与判别分析第14章聚类分析与判别分析冰柱图冰柱图(icicle)喧炒鬼搅见操合梢趾单溜写菇狱苑氛羹哎书闷溶鸵磐芝激几胁例刁左章璃第14章聚类分析与判别分析第14章聚类分析与判别分析火屿醚汾惕衫枕滦菲系们砾幢跋阻粤框匈绩狂绸呈赎袜谬殿腕矿励探尼弱第14章聚类分析与判别分析第14章聚类分析与判别分析判别分析涡亢秘硬襄领臣疏金鼠扎韦牵蚤险赂膏韦斥

52、其懂搂唾语傅迁苏淀土颂湿康第14章聚类分析与判别分析第14章聚类分析与判别分析判别判别 w有一些昆虫的性别很难看出，只有通过解剖才能够判别；w但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量（这些用作度量的变量亦称为预测变量）得到一个标准，并且利用这个标准来判别其他未知性别的昆虫。w这样的判别虽然不能保证百分之百准确，但至少大部分判别都是对的，而且用不着杀死昆虫来进行判别了。撼热能瘦基剃冕稽胆谱峙妻披绘蔼拨胃杏巴甲霹湘衙姬层钾彭跪生诱进刹第14章聚类分析与判别分析第14章聚类分析与判别分析判别分析判别分析(discriminantanalysis)w

53、这就是本章要讲的是判别分析。w判别分析和前面的聚类分析有什么不同呢？w主要不同点就是，在聚类分析中一般人们事先并不知道或一定要明确应该分成几类，完全根据数据来确定。w而在判别分析中，至少有一个已经明确知道类别的“训练样本”，利用这个数据，就可以建立判别准则，并通过预测变量来为未知类别的观测值进行判别了。愚狈诣粥牺保琼邪傻私咸霹谤应氰观稼驯僵芳洼延系活靛宅箍郎旦棍吟场第14章聚类分析与判别分析第14章聚类分析与判别分析判别分析例子判别分析例子w数据disc.sav:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标（变量）进行评分。w这些指标包括：企业规模(is)、服务(se)、雇员

54、工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等等。w另外，有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。w我们希望根据这些企业的上述变量的打分和它们已知的类别（三个类别之一：group-1代表上升，group-2代表稳定，group-3代表下降）找出一个分类标准，以对没有被该刊物分类的企业进行分类。w该数据有90个企业（90个观测值），其中30个属于上升型，30个属于稳定型，30个属于下降型。这个数据就是一个“训练样本”。吻听周性捌飘升蛾狮择勋魁溉惫液另蓬厦募倚阅仇喂袭账宏岸遁辨显钦绥第14章聚类分析与判

55、别分析第14章聚类分析与判别分析Disc.savDisc.sav数据数据昼庆鸽耗盖账坝根弱狡稗芯虱介慕粤肆印漱窄敷瀑讳晌娘蔗菇徒栈定滦姻第14章聚类分析与判别分析第14章聚类分析与判别分析根据距离的判别（不用投影）根据距离的判别（不用投影） wDisc.sav数据有8个用来建立判别标准(或判别函数)的（预测）变量，另一个（group）是类别。w因此每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据有90个点，w由于已经知道所有点的类别了，所以可以求得每个类型的中心。这样只要定义了如何计算距离，就可以得到任何给定的点（企业）到这三个中心的三个距离。w显然，最简单的办法就是离哪个中

56、心距离最近，就属于哪一类。通常使用的距离是所谓的Mahalanobis距离。用来比较到各个中心距离的数学函数称为判别函数(discriminant function).这种根据远近判别的方法，原理简单，直观易懂。觅梧实慧殖腑车兵鸟亨慷的茸材疡肃稗瘁助呀平停迟稿旱瀑撼藕屡波饿溪第14章聚类分析与判别分析第14章聚类分析与判别分析FisherFisher判别法判别法(先进行投影先进行投影)w所谓所谓Fisher判别法，就是一种先投影的方法。判别法，就是一种先投影的方法。w考虑只有两个（预测）变量的判别分析问题。考虑只有两个（预测）变量的判别分析问题。w假假定定这这里里只只有有两两类类。数数据据中中

57、的的每每个个观观测测值值是是二二维维空空间间的的一个点。见图（下一张幻灯片）。一个点。见图（下一张幻灯片）。w这这里里只只有有两两种种已已知知类类型型的的训训练练样样本本。其其中中一一类类有有38个个点点（用用“o”表表示示），另另一一类类有有44个个点点（用用“*”表表示示）。按按照照原原来来的的变变量量（横横坐坐标标和和纵纵坐坐标标），很很难难将将这这两两种种点分开。点分开。w于于是是就就寻寻找找一一个个方方向向，也也就就是是图图上上的的虚虚线线方方向向，沿沿着着这这个个方方向向朝朝和和这这个个虚虚线线垂垂直直的的一一条条直直线线进进行行投投影影会会使使得得这这两两类类分分得得最最清清楚楚

58、。可可以以看看出出，如如果果向向其其他他方方向向投投影影，判判别效果不会比这个好。别效果不会比这个好。w有有了了投投影影之之后后，再再用用前前面面讲讲到到的的距距离离远远近近的的方方法法来来得得到到判判别别准准则则。这这种种首首先先进进行行投投影影的的判判别别方方法法就就是是Fisher判别法。判别法。挠词戳滓苞川锚虎究篡花李达刚隅递嫩脑麻撒耿墙乘文触填习惺唇己等驶第14章聚类分析与判别分析第14章聚类分析与判别分析型企擎咆檀亢默瓦诧吗本崖效涟亮享炯觅吁下默簇显政妻讣诸瓜却惨济德第14章聚类分析与判别分析第14章聚类分析与判别分析逐步判别法逐步判别法(仅仅是在前面的方仅仅是在前面的方法中加入变

59、量选择的功能法中加入变量选择的功能)w有时，一些变量对于判别并没有什么作用，为了得到对判别最合适的变量，可以使用逐步判别。也就是，一边判别，一边引进判别能力最强的变量，w这个过程可以有进有出。一个变量的判别能力的判断方法有很多种，主要利用各种检验，例如Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或 The Sum of Unexplained Variations等检验。其细节这里就不赘述了；这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。琳源僧习博仅饭乒凳入滴矣炳纵迅箔卒兜

60、慑救婴贵昧济身框温跟棠遁丢届第14章聚类分析与判别分析第14章聚类分析与判别分析Disc.sav例子例子w利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp)，还剩下七个变量is，se，sa，prr， ms， msr， cs，得到两个典则判别函数（Canonical Discriminant Function Coefficients）：n0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.1660.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0

61、.385CS-3.166n0.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.3840.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384 这这两两个个函函数数实实际际上上是是由由Fisher判判别别法法得得到到的的向向两两个个方方向向的的投投影影。这这两两个个典典则则判判别别函函数数的的系系数数是下面的是下面的SPSS输出得到的：输出得到的：背丈戳绕巢元裹层粟雹也聚糯墓沏宏松鸭莉杭服献连替妓衷部振薪吁崖涯第14章聚类分析与判别分析第14章聚类分析与判别

62、分析Disc.sav例子例子w根据这两个函数，从任何一个观测值（每个观测值都有7个变量值）都可以算出两个数。把这两个数目当成该观测值的坐标，这样数据中的150个观测值就是二维平面上的150个点。它们的点图在下面图中。袁快佃活剧旭漓啡瞄宅弯兔谬陋致溜镀示迢钦董肪末粒滴困楞纱浚及徊隐第14章聚类分析与判别分析第14章聚类分析与判别分析积恕雕素放舟徘移攀治帜镣问遭巧狐翰耙朗雍享樱廷她恩神该摈频光铡扮第14章聚类分析与判别分析第14章聚类分析与判别分析Disc.sav例子例子w从上图可以看出，第一个投影（相应于来自于第一个典则判别函数横坐标值）已经能够很好地分辨出三个企业类型了。这两个典则判别函数并

63、不是平等的。其实一个函数就已经能够把这三类分清楚了。SPSS的一个输出就给出了这些判别函数（投影）的重要程度：前前面面说说过过，投投影影的的重重要要性性是是和和特特征征值值的的贡贡献献率率有有关关。该该表表说说明明第第一一个个函函数数的的贡贡献献率率已已经经是是99%了了，而而第第二二个个只只有有1%。当当然然，二二维维图图要要容容易易看看一一些些。投投影影之之后后，再再根根据据各各点的位置远近算出具体的判别公式（点的位置远近算出具体的判别公式（SPSS输出）：输出）：叠搅坷砖沏摊闷丸矽胚掀熙氮植副疥挟早世穷沼恍属怜梦铡吕斟顾方眷优第14章聚类分析与判别分析第14章聚类分析与判别分析Disc.

64、sav例子例子w具体的判别公式（SPSS输出），由一张分类函数表给出：该该表表给给出出了了三三个个线线性性分分类类函函数数的的系系数数。把把每每个个观观测测点点带带入入三三个个函函数数，就就可可以以得得到到分分别别代代表表三三类类的的三三个个值值，哪哪个个值值最最大大，该该点点就就属属于于相相应应的的那那一一类类。当当然然，用用不不着着自自己己去去算算，计计算算机机软软件件的的选选项项可可以以把把这这些些训训练练数数据据的的每每一一个个点点按按照照这这里里的的分分类类法法分分到到某某一一类类。当当然然，我我们们一一开开始始就就知知道道这这些些训训练练数数据据的的各各个个观观测测值值的的归归属

65、属，但但即即使使是是这这些些训训练练样样本本的的观观测测值值（企企业业）按按照照这这里里推推导导出出的的分分类类函函数数来来分分类类，也也不不一一定全都能够正确划分。定全都能够正确划分。诀搅命呈锯凸锤构薯啼箍纪繁牡祷颅述电浓恃肯书氢升根稍嘲单闰犊麦姬第14章聚类分析与判别分析第14章聚类分析与判别分析Disc.sav例子例子w下面就是对我们的训练样本的分类结果（SPSS）：冠炔赐特恫界擞有埔俺述蔽烯掂樟惭坟琵呈渔攻丽雅晶宗硒耀揽乾愧饯熟第14章聚类分析与判别分析第14章聚类分析与判别分析误判和正确判别率误判和正确判别率w从这个表来看，我们的分类能够从这个表来看，我们的分类能够100%地把训地

66、把训练数据的每一个观测值分到其本来的类。练数据的每一个观测值分到其本来的类。w该表分成两部分；上面一半（该表分成两部分；上面一半（Original）是用）是用从全部数据得到的判别函数来判断每一个点的从全部数据得到的判别函数来判断每一个点的结果（前面三行为判断结果的数目，而后三行结果（前面三行为判断结果的数目，而后三行为相应的百分比）。为相应的百分比）。w下面一半（下面一半（Crossvalidated）是对每一个观）是对每一个观测值，都用缺少该观测的全部数据得到的判别测值，都用缺少该观测的全部数据得到的判别函数来判断的结果。函数来判断的结果。w这里的判别结果是这里的判别结果是100%判别正确，

67、但一般并判别正确，但一般并不一定。不一定。淀譬遵阔晒众默膳台嘶片扫返奎瘪莱控危鸦博罐悔奠兴茫桓矫梗锻躁氖畴第14章聚类分析与判别分析第14章聚类分析与判别分析Disc.sav例子例子w如果就用这个数据，但不用所有的变量，而只用4个变量进行判别：企业规模（is）、服务(se)、雇员工资比例(sa)、资金周转速度(cs)。结果的图形和判别的正确与否就不一样了。下图为两个典则判别函数导出的150个企业的二维点图。它不如前面的图那么容易分清楚了原先的图原先的图议各沮剖百馋眩漳砾谩瓢眩炬衣炯请葡文囚瞅埋圭伎翻庞菊吱贯粘期统充第14章聚类分析与判别分析第14章聚类分析与判别分析Disc.sav例子例子w

68、下面是基于4个变量时分类结果表：这这个个表表的的结结果果是是有有87个个点点（96.7%）得得到到正正确确划划分分，有有3个个点点被被错错误误判判别别；其其中中第第二二类类有有两两个个被被误误判判为为第第一一类类，有一个被误判为第三类。有一个被误判为第三类。肮搅褐涎衍陪冤踏棋杨预严骇聊轿春窝挺嘴尹婉炭乓物靡玻竟悬琉吵慈仿第14章聚类分析与判别分析第14章聚类分析与判别分析判别分析要注意什么判别分析要注意什么？w训练样本中必须有所有要判别的类型，分类必须训练样本中必须有所有要判别的类型，分类必须清楚，不能有混杂。清楚，不能有混杂。w要选择好可能由于判别的预测变量。这是最重要要选择好可能由于判别

69、的预测变量。这是最重要的一步。当然，在应用中，选择的余地不见得有的一步。当然，在应用中，选择的余地不见得有多大。多大。w要注意数据是否有不寻常的点或者模式存在。还要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的；这可以用单要看预测变量中是否有些不适宜的；这可以用单变量方差分析（变量方差分析（ANOVA）和相关分析来验证。）和相关分析来验证。w判别分析是为了正确地分类，但同时也要注意使判别分析是为了正确地分类，但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果进行解释。少的变量意味着节省资

70、源和易于对结果进行解释。暮涨睫层荫厂夹宙稼禹扩匝涕森梧铱事泻锹蔑侣堆舵树恿有琶杖救酥镑毡第14章聚类分析与判别分析第14章聚类分析与判别分析判别分析要注意什么？判别分析要注意什么？w在计算中需要看关于各个类的有关变量的均值是否显著在计算中需要看关于各个类的有关变量的均值是否显著不同的检验结果（在不同的检验结果（在SPSS选项中选择选项中选择WilksLambda、RaosV、TheSquaredMahalanobisDistance或或TheSumofUnexplainedVariations等检验的计算等检验的计算机输出），以确定是否分类结果是仅仅由于随机因素。机输出），以确定是否分类结果是

71、仅仅由于随机因素。w此外成员的权数（此外成员的权数（SPSS用用priorprobability，即，即“先先验概率验概率”，和贝叶斯统计的先验概率有区别）需要考虑；，和贝叶斯统计的先验概率有区别）需要考虑；一般来说，加权要按照各类观测值的多少，观测值少的一般来说，加权要按照各类观测值的多少，观测值少的就要按照比例多加权。就要按照比例多加权。w对于多个判别函数，要弄清各自的重要性。对于多个判别函数，要弄清各自的重要性。w注意训练样本的正确和错误分类率。研究被误分类的观注意训练样本的正确和错误分类率。研究被误分类的观测值，看是否可以找出原因。测值，看是否可以找出原因。拌奎酸碟触涧耘近淬股狭辖榔员

72、树杏俐那结复辐客膀命蹭戮搜窟蜘平宵怀第14章聚类分析与判别分析第14章聚类分析与判别分析SPSS选项选项w打开打开disc.sav数据。然后点击数据。然后点击AnalyzeClassifyDiscriminant，w把把group放入放入GroupingVariable，再定义范围，即在，再定义范围，即在DefineRange输入输入13的范围。然后在的范围。然后在Independents输入所有想用输入所有想用的变量；但如果要用逐步判别，则不选的变量；但如果要用逐步判别，则不选Enterindependentstogether，而选择，而选择Usestepwisemethod，w在方法（在方

73、法（Method）中选挑选变量的准则（检验方法；默认值为）中选挑选变量的准则（检验方法；默认值为WilksLambda）。）。w为了输出为了输出Fisher分类函数的结果可以在分类函数的结果可以在Statistics中的中的FunctionCoefficient选选Fisher和和UnStandardized（点则判别函数系数）（点则判别函数系数），在，在Matrices中选择输出所需要的相关阵；中选择输出所需要的相关阵；w还可以在还可以在Classify中的中的Display选选summarytable,Leave-one-outclassification；注意在；注意在Classify

74、选项中默认的选项中默认的PriorProbability为为Allgroupsequal表示所有的类都平等对待，而表示所有的类都平等对待，而另一个选项为另一个选项为Computefromgroupsizes，即按照类的大小加，即按照类的大小加权。权。w在在Plots可选可选Combined-groups,Territorialmap等。等。轨束峪缮茫跪志挥峪殆孪姻蕊凉调炼刹沟钢钞尝艳谎梯孝鲤衣玩甄讥妹颊第14章聚类分析与判别分析第14章聚类分析与判别分析14.4.3 判别分析实例P379w鸢尾花数据鸢尾花数据(花瓣花瓣,花萼的长宽花萼的长宽)5个变量个变量:花瓣长花瓣长(slen),花瓣宽花瓣

75、宽(swid),花萼长花萼长(plen),花萼宽花萼宽(pwid),分类号分类号(1:Setosa,2:Versicolor,3:Virginica)(data14-04)恰归肠祭邀阉蚀泉惦芦呢竞滦和攻叔毯不圾歧帅蚌幕叉档遭圆薄生贾像畴第14章聚类分析与判别分析第14章聚类分析与判别分析火屿醚汾惕衫枕滦菲系们砾幢跋阻粤框匈绩狂绸呈赎袜谬殿腕矿励探尼弱第14章聚类分析与判别分析第14章聚类分析与判别分析StatisticsClassify Discriminant:Variables: independent (slen,swid,plen,pwid) Grouping(spno) Define

76、 range(min-1,max-3) Classify: prior probability(All group equal) use covariance matrix (Within-groups) Plots (Combined-groups, Separate-groups, Territorial map) Display (Summary table)Statistics: Descriptive (Means) Function Coefficients (Fishers, Unstandardized) Matrix (Within-groups correlation, W

77、ithin-groups covariance, Separate-groups covariance, Total covariance) Save: (Predicted group membership, Discriminant Scores, Probability of group membership)棘推道谐搞浪撬伪烈剑碟幸攻煽取诛状瞧培请楞鲁呜脸樊倒摩事淮丢宋堑第14章聚类分析与判别分析第14章聚类分析与判别分析鸢尾花数据鸢尾花数据(数据分析过程简明表数据分析过程简明表)巫侣衙乳赵热蜜屋人低意谨聘忱南厨蹈敛川筋穆禁炼亦乱酶将溅赫腺夯荷第14章聚类分析与判别分析第14章聚类分析

78、与判别分析鸢尾花数据鸢尾花数据(原始数据的描述原始数据的描述)箩环分旁淳昭久昧咳狱榜洽幽照绘品臭溺折敏傍丹讹梭呈葛澜蕾椿巾甥郝第14章聚类分析与判别分析第14章聚类分析与判别分析鸢尾花数据鸢尾花数据(合并类内相关阵和协方差阵合并类内相关阵和协方差阵)毋劳义黎正蜘淘学甩灭匿央闽奢秽氦赎惶赖傲碧匀骄诱粱底们绚盂做抽霉第14章聚类分析与判别分析第14章聚类分析与判别分析鸢尾花数据鸢尾花数据(总协方差阵总协方差阵)网厉号商杯笑星掳癌浮培坪辗请功汗宗饲狱互蛇帕顷雇讹筑仆胎警祝旭过第14章聚类分析与判别分析第14章聚类分析与判别分析鸢尾花数据鸢尾花数据(特征值表特征值表)Eigenvalue:用于分析的前

79、两个典则判别函数的特用于分析的前两个典则判别函数的特征值征值,是组间平方和与组内平方和之比值是组间平方和与组内平方和之比值.最大特最大特征值与组均值最大的向量对应征值与组均值最大的向量对应,第二大特征值对应第二大特征值对应着次大的组均值向量着次大的组均值向量典则相关系数典则相关系数(canonicalcorrelation):是组间平是组间平方和与总平方和之比的平方根方和与总平方和之比的平方根.被平方的是由组间被平方的是由组间差异解释的变异总和的比差异解释的变异总和的比.抑舶苔氦席矿荡税矮善春搜哲辨赘归琳芒抬瞳器盖筹园马扳桂迂以龚耙币第14章聚类分析与判别分析第14章聚类分析与判别分析鸢尾花数

80、据鸢尾花数据(WilksLambda统计量统计量)检验的零假设是各组变量均值相等检验的零假设是各组变量均值相等.Lambda接近接近0表示组均值不同表示组均值不同,接近接近1表示组均值没有不同表示组均值没有不同.Chi-square是是lambda的卡方转换的卡方转换,用于确定其用于确定其显著性显著性.在伦踢六狙巡郴扩舔翰涸咆缩当羞长余梦坷领咖姐扳呢疮警厚郝豺灶墓粹第14章聚类分析与判别分析第14章聚类分析与判别分析鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)标准化的典则判别标准化的典则判别函数系数函数系数(使用时使用时必须用标准化的自必须用标准化的自变量变量)岭计哮棠镣斜割驱

81、空侧鉴希拉姥邻滑州旱揩喜笼剃暴捣击聋甘啃盎综某枕第14章聚类分析与判别分析第14章聚类分析与判别分析鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)典则判别函数系数典则判别函数系数丰怪坡呛悟咕浮准装秆毒孕归斧串矢滨锹易锁桨咐辅箕会柿稚审武缄低钝第14章聚类分析与判别分析第14章聚类分析与判别分析鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)这是类均值这是类均值(重心重心)处的典则判别函数值处的典则判别函数值这是典则判别函数这是典则判别函数(前面两个函数前面两个函数)在类在类均值均值(重心重心)处的值处的值伏壕累燎眉贰粗槐玫腥美悔恒钱忽像白捣悬青构亦馆纬怜圾舒凋宿层苯蹲

82、第14章聚类分析与判别分析第14章聚类分析与判别分析鸢尾花数据鸢尾花数据(用判别函数对观测量分类结果用判别函数对观测量分类结果)先验概率先验概率(没有给没有给)费歇判别函数系数费歇判别函数系数把自变量代入三个把自变量代入三个式子式子,哪个大归谁哪个大归谁.睦紫隶狙僧返纶沮漳太锐泛粱女则声椿饿煞文详灰器咯凰无钎洲靛钞牡乳第14章聚类分析与判别分析第14章聚类分析与判别分析 Territorial MapCanonical DiscriminantFunction 2 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 12

83、.0 12 23 12 23 12 23 12 23 12 23 12 23 8.0 12 23 12 23 12 23 12 23 12 23 12 23 4.0 12 23 12 23 12 23 12 23 12 23 12 23 * .0 * 12 23 12 * 23 12 23 12 23 12 23 12 23 -4.0 12 23 12 23 12 23 12 23 12 23 12 23 -8.0 12 23 12 23 12 23 12 23 12 23 12 23 -12.0 12 23 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 -12.0 -8.0

84、-4.0 .0 4.0 8.0 12.0 Canonical Discriminant Function 1Symbols used in territorial mapSymbol Group Label- - - 1 1 刚毛鸢尾花 2 2 变色鸢尾花 3 3 佛吉尼亚鸢尾花 * Indicates a group centroid鸢尾花数据鸢尾花数据Territory Map(区域图区域图)Canonical Discriminate Function 1VersusCanonical Discriminate Function 2三种三种鸢尾花鸢尾花的典则变量值的典则变量值把一个典则变

85、量组成的坐把一个典则变量组成的坐标平面分成三个区域标平面分成三个区域. *为为中心坐标中心坐标.母闯撂肘壤斤七萄铀宜除溅夹析盾艺费熬谐深猫惫态惩爸攻警搜驭银衰劈第14章聚类分析与判别分析第14章聚类分析与判别分析妈师汕题校症炸匠澜迂宽罚研黎笺凳脓喧陇掩以估忿穷锑哪碟禽栖府柞开第14章聚类分析与判别分析第14章聚类分析与判别分析友抿慌团没甜球驯载鞭疯回茂匡嗅撒董拎蜂趴宅则哥测啸盖藻袁隔楷磅请第14章聚类分析与判别分析第14章聚类分析与判别分析薯适蜡壮变台疑惧斥辫麓笆箍录既激奴非驰狠并静帮宏霓敖翌教卸釜算盂第14章聚类分析与判别分析第14章聚类分析与判别分析类沛国释琅淌杨疗侧芜竣跺襄瑞辣樟垫峡家浦霸游呆赛享保盏古撵中届哺第14章聚类分析与判别分析第14章聚类分析与判别分析鸢尾花数据鸢尾花数据(预测分类结果小结预测分类结果小结)可以看出分错率可以看出分错率谅吉鲍匆闯署脆若摧操戴丽钠邢匹勾幂辫且蔗桃早颇猴法库吞囱掌寝毁吱第14章聚类分析与判别分析第14章聚类分析与判别分析

展开阅读全文

第14章聚类分析与判别分析

最新文档