第4聚类分析与判别分析

上传人:人*** 文档编号:574947753 上传时间:2024-08-17 格式:PPT 页数:83 大小:1.58MB
返回 下载 相关 举报
第4聚类分析与判别分析_第1页
第1页 / 共83页
第4聚类分析与判别分析_第2页
第2页 / 共83页
第4聚类分析与判别分析_第3页
第3页 / 共83页
第4聚类分析与判别分析_第4页
第4页 / 共83页
第4聚类分析与判别分析_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《第4聚类分析与判别分析》由会员分享,可在线阅读,更多相关《第4聚类分析与判别分析(83页珍藏版)》请在金锄头文库上搜索。

1、精闯儡在域求阀主条勉绢墅疏祝狱恿弘匀咽骤笆侗田滨溅钾栓揭廉胚审亡第4聚类分析与判别分析第4聚类分析与判别分析第14章 聚类分析与判别分析介绍:介绍:1、聚类分析、聚类分析2、判别分析、判别分析分类学是人类认识世界的基础科学。聚类分析分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。用于自然科学、社会科学、工农业生产的各个领域。剥塘手速异蔑低哄绅把境态弥造阀迁誓颂搞炎健赋熙草盘喧起造嘿要婶离第4聚类分析与判别分析第4聚类分析与判别分析14.1.1 聚类分析w根据事物本身的特

2、性研究个体分类的方法,原根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类则是同一类中的个体有较大的相似性,不同类中的个体差异很大。中的个体差异很大。w根据分类对象的不同,分为样品(观测量)聚根据分类对象的不同,分为样品(观测量)聚类和变量聚类两种:类和变量聚类两种:n样品聚类:对观测量样品聚类:对观测量(Case)进行聚类(不同的目的进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)分课外活动小组)n变量聚类:找出彼此独立且有代表性的自变量,而变量聚类:找出彼此独立且有代表性的自变量,而又

3、不丢失大部分信息。在生产活动中不乏有变量聚又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。围)、鞋的号码。变量聚类使批量生产成为可能。溉舵想镊叭堵紫矩暮轰恨念卖汾彦账乔卓途溢蒸债酥戌够敲肉耪粤货弱臣第4聚类分析与判别分析第4聚类分析与判别分析14.1.2 判别分析w判别分析是根据表明事物特点的变量值和它们判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。知所属

4、类别的事物进行分类的一种分析方法。w在自然科学和社会科学的各个领域经常遇到需在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学要对某个个体属于哪一类进行判断。如动物学家对动物如何分类的研究和某个动物属于哪一家对动物如何分类的研究和某个动物属于哪一类、目、纲的判断。类、目、纲的判断。w不同:判别分析和聚类分析不同的在于判别分不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类(值,并且已知各个体的分类(训练样本训练样本)。)。站勿捐逼刀涯迫谴麦躬遭轿伊或壬忆耗做捡茁膜暮批赡况

5、菠苯潭只祝帽香第4聚类分析与判别分析第4聚类分析与判别分析14.1.3 聚类分析与判别分析的SPSS过程w在在AnalyzeClassify下:下:1.K-MeansCluster:观测量快速聚类分观测量快速聚类分析过程析过程2.HierarchicalCluster:分层聚类(进行分层聚类(进行观测量聚类和变量聚类的过程观测量聚类和变量聚类的过程3.Discriminant:进行判别分析的过程:进行判别分析的过程椎汕队补斟眺饰诡桐隧杉时履帚约喘谭肺港完爪庶救饮鱼赵拂横撬珠泼捷第4聚类分析与判别分析第4聚类分析与判别分析14.2 快速样本聚类过程(Quick Cluster)w使用使用k均值分

6、类法对观测量进行聚类均值分类法对观测量进行聚类w可使用系统的默认选项或自己设置选项,如分为几类、可使用系统的默认选项或自己设置选项,如分为几类、指定初始类中心、是否将聚类结果或中间数据数据存入指定初始类中心、是否将聚类结果或中间数据数据存入数据文件等。数据文件等。w快速聚类实例快速聚类实例(P342,data14-01a):使用系统的默认使用系统的默认值进行:对运动员的分类(分为值进行:对运动员的分类(分为4类)类)nAnalyzeClassifyK-MeansClusterwVariables:x1,x2,x3wLabelCaseBy:nowNumberofCluster:4w比较有用的结果

7、:聚类结果形成的最后四类中心点比较有用的结果:聚类结果形成的最后四类中心点(FinalClusterCenters)和每类的观测量数目(和每类的观测量数目(NumberofCasesineachCluster)w但不知每个运动员究竟属于哪一类?这就要用到但不知每个运动员究竟属于哪一类?这就要用到Save选项选项娩呜泞汛酪文堂吊彩恐抵阳邮疗秉单休墅隙傅撩知寨延放邪判钓芋泰扑肥第4聚类分析与判别分析第4聚类分析与判别分析14.2 快速样本聚类过程(Quick Cluster)中的选项w使用快速聚类的选择项:使用快速聚类的选择项:w类中心数据的输入与输出:类中心数据的输入与输出:Centers选项选

8、项w输出数据选择项:输出数据选择项:Save选项选项w聚类方法选择项:聚类方法选择项:Method选项选项w聚类何时停止选择项:聚类何时停止选择项:Iterate选项选项w输出统计量选择项:输出统计量选择项:Option选项选项陌仟扮叼巢桨隘债馒耙数梯妇袄敷袁黍掖铣蛋臆千腑骏忌冒鹅烈六逾碗蚀第4聚类分析与判别分析第4聚类分析与判别分析14.2 指定初始类中心的聚类方法例题P343w数据同上(数据同上(data14-01a):以四个四类成绩突出者的数据为初始):以四个四类成绩突出者的数据为初始聚类中心聚类中心(种子种子)进行聚类。类中心数据文件进行聚类。类中心数据文件data14-01b(但缺一

9、(但缺一列列Cluster_,不能直接使用,要修改),不能直接使用,要修改)。对运动员的分类(还是分。对运动员的分类(还是分为为4类)类)wAnalyzeClassifyK-MeansClusternVariables:x1,x2,x3nLabelCaseBy:nonNumberofCluster:4nCenter:Readinitialfrom:data14-01bnSave:Clustermembership和和DistancefromClusterCentern比较有用的结果(可将结果与前面没有初始类中心比较):比较有用的结果(可将结果与前面没有初始类中心比较):w聚类结果形成的最后四类

10、中心点聚类结果形成的最后四类中心点(FinalClusterCenters)w每类的观测量数目(每类的观测量数目(NumberofCasesineachCluster)w在数据文件中的两个新变量在数据文件中的两个新变量qc1_1(每个观测量最终被分配(每个观测量最终被分配到哪一类)和到哪一类)和qc1_2(观测量与所属(观测量与所属类中心点的距离)类中心点的距离)戎干昏泉谨凶舌肖泞写局蛛孜澡庶杠挞眷溉十愁腹翅宾慎拐骗护热麻因聊第4聚类分析与判别分析第4聚类分析与判别分析14.3 分层聚类(Hierarchical Cluster)w分层聚类方法:分层聚类方法:n分解法分解法:先视为一大类,再分

11、成几类先视为一大类,再分成几类n凝聚法凝聚法:先视每个为一类先视每个为一类,再合并为几大类再合并为几大类w可用于观测量可用于观测量(样本样本)聚类聚类(Q型型)和变量聚类和变量聚类(R型型)w一般分为两步(自动一般分为两步(自动,可从可从Paste的语句知道的语句知道,P359):):nProximities:先对数据进行的预处理:先对数据进行的预处理(标准化和计算距离等标准化和计算距离等)nCluster:然后进行聚类分析:然后进行聚类分析w两种统计图:树形图两种统计图:树形图(Dendrogram)和冰柱图和冰柱图(Icicle)w各类型数据的标准化、距离和相似性计算各类型数据的标准化、距

12、离和相似性计算P348-354n定距变量、分类变量、二值变量定距变量、分类变量、二值变量n标准化方法标准化方法p353:ZScores、Range-1to1、Range0to1等等夸屁滩仇腐甸孺咒撒奋迭慕溺橱沫牲费檀氰癣积置久划轧眠涸黄腹弃幢建第4聚类分析与判别分析第4聚类分析与判别分析14.3.4 用分层聚类法进行观测量聚类实例P358w对对20种啤酒进行分类种啤酒进行分类(data14-02),变量包括:变量包括:Beername(啤酒名称啤酒名称)、calorie(热量热量)、sodium(钠含量钠含量)、alcohol(酒精含量酒精含量)、cost(价格价格)wAnalyzeClass

13、ifyHierarchicalCluster:nVariables:calorie,sodium,alcohol,cost成分和价格成分和价格nLabelCaseBy:BeernamenCluster:Case,Q聚类聚类nDisplay:选中选中Statistics,单击,单击StatisticswAgglomeration Schedule Agglomeration Schedule 凝聚状态表凝聚状态表wProximity matrixProximity matrix:距离矩阵:距离矩阵wCluster membershipCluster membership:Single solut

14、ionSingle solution:4 4 显示分为显示分为4 4类时,各观测量类时,各观测量所属的类所属的类nMethod:Cluster(FurthestNeighbor),Measure-Interval(SquaredEuclideandistance),TransformValue(Range0-1/Byvariable(值值-最小值最小值)/极差极差)nPlots:(Dendrogram)Icicle(Specifiedrangeofcluster,Start-1,Stop-4,by-1),Orientation(Vertical纵向作图纵向作图)nSave:ClusterMem

15、bership(Singlesolution4)n比较有用的结果:根据需要进行分类,在数据文件中的分类新变量比较有用的结果:根据需要进行分类,在数据文件中的分类新变量clu4_1等等旱寞诲靖酗盛枯哩怔扮跨竹晾物忌璃峙淆榷呜卜纠登奠撵侮霄幸哼铁紫彰第4聚类分析与判别分析第4聚类分析与判别分析14.3.5 用分层聚类法进行变量聚类w变量聚类,是一种降维的方法,用于在变量聚类,是一种降维的方法,用于在变量众多时寻找有代表性的变量,以便变量众多时寻找有代表性的变量,以便在用少量、有代表性的变量代替大变量在用少量、有代表性的变量代替大变量集时,损失信息很少。集时,损失信息很少。w与进行观测量聚类雷同,不

16、同点在于:与进行观测量聚类雷同,不同点在于:w选择选择Variable而非而非CasewSave选项失效,不建立的新变量选项失效,不建立的新变量镭雹宜落啡水扣踏跟叫瘦户坪旺撵扔箭赵粳咋渐敲膏递锗危飞惕积磷绦放第4聚类分析与判别分析第4聚类分析与判别分析14.3.6 变量聚类实例1 P366w上面啤酒分类问题上面啤酒分类问题data14-02。wAnalyzeClassifyHierarchicalCluster:nVariables:calorie,sodium,alcohol,cost成分和价格成分和价格nCluster:Variable,R聚类聚类nMethod:wClusterMetho

17、d:FurthestNeighborwMeasure-Interval:PearsonCorrelationwTransformValues:ZScore(ByVariable)nPlots:Dendrogram树型图树型图nStatistics:Proximity matrixProximity matrix:相关矩阵:相关矩阵n比较有用的结果:根据相关矩阵和树型图,可知比较有用的结果:根据相关矩阵和树型图,可知calorie(热量热量)和和alcohol(酒酒精含量精含量)的相关系数最大,首先聚为一类。从整体上看,聚为三类是比较好的的相关系数最大,首先聚为一类。从整体上看,聚为三类是比较好

18、的结果。至于热量和酒精含量选择哪个作为典型指标代替原来的两个变量,可结果。至于热量和酒精含量选择哪个作为典型指标代替原来的两个变量,可以根据专业知识或测度的难易程度决定。以根据专业知识或测度的难易程度决定。巫贡连囚教纹短呻揍偷剿民花检嫌显扶攫颇平嘿琳层剐肮逝收旨撑勇虚措第4聚类分析与判别分析第4聚类分析与判别分析14.3.6 变量聚类实例2 P368w有有10个测试项目,分别用变量个测试项目,分别用变量X1-X10表示,表示,50名学生参加测试。想从名学生参加测试。想从10个变量中选择几个变量中选择几个典型指标。个典型指标。data14-03wAnalyzeClassifyHierarchic

19、alCluster:nVariables:X1-X10nCluster:Variable,R聚类聚类nMethod:wClusterMethod:FurthestNeighborwMeasure-Interval:PearsonCorrelationnPlots:Dendrogram树型图树型图nStatistics:Proximity matrixProximity matrix相关矩阵相关矩阵n比较有用的结果:可以从树型图中看出聚类过程。具体聚为几类最为合理,比较有用的结果:可以从树型图中看出聚类过程。具体聚为几类最为合理,根据专业知识来定。而每类中的典型指标的选择,可用根据专业知识来定。

20、而每类中的典型指标的选择,可用p370的相关指数公式的相关指数公式的计算,然后比较类中各个变量间的相关指数,哪个大,就选哪个变量作为的计算,然后比较类中各个变量间的相关指数,哪个大,就选哪个变量作为此类的代表变量。此类的代表变量。硕父畴官渡皱兵兄鸯醒悠榆支伪么眯密绎摸赖宝狗榷函强蘑肿曰街唬抱代第4聚类分析与判别分析第4聚类分析与判别分析14.4 判别分析P374w判别分析的概念:是根据观测到的若干变量值,判断研判别分析的概念:是根据观测到的若干变量值,判断研究对象如何分类的方法。究对象如何分类的方法。w要先建立判别函数要先建立判别函数Y=a1x1+a2x2+.anxn,其中,其中:Y为为判别分

21、数判别分数(判别值判别值),x1x2.xn为反映研究对象特征的变为反映研究对象特征的变量,量,a1a2.an为系数为系数wSPSS对于分为对于分为m类的研究对象,建立类的研究对象,建立m个线性判别函个线性判别函数。对于每个个体进行判别时,把观测量的各变量值代数。对于每个个体进行判别时,把观测量的各变量值代入判别函数,得出判别分数,从而确定该个体属于哪一入判别函数,得出判别分数,从而确定该个体属于哪一类,或计算属于各类的概率,从而判别该个体属于哪一类,或计算属于各类的概率,从而判别该个体属于哪一类。还建立标准化和未标准化的典则判别函数。类。还建立标准化和未标准化的典则判别函数。w具体见下面具体见

22、下面吴喜之教授有关判别分析判别分析的讲义挟哑税狮昂钝缠洋胆帮藏津话鼓拭金掖屁彦贞班傍花堂抵淋寐降宵匆约垒第4聚类分析与判别分析第4聚类分析与判别分析补充:补充:聚类分析与判别分析w以下的讲义是吴喜之教授有关聚聚类类分分析析与与判判别别分分析析的讲义,我觉得比书上讲得清楚。w先是聚类分析一章先是聚类分析一章w再是判别分析一章再是判别分析一章坛臆肌血竭涤踞思漫寸剔沧屠逢拄坏款砌腥擒钞铬扮束桶捡歪师醇育笑邓第4聚类分析与判别分析第4聚类分析与判别分析精闯儡在域求阀主条勉绢墅疏祝狱恿弘匀咽骤笆侗田滨溅钾栓揭廉胚审亡第4聚类分析与判别分析第4聚类分析与判别分析聚类分析聚类分析决翟惦氓牢首帘讫矢察巧裸缎弦

23、内校伴莫全轩撕鹿皑鳃眺甲卓淫辽扣苞碾第4聚类分析与判别分析第4聚类分析与判别分析分类分类w俗语说,物以类聚、人以群分。俗语说,物以类聚、人以群分。w但什么是分类的根据呢?但什么是分类的根据呢?w比如,要想把中国的县分成若干类,就有很比如,要想把中国的县分成若干类,就有很多种分类法;多种分类法;w可以按照自然条件来分,可以按照自然条件来分,w比如考虑降水、土地、日照、湿度等各方面;比如考虑降水、土地、日照、湿度等各方面;w也可以考虑收入、教育水准、医疗条件、基也可以考虑收入、教育水准、医疗条件、基础设施等指标;础设施等指标;w既可以用某一项来分类,也可以同时考虑多既可以用某一项来分类,也可以同时

24、考虑多项指标来分类。项指标来分类。受沁商驹连淳执拴语匈挤边幼时筒斟瓦悄您桓盆刁刚侄图桶调蒙撒围谐懈第4聚类分析与判别分析第4聚类分析与判别分析聚类分析聚类分析w对对于于一一个个数数据据,人人们们既既可可以以对对变变量量(指指标标)进进行行分分类类(相相当当于于对对数数据据中中的的列列分分类类),也也可可以以对对观观测测值值(事事件件,样样品品)来来分分类类(相相当当于于对对数数据据中的行分类)。中的行分类)。w比比如如学学生生成成绩绩数数据据就就可可以以对对学学生生按按照照理理科科或或文文科成绩(或者综合考虑各科成绩)分类,科成绩(或者综合考虑各科成绩)分类,w当当然然,并并不不一一定定事事先

25、先假假定定有有多多少少类类,完完全全可可以以按照数据本身的规律来分类。按照数据本身的规律来分类。w本本章章要要介介绍绍的的分分类类的的方方法法称称为为聚聚类类分分析析(clusteranalysis)。对对变变量量的的聚聚类类称称为为R型型聚聚类类,而而对对观观测测值值聚聚类类称称为为Q型型聚聚类类。这这两两种聚类在数学上是对称的,没有什么不同。种聚类在数学上是对称的,没有什么不同。放平冉区耪苍朝晾壬潦妈穷钒呜范侣挣孙总壬天韶淫剿律旅文先绣凳毗尉第4聚类分析与判别分析第4聚类分析与判别分析饮料数据(饮料数据(drink.sav)w16种饮料的热量、咖啡因、钠及价格四种变量 粹瘸纶进玄娃叠址芽寸

26、唯钦春惫疟凿笨冒江醉秤畦虱豁昔鹊隐脾触巢迁寇第4聚类分析与判别分析第4聚类分析与判别分析如何度量远近如何度量远近?w如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。w如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。w三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。 场褥撵逾脊实娘渣执幂漆靴瓮布表虎跌瘦盼见昨盂嚼煤惮该晴睬墩堡唾市第4聚类分析与判别分析第4聚类

27、分析与判别分析两个距离概念两个距离概念w按按照照远远近近程程度度来来聚聚类类需需要要明明确确两两个个概概念念:一一个个是是点点和和点点之间之间的距离,一个是的距离,一个是类和类之间类和类之间的距离。的距离。w点点间间距距离离有有很很多多定定义义方方式式。最最简简单单的的是是歐歐氏氏距距离离,还还有有其他的距离。其他的距离。w当当然然还还有有一一些些和和距距离离相相反反但但起起同同样样作作用用的的概概念念,比比如如相相似性等,两点越相似度越大,就相当于距离越短。似性等,两点越相似度越大,就相当于距离越短。w由由一一个个点点组组成成的的类类是是最最基基本本的的类类;如如果果每每一一类类都都由由一一

28、个个点点组组成成,那那么么点点间间的的距距离离就就是是类类间间距距离离。但但是是如如果果某某一一类包含不止一个点,那么就要确定类间距离,类包含不止一个点,那么就要确定类间距离,w类类间间距距离离是是基基于于点点间间距距离离定定义义的的:比比如如两两类类之之间间最最近近点点之之间间的的距距离离可可以以作作为为这这两两类类之之间间的的距距离离,也也可可以以用用两两类类中中最最远远点点之之间间的的距距离离作作为为这这两两类类之之间间的的距距离离;当当然然也也可可以以用用各各类类的的中中心心之之间间的的距距离离来来作作为为类类间间距距离离。在在计计算算时时,各各种种点点间间距距离离和和类类间间距距离离

29、的的选选择择是是通通过过统统计计软软件件的的选选项项实现的。不同的选择的结果会不同,但一般不会差太多。实现的。不同的选择的结果会不同,但一般不会差太多。综操豆廖砸蔬隙倘蛛恩泅疗夜命梁古号舍乎大隋娄称萨眼产铃鸳膏王贤避第4聚类分析与判别分析第4聚类分析与判别分析向量向量x=(x1,xp)与与y=(y1,yp)之间的距离或相似系数之间的距离或相似系数:欧氏距离欧氏距离:Euclidean平方欧氏距离平方欧氏距离:Squared Euclidean夹角余弦夹角余弦(相似系数相似系数1) :cosinePearson correlation(相似系数相似系数2):Chebychev: Maxi|xi-

30、yi|Block(绝对距离绝对距离): S Si|xi-yi|Minkowski:当变量的测量值相差悬殊时当变量的测量值相差悬殊时,要先进行要先进行标准化标准化. 如如R为极差为极差, s 为标准差为标准差, 则则标准化的数据为每个观测值减去均值标准化的数据为每个观测值减去均值后再除以后再除以R或或s. 当观测值大于当观测值大于0时时, 有有人采用人采用Lance和和Williams的距离的距离还狼扦锭嘶贵聊纪试殿富找弥仑洞炒孙物撞届慢喊盲绅抗苟降溃简闸侵酝第4聚类分析与判别分析第4聚类分析与判别分析类类Gp与类与类Gq之间的距离之间的距离Dpq(d(xi,xj)表示点表示点xiGp和和xjG

31、q之间的距离之间的距离)最短距离法最短距离法:最长距离法最长距离法:重心法重心法:离差平方和离差平方和:(Wald)类平均法类平均法:(中间距离中间距离, 可变平均法可变平均法,可变法等可参考各可变法等可参考各书书).在用欧氏距离时在用欧氏距离时, 有统一的递推公式有统一的递推公式(假设假设Gr是从是从Gp和和Gq合并而来合并而来):伐焚韧滤咐径伴笔遮个烛姨铃沫嚎隔踌兹眩滚想炳也罢邢滁峻木跺遏至敷第4聚类分析与判别分析第4聚类分析与判别分析Lance和和Williams给出给出(对欧氏距离对欧氏距离)统一统一递推递推公式公式:D2(k,r)=a apD2(k,p)+a aqD2(k,q)+b

32、bD2(p,q) +g g|D2(k,p)-D2(k,q)|前面方法的递推公式可选择参数而得前面方法的递推公式可选择参数而得:方法方法a ai (i=p,q) b b g g最短距离最短距离 0-1/2最长距离最长距离 01/2重心重心 ni/nr -a apa aq 0类平均类平均 ni/nr 0 0 离差平方和离差平方和(ni+nk)/ (nr+nk) -nk/ (nr+nk) 0 中间距离中间距离 1/2 -1/4 0 可变法可变法 (1-b b)/2 b b(1) 0 可变平均可变平均 (1- b b) ni/nr b b(1) 0 次荡馅泅拷当洋确铁奸焊末秽含伊帐钳幽岔未影千铱录殆盯

33、比闰芝垣酵玻第4聚类分析与判别分析第4聚类分析与判别分析有了上面的点间距离和类间有了上面的点间距离和类间距离的概念,就可以介绍聚距离的概念,就可以介绍聚类的方法了。这里介绍两个类的方法了。这里介绍两个简单的方法。简单的方法。踞氢胺扶藩萤仕裹更蚌辐辣拧馈舆胰粗滩烷或喂样庞感轩悦庐疑呵二驯把第4聚类分析与判别分析第4聚类分析与判别分析事先要确定分多少类:事先要确定分多少类:k-均值聚类均值聚类w前前面面说说过过,聚聚类类可可以以走走着着瞧瞧,不不一一定定事事先先确确定定有有多多少少类类;但但是是这这里里的的k-均均值值聚聚类类(k-meanscluster,也也叫叫快快速速聚聚类类,quickcl

34、uster)却却要要求求你你先先说说好好要要分分多多少少类类。看看起起来来有些主观,是吧!有些主观,是吧!w假假定定你你说说分分3类类,这这个个方方法法还还进进一一步步要要求求你你事事先先确确定定3个个点点为为“聚聚类类种种子子”(SPSS软软件件自自动动为为你你选选种种子子);也也就就是是说说,把这把这3个点作为三类中每一类的基石。个点作为三类中每一类的基石。w然然后后,根根据据和和这这三三个个点点的的距距离离远远近近,把把所所有有点点分分成成三三类类。再再把把这这三三类类的的中中心心(均均值值)作作为为新新的的基基石石或或种种子子(原原来来的的“种子种子”就没用了),重新按照距离分类。就没

35、用了),重新按照距离分类。w如如此此叠叠代代下下去去,直直到到达达到到停停止止叠叠代代的的要要求求(比比如如,各各类类最最后后变变化化不不大大了了,或或者者叠叠代代次次数数太太多多了了)。显显然然,前前面面的的聚聚类类种种子子的的选选择择并并不不必必太太认认真真,它它们们很很可可能能最最后后还还会会分分到到同同一类中呢。下面用饮料例的数据来做一类中呢。下面用饮料例的数据来做k-均值聚类。均值聚类。固专亭股水恩惩绳霄氟涡蛀袒钥燃弊咕台骗侮掏司佐届媳各抓五蘑咎吊信第4聚类分析与判别分析第4聚类分析与判别分析假定要把这假定要把这1616种饮料分成种饮料分成3 3类。利用类。利用SPSSSPSS,只,

36、只叠代了三次就达到目标了(计算机选的种子还叠代了三次就达到目标了(计算机选的种子还可以)。这样就可以得到最后的三类的中心以可以)。这样就可以得到最后的三类的中心以及每类有多少点及每类有多少点 醋赎斡赁灯辜熊族斋攀倡浅讫朴渭暑杉盖涸备驮呜型泽辟蘑灸弧姿龟瞩择第4聚类分析与判别分析第4聚类分析与判别分析根根据据需需要要,可可以以输输出出哪哪些些点点分分在在一一起起。结结果果是是:第第一一类类为为饮饮料料1、10;第第二二类类为为饮饮料料2、4、8、11、12、13、14;第第三三类类为为剩剩下下的的饮饮料料3、5、6、7、9、15、16。稳梢林钠布淘浸卡斥寞宪鹿撞离己伙肾哑涯撂传枝淑省朝毯挎超帜哦

37、躲踌第4聚类分析与判别分析第4聚类分析与判别分析SPSSSPSS实现实现( (聚类分析聚类分析) )wK-均值聚类均值聚类w以以数数据据drink.sav为为例例,在在SPSS中中选选择择Analyze Classify K-Menas Cluster,w然然后后把把calorie(热热量量)、caffeine(咖咖啡啡因因)、sodium(钠钠)、price(价价格格)选选入入Variables,w在在NumberofClusters处处选选择择3(想想要要分分的类数),的类数),w如如果果想想要要知知道道哪哪种种饮饮料料分分到到哪哪类类,则则选选Save,再选,再选ClusterMembe

38、rship等。等。w注注意意k-均均值值聚聚类类只只能能做做Q型型聚聚类类,如如要要做做R型聚类,需要把数据阵进行转置。型聚类,需要把数据阵进行转置。绑陨谍恒攻策似歉牌摊啤刘彦了训黄隘彪讯耀誉绷饲猎匣髓傍耿痢侨澎窑第4聚类分析与判别分析第4聚类分析与判别分析事先不用确定分多少类:分层聚类事先不用确定分多少类:分层聚类w另另一一种种聚聚类类称称为为分分层层聚聚类类或或系系统统聚聚类类(hierarchicalcluster)。开开始始时时,有多少点就是多少类。有多少点就是多少类。w它它第第一一步步先先把把最最近近的的两两类类(点点)合合并并成成一一类类,然然后后再再把把剩剩下下的的最最近近的的两

39、两类类合并成一类;合并成一类;w这这样样下下去去,每每次次都都少少一一类类,直直到到最最后后只只有有一一大大类类为为止止。显显然然,越越是是后后来来合合并并的的类类,距距离离就就越越远远。再再对对饮饮料料例例子子来实施分层聚类。来实施分层聚类。无梢倦揽抛褐专溉霍试庞咯预撅缮签叠扦西服用溉蔬甭媳递稻牡涸蔷磷双第4聚类分析与判别分析第4聚类分析与判别分析对于我们的数据,对于我们的数据,SPSSSPSS输出的树型图为输出的树型图为氨笼帽擅诉税键拦啊碧圾枕媚蔚剪偶霜老攻役拈滞衫约盗际哦效冠矛郎察第4聚类分析与判别分析第4聚类分析与判别分析聚类要注意的问题聚类要注意的问题w聚聚类类结结果果主主要要受受所

40、所选选择择的的变变量量影影响响。如如果果去去掉掉一一些些变变量量,或或者者增增加加一一些些变变量量,结结果果会会很很不同。不同。w相相比比之之下下,聚聚类类方方法法的的选选择择则则不不那那么么重重要要了了。因此,聚类之前一定要目标明确。因此,聚类之前一定要目标明确。w另另外外就就分分成成多多少少类类来来说说,也也要要有有道道理理。只只要要你你高高兴兴,从从分分层层聚聚类类的的计计算算机机结结果果可可以以得得到到任任何何可可能能数数量量的的类类。但但是是,聚聚类类的的目目的的是是要要使使各各类类距距离离尽尽可可能能的的远远,而而类类中中点点的的距距离离尽尽可可能能的的近近,而而且且分分类类结结果

41、果还还要要有有令令人人信信服服的的解释。这一点就不是数学可以解决的了。解释。这一点就不是数学可以解决的了。茨玫气胞等找资矾梦滁篇嗡涣黑奇釜坍竟厌痛悸滑患抽晾慎建耿趣沾是狼第4聚类分析与判别分析第4聚类分析与判别分析SPSSSPSS实现实现( (聚类分析聚类分析) )w分层聚类w对 drink.sav数 据 在 SPSS中 选 择 AnalyzeClassifyHierarchical Cluster, w然后把calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(价格)选入Variables, w在Cluster选Cases(这是Q型聚类:对观测值聚类),如果要对

42、变量聚类(R型聚类)则选Variables, w为了画出树状图,选Plots,再点Dendrogram等。 革酗戴茧汪实熊二何反臣诬岳伸我碰蒸运酶室瘪端愧庚峪粘钩荐嘲臻盒倍第4聚类分析与判别分析第4聚类分析与判别分析啤酒成分和价格数据(啤酒成分和价格数据(data14-02)啤酒名啤酒名热量热量钠含量钠含量酒精酒精价格价格Budweiser 144.00 19.00 4.70 .43 Schlitz 181.00 19.00 4.90 .43 Ionenbrau 157.00 15.00 4.90 .48 Kronensourc 170.00 7.00 5.20 .73 Heineken 15

43、2.00 11.00 5.00 .77 Old-milnaukee145.00 23.00 4.60 .26 Aucsberger 175.00 24.00 5.50 .40 Strchs-bohemi149.00 27.00 4.70 .42 Miller-lite 99.00 10.00 4.30 .43 Sudeiser-lich113.00 6.00 3.70 .44 Coors 140.00 16.00 4.60 .44 Coorslicht 102.00 15.00 4.10 .46 Michelos-lich135.00 11.00 4.20 .50 Secrs 150.00 1

44、9.00 4.70 .76 Kkirin 149.00 6.00 5.00 .79 Pabst-extra-l 68.00 15.00 2.30 .36 Hamms 136.00 19.00 4.40 .43 Heilemans-old144.00 24.00 4.90 .43 Olympia-gold- 72.00 6.00 2.90 .46 Schlite-light 97.00 7.00 4.20 .47剧忽蹄蘑修贩唇铬缔灶抢绥洽揪减寡漾赤图槐励孔哀祥证邵浅剩惨解匠眺第4聚类分析与判别分析第4聚类分析与判别分析精闯儡在域求阀主条勉绢墅疏祝狱恿弘匀咽骤笆侗田滨溅钾栓揭廉胚审亡第4聚类分析与

45、判别分析第4聚类分析与判别分析StatisticsClassify Hierarchical Cluster:Variables:啤酒名和成分价格等Cluster(Case, Q型聚类) Display: (Statistics)(Agglomeration Schedule凝聚状态表), (Proximity matrix), Cluster membership(Single solution, 4)Method: Cluster (Furthest Neighbor), Measure-Interval (Squared Euclidean distance), Transform Va

46、lue (Range 0-1/By variable (值-最小值)/极差)Plots: (Dendrogram) Icicle(Specified range of cluster, Start-1,Stop-4, by-1), Orientation (Vertical)Save: Cluster Membership(Single solution 4)肋腊赣讹剧垒知脱纲竞痕折户鹊肿讯固读售迫禹癸稀阐享面焉赎完爷狰译第4聚类分析与判别分析第4聚类分析与判别分析啤酒例子啤酒例子下表下表(Proximity matrix)中行列交叉点中行列交叉点为两种啤酒之间各变量的欧氏距离平方为两种啤酒之

47、间各变量的欧氏距离平方和和员老张邑冰渴咯鸭宗怜穿侩吓润吻铭账咱侵迸拄缩倍垒肿痘勉祟羡淘淆衍第4聚类分析与判别分析第4聚类分析与判别分析凝聚过程凝聚过程:Coefficients为不相似系数为不相似系数,由于是欧氏距离由于是欧氏距离,小的先合并小的先合并.率明洞躺去返肯沃作员捍路为邀蚁赛宝临臀络义仕耐兰耶旗侧糠追锭剧片第4聚类分析与判别分析第4聚类分析与判别分析分为四分为四类的聚类的聚类结果类结果恋独舶研陌灰毗碳嗽冲侦悦顺任狡楷对敖缉光鸡减攫听篷宽暑奋检蜀屏丢第4聚类分析与判别分析第4聚类分析与判别分析冰柱图冰柱图(icicle)媳君灼渍计荔谩钻蜜胀罢铝灸淄聊蝶哟闯娩矮异墓谰到蓄均库扯蹋少料而第

48、4聚类分析与判别分析第4聚类分析与判别分析聚类树型图聚类树型图核谆屿介蕊却泊榨贯速按撇呆锰城四芍苞拣馈秘贾臭缎匙剧姓豫屿贰俭舜第4聚类分析与判别分析第4聚类分析与判别分析学生测验数据(学生测验数据(data14-03)50个学生,个学生,X1-X10个测验项目个测验项目要对这要对这10个变量进行变量聚类个变量进行变量聚类( R 型聚类),过程和型聚类),过程和Q型聚型聚类(观测量聚类,对类(观测量聚类,对cases)一样一样抖莆庚推会瓷印扯听垦兵迁竖残势速垣莉监华邀芦廖遏铁豢寞抖氏迅缘腕第4聚类分析与判别分析第4聚类分析与判别分析精闯儡在域求阀主条勉绢墅疏祝狱恿弘匀咽骤笆侗田滨溅钾栓揭廉胚审亡

49、第4聚类分析与判别分析第4聚类分析与判别分析StatisticsClassify Hierarchical Cluster:Variables:x1-x10Cluster(Variable, R型聚类) Display: (Statistics) (Proximity matrix), Cluster membership(Single solution, 2)Method: Cluster (Furthest Neighbor), Measure-Interval (Pearson correlation,用Pearson相关系数), Plots: Icicle(All Cluster) 孜

50、拈嵌预撕施绿杀习香疵磋植疙谣粉关带啄晃备煞莽尾肄妈粒诬犁星蔼奋第4聚类分析与判别分析第4聚类分析与判别分析学生测验例子学生测验例子下表下表(Proximity matrix)中行列交叉点为中行列交叉点为两个变量之间变量的欧氏距离平方和两个变量之间变量的欧氏距离平方和偿荫姐菲揖蜀舔呼溃殖侨反形亩囚馒病凳个询娄荧诀栽螟剥谍边疫彬符旋第4聚类分析与判别分析第4聚类分析与判别分析分为两类的聚类结果分为两类的聚类结果焰箱田讼缝陀浓阴泣无游熄治窃引窒滚黑党休剐新寡甸挟坏赴陈帚畏弓沙第4聚类分析与判别分析第4聚类分析与判别分析冰柱图冰柱图(icicle)迅慧蟹厦但琅噬阉绢湾绥哗绪嗜磷阔亿凝感种诀勃毋搜医尤栗

51、抹殖恤坡罩第4聚类分析与判别分析第4聚类分析与判别分析精闯儡在域求阀主条勉绢墅疏祝狱恿弘匀咽骤笆侗田滨溅钾栓揭廉胚审亡第4聚类分析与判别分析第4聚类分析与判别分析判别分析碳摩择桂野捐瞬姜巩骗她厅成埃帅啊淄克粉取偿品盆狸毅嗜须渝怯治殉鹅第4聚类分析与判别分析第4聚类分析与判别分析判别判别 w有一些昆虫的性别很难看出,只有通过解剖才能够判别;w但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。w这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀

52、死昆虫来进行判别了。 睹尾象再庞草劳晾倍洱雷反绒疫尸扼予嘲状座笑雍投极耻邻北孔墩飘案杖第4聚类分析与判别分析第4聚类分析与判别分析判别分析判别分析(discriminantanalysis)w这就是本章要讲的是判别分析。w判别分析和前面的聚类分析有什么不同呢?w主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。w而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。颈芜亢筋拱妨锁门捐疲苏雁鞠笆署滓此釉萝填慧倔抓佣潮戏索挽渐减乎镀第4聚类分析与判别分析第4聚类分析与判别

53、分析判别分析例子判别分析例子w数据disc.sav:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。w这些指标包括:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等等。w另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。w我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。w该数据有90个企业(90

54、个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。粉狗摈凿辨挺耕叹乳就叉页泰溉巾婆曼嗣休矾骇根夺扰烬幌赔绞违霹绦慷第4聚类分析与判别分析第4聚类分析与判别分析Disc.savDisc.sav数据数据 仿榷毫狞拼羹砒阿妙沉摩谚晒辱锤羚它雾衬逮驴岳吕宇把迈坤态娘恰顽铱第4聚类分析与判别分析第4聚类分析与判别分析根据距离的判别(不用投影)根据距离的判别(不用投影) wDisc.sav数据有8个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别。w因此每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据有90个点,w由

55、于已经知道所有点的类别了,所以可以求得每个类型的中心。这样只要定义了如何计算距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。w显然,最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的Mahalanobis距离。用来比较到各个中心距离的数学函数称为判别函数(discriminant function).这种根据远近判别的方法,原理简单,直观易懂。瓮贾洞斋拴页敌唤倦拓显睫狠桓汐哄沦掐笨薯橇防缎住偶渗盎牡遁挥脏阶第4聚类分析与判别分析第4聚类分析与判别分析FisherFisher判别法判别法(先进行投影先进行投影)w所谓所谓Fisher判别法,就是一种先投影的方法。

56、判别法,就是一种先投影的方法。w考虑只有两个(预测)变量的判别分析问题。考虑只有两个(预测)变量的判别分析问题。w假假定定这这里里只只有有两两类类。数数据据中中的的每每个个观观测测值值是是二二维维空空间间的的一个点。见图(下一张幻灯片)。一个点。见图(下一张幻灯片)。w这这里里只只有有两两种种已已知知类类型型的的训训练练样样本本。其其中中一一类类有有38个个点点(用用“o”表表示示),另另一一类类有有44个个点点(用用“*”表表示示)。按按照照原原来来的的变变量量(横横坐坐标标和和纵纵坐坐标标),很很难难将将这这两两种种点分开。点分开。w于于是是就就寻寻找找一一个个方方向向,也也就就是是图图上

57、上的的虚虚线线方方向向,沿沿着着这这个个方方向向朝朝和和这这个个虚虚线线垂垂直直的的一一条条直直线线进进行行投投影影会会使使得得这这两两类类分分得得最最清清楚楚。可可以以看看出出,如如果果向向其其他他方方向向投投影影,判判别效果不会比这个好。别效果不会比这个好。w有有了了投投影影之之后后,再再用用前前面面讲讲到到的的距距离离远远近近的的方方法法来来得得到到判判别别准准则则。这这种种首首先先进进行行投投影影的的判判别别方方法法就就是是Fisher判别法。判别法。旬驮战海调兹峻瞄驶滔驴滩沉雅爆喻摆摹紊卜臂熄花爷狄臆诛葱琳仑麦祝第4聚类分析与判别分析第4聚类分析与判别分析报伶梦岸柑吗跑誉冕剐构植摸谴

58、滞席乳泊虱兽泡老亢朱侍搓上翔捶瓜噪烘第4聚类分析与判别分析第4聚类分析与判别分析逐步判别法逐步判别法(仅仅是在前面的方仅仅是在前面的方法中加入变量选择的功能法中加入变量选择的功能)w有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。也就是,一边判别,一边引进判别能力最强的变量,w这个过程可以有进有出。一个变量的判别能力的判断方法有很多种,主要利用各种检验,例如Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或 The Sum of Unexplained Variatio

59、ns等检验。其细节这里就不赘述了;这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。私歌漆搅柏字阉械遍判峻沫谆城影湾苦效泊裹撮违谋赃粒颅鸿酷熄位蛆吗第4聚类分析与判别分析第4聚类分析与判别分析Disc.sav例子例子w利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp),还剩下七个变量is,se,sa,prr, ms, msr, cs, 得 到 两 个 典 则 判 别 函 数(Canonical Discriminant Function Coefficients):n0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023

60、MSR-0.385CS-3.1660.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.166n0.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.3840.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384 这这两两个个函函数数实实际际上上是是由由Fisher判判别别法法得得到到的的向向两两个个方方向向的的投投影影。这这两两个个典典则则判判别别函函数数的的系系数数是下面的是下面的SPSS输

61、出得到的:输出得到的: 迅副涉俄胖控刮软咳竹粟密滑稽龙勘槛腹宙扁肄青娟陆满颖众抖巫已鲁抠第4聚类分析与判别分析第4聚类分析与判别分析Disc.sav例子例子w根据这两个函数,从任何一个观测值(每个观测值都有7个变量值)都可以算出两个数。把这两个数目当成该观测值的坐标,这样数据中的150个观测值就是二维平面上的150个点。它们的点图在下面图中。 反痪幻臆炕驻办貉庶奈渤羔吸媚倚灌箕冒卯豹彻厢色更悸椅唆毗字平彝昔第4聚类分析与判别分析第4聚类分析与判别分析本危缉把涨侩酪草窝惭社酌廖孵清港敏删颈啥搅藕蔫翘碰怕栏辜济秋袁缘第4聚类分析与判别分析第4聚类分析与判别分析Disc.sav例子例子w从上图可以看

62、出,第一个投影(相应于来自于第一个典则判别函数横坐标值)已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。SPSS的一个输出就给出了这些判别函数(投影)的重要程度:前前面面说说过过,投投影影的的重重要要性性是是和和特特征征值值的的贡贡献献率率有有关关。该该表表说说明明第第一一个个函函数数的的贡贡献献率率已已经经是是99%了了,而而第第二二个个只只有有1%。当当然然,二二维维图图要要容容易易看看一一些些。投投影影之之后后,再再根根据据各各点的位置远近算出具体的判别公式(点的位置远近算出具体的判别公式(SPSS输出):输出):疯灰隅蛔翌督镐

63、俞糟踞夫阜闪坐琼级谰虫娄请塞秘躇迟悯沾畏笨匹佑途爪第4聚类分析与判别分析第4聚类分析与判别分析Disc.sav例子例子w具体的判别公式(SPSS输出),由一张分类函数表给出: 该该表表给给出出了了三三个个线线性性分分类类函函数数的的系系数数。把把每每个个观观测测点点带带入入三三个个函函数数,就就可可以以得得到到分分别别代代表表三三类类的的三三个个值值,哪哪个个值值最最大大,该该点点就就属属于于相相应应的的那那一一类类。当当然然,用用不不着着自自己己去去算算,计计算算机机软软件件的的选选项项可可以以把把这这些些训训练练数数据据的的每每一一个个点点按按照照这这里里的的分分类类法法分分到到某某一一类

64、类。当当然然,我我们们一一开开始始就就知知道道这这些些训训练练数数据据的的各各个个观观测测值值的的归归属属,但但即即使使是是这这些些训训练练样样本本的的观观测测值值(企企业业)按按照照这这里里推推导导出出的的分分类类函函数数来来分分类类,也也不不一一定全都能够正确划分。定全都能够正确划分。 涅吁莎葛抵车扣躲浩免荧虏昏啡筏奔灼钞脖挚拴渤额狰影毫屑菲免润朱湿第4聚类分析与判别分析第4聚类分析与判别分析Disc.sav例子例子w下面就是对我们的训练样本的分类结果(SPSS):抨国拧施涟半焙八懈蘑吴冕灌事屁倔利誓驱眶谋暂慌敬税插贿斤徽舔浇怕第4聚类分析与判别分析第4聚类分析与判别分析误判和正确判别率误

65、判和正确判别率w从这个表来看,我们的分类能够从这个表来看,我们的分类能够100%地把训地把训练数据的每一个观测值分到其本来的类。练数据的每一个观测值分到其本来的类。w该表分成两部分;上面一半(该表分成两部分;上面一半(Original)是用)是用从全部数据得到的判别函数来判断每一个点的从全部数据得到的判别函数来判断每一个点的结果(前面三行为判断结果的数目,而后三行结果(前面三行为判断结果的数目,而后三行为相应的百分比)。为相应的百分比)。w下面一半(下面一半(Crossvalidated)是对每一个观)是对每一个观测值,都用缺少该观测的全部数据得到的判别测值,都用缺少该观测的全部数据得到的判别

66、函数来判断的结果。函数来判断的结果。w这里的判别结果是这里的判别结果是100%判别正确,但一般并判别正确,但一般并不一定。不一定。鞋卡容绎臆呢巷狂继势臂晴娠常谎瞥稍寻盎趣坏肄舵碧恶乞涩讲跑灵起评第4聚类分析与判别分析第4聚类分析与判别分析Disc.sav例子例子w如果就用这个数据,但不用所有的变量,而只用4个变量进行判别:企业规模(is)、服务(se)、雇员工资比例(sa)、资金周转速度(cs)。结果的图形和判别的正确与否就不一样了。下图为两个典则判别函数导出的150个企业的二维点图。它不如前面的图那么容易分清楚了 原先的图原先的图步辗胺绚臆挫矽酋羡胰轴埔馆膳扬率视邱响瞒靶剥把霖痹柱篆九腿懊人

67、福第4聚类分析与判别分析第4聚类分析与判别分析Disc.sav例子例子w下面是基于4个变量时分类结果表: 这这个个表表的的结结果果是是有有87个个点点(96.7%)得得到到正正确确划划分分,有有3个个点点被被错错误误判判别别;其其中中第第二二类类有有两两个个被被误误判判为为第第一一类类,有一个被误判为第三类。有一个被误判为第三类。多刀炬逮儿克酥你弗郊乙卵冻茨烯贾箭牙看菇笼悉亡贪越墩傣遁港帛儒法第4聚类分析与判别分析第4聚类分析与判别分析判别分析要注意什么判别分析要注意什么?w训练样本中必须有所有要判别的类型,分类必须训练样本中必须有所有要判别的类型,分类必须清楚,不能有混杂。清楚,不能有混杂。

68、w要选择好可能由于判别的预测变量。这是最重要要选择好可能由于判别的预测变量。这是最重要的一步。当然,在应用中,选择的余地不见得有的一步。当然,在应用中,选择的余地不见得有多大。多大。w要注意数据是否有不寻常的点或者模式存在。还要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的;这可以用单要看预测变量中是否有些不适宜的;这可以用单变量方差分析(变量方差分析(ANOVA)和相关分析来验证。)和相关分析来验证。w判别分析是为了正确地分类,但同时也要注意使判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较用尽可能少的预测变量来达到这个目的。使用较

69、少的变量意味着节省资源和易于对结果进行解释。少的变量意味着节省资源和易于对结果进行解释。阮垛捅健肖殷颓胃铭孪砧缕胁寸掸虽镶励巍伶织艇布屿翼蔬恒厄捐诱沧溢第4聚类分析与判别分析第4聚类分析与判别分析判别分析要注意什么?判别分析要注意什么?w在计算中需要看关于各个类的有关变量的均值是否显著在计算中需要看关于各个类的有关变量的均值是否显著不同的检验结果(在不同的检验结果(在SPSS选项中选择选项中选择WilksLambda、RaosV、TheSquaredMahalanobisDistance或或TheSumofUnexplainedVariations等检验的计算等检验的计算机输出),以确定是否分

70、类结果是仅仅由于随机因素。机输出),以确定是否分类结果是仅仅由于随机因素。w此外成员的权数(此外成员的权数(SPSS用用priorprobability,即,即“先先验概率验概率”,和贝叶斯统计的先验概率有区别)需要考虑;,和贝叶斯统计的先验概率有区别)需要考虑;一般来说,加权要按照各类观测值的多少,观测值少的一般来说,加权要按照各类观测值的多少,观测值少的就要按照比例多加权。就要按照比例多加权。w对于多个判别函数,要弄清各自的重要性。对于多个判别函数,要弄清各自的重要性。w注意训练样本的正确和错误分类率。研究被误分类的观注意训练样本的正确和错误分类率。研究被误分类的观测值,看是否可以找出原因

71、。测值,看是否可以找出原因。经偿嘴梦腻拈捌揭痪涌愧哩耪啤大伺箕眺佛小讲涤纺邀缆虹艘嚼刷蒙和据第4聚类分析与判别分析第4聚类分析与判别分析SPSS选项选项w打开打开disc.sav数据。然后点击数据。然后点击AnalyzeClassifyDiscriminant,w把把group放入放入GroupingVariable,再定义范围,即在,再定义范围,即在DefineRange输入输入13的范围。然后在的范围。然后在Independents输入所有想用输入所有想用的变量;但如果要用逐步判别,则不选的变量;但如果要用逐步判别,则不选Enterindependentstogether,而选择,而选择U

72、sestepwisemethod,w在方法(在方法(Method)中选挑选变量的准则(检验方法;默认值为)中选挑选变量的准则(检验方法;默认值为WilksLambda)。)。w为了输出为了输出Fisher分类函数的结果可以在分类函数的结果可以在Statistics中的中的FunctionCoefficient选选Fisher和和UnStandardized(点则判别函数系数)(点则判别函数系数) ,在,在Matrices中选择输出所需要的相关阵;中选择输出所需要的相关阵;w还可以在还可以在Classify中的中的Display选选summarytable,Leave-one-outclassi

73、fication;注意在;注意在Classify选项中默认的选项中默认的PriorProbability为为Allgroupsequal表示所有的类都平等对待,而表示所有的类都平等对待,而另一个选项为另一个选项为Computefromgroupsizes,即按照类的大小加,即按照类的大小加权。权。w在在Plots可选可选Combined-groups,Territorialmap等。等。爆芒饲绞敏状姻颖腾氰萨涕誓贡灸婉研忙语骸鳖弘怒玛悼瓦迂鲍楞揪矾超第4聚类分析与判别分析第4聚类分析与判别分析14.4.3 判别分析实例P379w鸢尾花数据鸢尾花数据(花瓣花瓣,花萼的长宽花萼的长宽)5个变量个变

74、量:花瓣长花瓣长(slen),花瓣宽花瓣宽(swid),花萼长花萼长(plen),花萼宽花萼宽(pwid),分类号分类号(1:Setosa,2:Versicolor,3:Virginica)(data14-04)董棵李后街完索挂允玻失址履食满洋铜汕酮拷瘪伎腋料蔑梨处篓动樱法颗第4聚类分析与判别分析第4聚类分析与判别分析精闯儡在域求阀主条勉绢墅疏祝狱恿弘匀咽骤笆侗田滨溅钾栓揭廉胚审亡第4聚类分析与判别分析第4聚类分析与判别分析StatisticsClassify Discriminant:Variables: independent (slen,swid,plen,pwid) Grouping(

75、spno) Define range(min-1,max-3) Classify: prior probability(All group equal) use covariance matrix (Within-groups) Plots (Combined-groups, Separate-groups, Territorial map) Display (Summary table)Statistics: Descriptive (Means) Function Coefficients (Fishers, Unstandardized) Matrix (Within-groups co

76、rrelation, Within-groups covariance, Separate-groups covariance, Total covariance) Save: (Predicted group membership, Discriminant Scores, Probability of group membership)万庇活享茬诅屋慷瞻誊譬梧试关噶贷馒渠孵皋藏柿尺揭芜尝捐艳趁益遣蠕第4聚类分析与判别分析第4聚类分析与判别分析鸢尾花数据鸢尾花数据(数据分析过程简明表数据分析过程简明表)散巾才堡枝汽廊叁搞杏韩氢厨宇碧搀做苔窖屡丧步敷灌悟鹏晶卵垒汰贸跋第4聚类分析与判别分析第4

77、聚类分析与判别分析鸢尾花数据鸢尾花数据(原始数据的描述原始数据的描述)扳资擞殊股哟布亩说舶毡啮拇舍辛邮闭枷娱状割束犯卢迪梁叼祁阀窒育郁第4聚类分析与判别分析第4聚类分析与判别分析鸢尾花数据鸢尾花数据(合并类内相关阵和协方差阵合并类内相关阵和协方差阵)潘断住谨桂肢淖凸脱沤咱即姿碱形降砧垮滁淡堆凹铀稼解文霖遵碟醚绦磋第4聚类分析与判别分析第4聚类分析与判别分析鸢尾花数据鸢尾花数据(总协方差阵总协方差阵)溺疯贰惰壳灯娶荚垛毛铁瘟衔黔论赁拦萎辉晾毗驻霖棘生健剥闭纂邹坤昏第4聚类分析与判别分析第4聚类分析与判别分析鸢尾花数据鸢尾花数据(特征值表特征值表)Eigenvalue:用于分析的前两个典则判别函数

78、的特用于分析的前两个典则判别函数的特征值征值,是组间平方和与组内平方和之比值是组间平方和与组内平方和之比值.最大特最大特征值与组均值最大的向量对应征值与组均值最大的向量对应,第二大特征值对应第二大特征值对应着次大的组均值向量着次大的组均值向量典则相关系数典则相关系数(canonicalcorrelation):是组间平是组间平方和与总平方和之比的平方根方和与总平方和之比的平方根.被平方的是由组间被平方的是由组间差异解释的变异总和的比差异解释的变异总和的比.滋卓贡很函清皱硬吠醚簧汕勾妒棋晕潭产躯姨算万澜雀针涅砰略邑搐邦灿第4聚类分析与判别分析第4聚类分析与判别分析鸢尾花数据鸢尾花数据(Wilks

79、Lambda统计量统计量)检验的零假设是各组变量均值相等检验的零假设是各组变量均值相等.Lambda接近接近0表示组均值不同表示组均值不同,接近接近1表示组均值没有不同表示组均值没有不同.Chi-square是是lambda的卡方转换的卡方转换,用于确定其用于确定其显著性显著性.供卞戍堑龋炎碎昨撒蔫庚狰涡础绎硫刹煽或渠附窖挣舀浅阔冀挤订织炎捐第4聚类分析与判别分析第4聚类分析与判别分析鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)标准化的典则判别标准化的典则判别函数系数函数系数(使用时使用时必须用标准化的自必须用标准化的自变量变量)躯招掂涉佳器扇醉剩肋览屏移恫陨钝罩拯至主裴详推清

80、倡捻垛靖控慑奶洋第4聚类分析与判别分析第4聚类分析与判别分析鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)典则判别函数系数典则判别函数系数均拽芒咏蚕村砰韧惺畴绽路羔悄潭扩仰离酪龚赋袜芹僳庄鸳兢郑面鸯烈丘第4聚类分析与判别分析第4聚类分析与判别分析鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)这是类均值这是类均值(重心重心)处的典则判别函数值处的典则判别函数值这是典则判别函数这是典则判别函数(前面两个函数前面两个函数)在类在类均值均值(重心重心)处的值处的值玻虞眷不贰清情寿柞空悸天峙监适舍弱戎挺翰窜颐碌龄掣邢担配姬它哪如第4聚类分析与判别分析第4聚类分析与判别分析鸢尾

81、花数据鸢尾花数据(用判别函数对观测量分类结果用判别函数对观测量分类结果)先验概率先验概率(没有给没有给)费歇判别函数系数费歇判别函数系数把自变量代入三个把自变量代入三个式子式子,哪个大归谁哪个大归谁.况粹订淫顺锣昧炬重侨僧咆爵亨拷隋矮籽村拧框轩乞果贴镑喜炊疽交巡婆第4聚类分析与判别分析第4聚类分析与判别分析 Territorial MapCanonical DiscriminantFunction 2 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 12.0 12 23 12 23 12 23 12 23 12 23

82、 12 23 8.0 12 23 12 23 12 23 12 23 12 23 12 23 4.0 12 23 12 23 12 23 12 23 12 23 12 23 * .0 * 12 23 12 * 23 12 23 12 23 12 23 12 23 -4.0 12 23 12 23 12 23 12 23 12 23 12 23 -8.0 12 23 12 23 12 23 12 23 12 23 12 23 -12.0 12 23 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 Canonical D

83、iscriminant Function 1Symbols used in territorial mapSymbol Group Label- - - 1 1 刚毛鸢尾花 2 2 变色鸢尾花 3 3 佛吉尼亚鸢尾花 * Indicates a group centroid鸢尾花数据鸢尾花数据Territory Map(区域图区域图)Canonical Discriminate Function 1VersusCanonical Discriminate Function 2三种三种鸢尾花鸢尾花的典则变量值的典则变量值把一个典则变量组成的坐把一个典则变量组成的坐标平面分成三个区域标平面分成三个

84、区域. *为为中心坐标中心坐标.腻拭眷啥必遍劫跋式稚昏诊拌纷抗洞既鲤蛤泅缄页读娱鸟梢弓磋项沮去殃第4聚类分析与判别分析第4聚类分析与判别分析李瞒繁魂踏葱隅宿仪骋绍直嫁才凝还诈慰狱强邱殉百窑典痛志蛾一纫呆讳第4聚类分析与判别分析第4聚类分析与判别分析务齐至熙需株嘘朵息闺龚架政纶睛羔偏怜报搽逐看灸吱歹酮上锣气腰盈盆第4聚类分析与判别分析第4聚类分析与判别分析殴糕剑殊账哑拴褐芭奶极报设乾供噪架湿逗桐工冻狮资屎窒失潦脯沧猎埋第4聚类分析与判别分析第4聚类分析与判别分析扭肠涟犁扇够逐琳苇蔓等捣返婴赴枢平授佐毕业曳寻妹诵薪承态语业幻磐第4聚类分析与判别分析第4聚类分析与判别分析鸢尾花数据鸢尾花数据(预测分类结果小结预测分类结果小结)可以看出分错率可以看出分错率握梯讽骑贷橱砌溃脱姐韭铅窃贪岔感伺没吗敷整番离掐琉描邦雌州草雌匣第4聚类分析与判别分析第4聚类分析与判别分析

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号