讲聚类分析－金锄头文库

资源描述

《讲聚类分析》由会员分享，可在线阅读，更多相关《讲聚类分析（28页珍藏版）》请在金锄头文库上搜索。

1、讲聚类分析演示文稿讲聚类分析演示文稿讲聚类分析演示文稿讲聚类分析演示文稿第一页，共二十八页。（优选）第九讲聚类分析（优选）第九讲聚类分析（优选）第九讲聚类分析（优选）第九讲聚类分析第二页，共二十八页。方法原理方法原理假定研究对象均用所谓的“点”来表示。在聚类分析中，一般的规则是将“距离”较小的点归为同一类，将“距离”较大的点归为不同的类。常见的是对个体分类，也可以对变量分类此时一般使用相似系数作为“距离”测量指标第三页，共二十八页。方法原理方法原理例：根据年龄将人群分成适当的类，从右图可见，人群被分为两类是比较合适的。第四页，共二十八页。方法原理方法原理在右图中可以看到五个样品应当可能被分为两

2、组或者三组，C/D组x和y的取值均偏低，而另三个所在组x和y的取值均偏高分为两类或三类都是可接受的从图中可以直观的理解“距离”的含义第五页，共二十八页。方法原理方法原理当用于聚类的变量逐渐增多时，分析思路完全相同，只是这样简单、清晰的图示展现类别情况变得逐渐不大可能多维空间中的观察可能的解决方法放弃图示化观察，改用复杂的统计指标缩减维度，使得可以在低维度空间进行呈现第六页，共二十八页。特特点点聚类分析前所有个体所属的类别是未知的，类别个数一般也是未知的，分析的依据就是原始数据，可能事先没有任何有关类别的信息可参考。严格说来聚类分析并不是纯粹的统计技术，它不像其它多元分析法那样，需要从样本去推

3、断总体。一般都涉及不到有关统计量的分布，也不需要进行显著性检验。聚类分析更像是一种建立假设的方法，而对相关假设的检验还需要借助其它统计方法。第七页，共二十八页。聚类分析与聚类分析与SPSS软件软件第八页，共二十八页。TwoStep Cluster过程过程特点：处理对象：分类变量和连续变量处理对象：分类变量和连续变量自动决定最佳分类数快速处理大数据集前提假设：变量间彼此独立分类变量服从多项分布，连续变量服从正态分布模型稳健第九页，共二十八页。TwoStep Cluster过程过程步骤：建立Cluster Features (CF) Tree 确定最佳聚类数分析实例：某汽车制造商为了了解整个汽车市

4、场的形势，希望根据汽车的基本属性和价钱对其进行分类，以有效地提高竞争力。数据：car_sales.savcategorical variable ：Vehicle typecontinuous variables：Price in thousands Fuel efficiency第十页，共二十八页。价位低、车型小、省油第十一页，共二十八页。在该类中，所有变量均对分类有意义按变量对分类的贡献大小排序Fuel efficiency唯一大于均值第十二页，共二十八页。K-means Cluster过程过程k-均值聚类（k-means cluster，也叫快速聚类，quick cluster）要求你先

5、说好要分多少类。假定你说分3类，这个方法还进一步要求你事先确定3个点为“聚类种子”(SPSS软件自动为你选种子)；也就是说，把这3个点作为三类中每一类的基石。然后，根据和这三个点的距离远近，把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来 “种子”就没用了)，再重新按照距离分类。如此叠代下去，直到达到停止叠代的要求（比如，各类最后变化不大了，或者叠代次数太多了）。显然，前面的聚类种子的选择并不必太认真，它们很可能最后还会分到同一类中呢。第十三页，共二十八页。K-means Cluster过程过程属于非系统聚类法的一种方法原理选择（或人为指定）某些记录作为凝聚点按就近原则将其

6、余记录向凝聚点凝集计算出各个初始分类的中心位置（均值）用计算出的中心位置重新进行聚类如此反复循环，直到凝聚点位置收敛为止第十四页，共二十八页。K-means Cluster过程过程方法特点要求已知类别数可人为指定初始位置节省运算时间样本量大于100时有必要考虑只能使用连续性变量只能使用连续性变量第十五页，共二十八页。K-means Cluster过程过程分析实例分析实例一个电信服务提供商希望基于客户使用的服务种类对客户进行细分。如果客户能够按照使用的服务种类进行细分，提供商就可以针对客户的偏好，向其提供不同的服务内容，吸引客户使用更多的服务。关于客户服务使用情况的标准变量包含在数据电信客户.s

7、av中，请使用快速聚类法对客户进行聚类。zlnlong zlnwire、zmultlin zebill注意类别数、分类结果的实际应用。第十六页，共二十八页。大客户：购买很多服务中等客户：主要使用“calling”服务小客户：使用很少的服务，或者不购买任何服务第十七页，共二十八页。惨了，近一半的客户属于惨了，近一半的客户属于价值非常小的客户。能不价值非常小的客户。能不能从这群人中找到一些相能从这群人中找到一些相对来说价值比较大的客户对来说价值比较大的客户呢？呢？第十八页，共二十八页。发现一类具有潜在价值的客户：发现一类具有潜在价值的客户：购买网络服务购买网络服务寻找到寻找到25%的潜在客户的潜在

8、客户！第十九页，共二十八页。练习练习在SPSS自带数据文件plastic.sav中根据tear_res、gloss、opacity三个变量的取值将20个样本分为三类方差分析表，剔除无用变量均数描述和均数图，考察变量在各组间的均值变化情况按姿势蝶泳、仰泳、蛙泳、自由泳四类对游泳运动员进行分类。数据swim.sav第二十页，共二十八页。Hierarchical Cluster过程过程属于系统聚类法的一种其聚类过程可以用树形结构(treelike structure)来描绘的方法方法原理先将所有n个变量观测看成不同的n类然后将性质最接近（距离最近）的两类合并为一类再从这n-1类中找到最接近的两类加以

9、合并依此类推，直到所有的变量观测被合为一类使用者再根据具体的问题和聚类结果来决定应当分为几类第二十一页，共二十八页。Hierarchical Cluster过程特点一旦记录/变量被划定类别，其分类结果就不会再进行更改可以对变量或记录进行聚类变量可以为连续或分类变量变量可以为连续或分类变量提供的距离测量方法非常丰富运算速度较慢第二十二页，共二十八页。Hierarchical Cluster过程过程分析实例：数据car_sales.sav，对售价在10万以上的汽车进行分类。type=0, sales100第二十三页，共二十八页。Hierarchical Cluster过程过程分析实例：电信服务提供

10、商希望了解客户对于各种服务的使用情况，如果能够对服务进行分类，他们就可以将服务进行打包，推出更有吸引力的服务。服务的使用情况包含在数据电信.sav中，请使用系统聚类法来研究不同类型的服务之间的关系。对变量进行聚类Toll free service Wireless service 、 Multiple lines Electronic billing冰柱图的解读第二十四页，共二十八页。需要注意的问题需要注意的问题距离测量方法使用默认值即可变量选择无关变量有时会引起严重的错分应当只引入在不同类间有显著差别的变量尽量只使用相同类型的变量进行分析使用连续变量，将分类变量用于结果解释新的聚类方法可以同

11、时使用这些变量第二十五页，共二十八页。需要注意的问题需要注意的问题共线性问题对记录聚类结果有较大的影响相当于某个变量在聚类中的权重大于其它变量最好先进行预处理变量的标准化变量量纲变异程度相差非常大时需要进行数理统计算法上要求一律标准化标准化后会削弱有用变量的作用第二十六页，共二十八页。需要注意的问题需要注意的问题异常值影响较大还没有比较好的解决办法尽力避免分类数从实用角度讲，28类比较合适专业意义一定要结合专业知识进行分析第二十七页，共二十八页。需要注意的问题需要注意的问题其他方面聚类分析主要应用于探索性的研究，其分析的结果可以提供多个可能的解，选择最终的解需要研究者的主观判断和后续的分析聚类分析的解完全依赖于研究者所选择的聚类变量，增加或删除一些变量对最终的解都可能产生实质性的影响不管实际数据中是否真正存在不同的类别，利用聚类分析都能得到分成若干类别的解第二十八页，共二十八页。

展开阅读全文