误差分析课件聚类分析之快速聚类法

资源描述

《误差分析课件聚类分析之快速聚类法》由会员分享，可在线阅读，更多相关《误差分析课件聚类分析之快速聚类法（26页珍藏版）》请在金锄头文库上搜索。

1、聚类分析的快速聚类法聚类分析样品间相似性的度量快速聚类分析及实例目录分类俗语说，物以类聚、人以群分。但什么是分类的根据呢？比如，要想把中国的县分成若干类，就有很多种分类法；可以按照自然条件来分，比如考虑降水、土地、日照、湿度等各方面；也可以考虑收入、教育水准、医疗条件、基础设施等指标；既可以用某一项来分类，也可以同时考虑多项指标来分类。基本思想是：通过定义样品或变量间“接近程度”的度量，以此为基础，将“相近”的样品或变量归为一类。聚类分析的介绍聚类分析和判别分析是研究分类问题的数据分析方法。聚类分析和判别分析的比较聚类类分析判别别分析区别别进进行聚类类分析

2、前对总对总体有几种类类型并不知道总总体分类类已给给定，在总总体分布或来自总总体训练样训练样本基础础上，对对新样样品判定属于哪个总总体联联系判别别分析中的训练样训练样本往往是从聚类类分析中得到的引入:如何度量远近？如果想要对100个学生进行分类，如果仅仅知道他们的数学成绩，则只好按照数学成绩来分类；这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。如果还知道他们的物理成绩，这样数学和物理成绩就形成二维平面上的100个点，也可以按照距离远近来分类。三维或者更高维的情况也是类似；只不过三维以上的图形无法直观地画出来而已。设X= 为所关心的p个指

3、标，对此指标作n次观测得n组观测值称这n组观测数据为n个样品。这样，每个样品可看成p维空间的一个点，n个样品组成p维空间的n个点，我们可以用各点之间的距离来衡量个样品点之间的靠近程度。样品间相似性的度量1 欧氏距离2 绝对绝对距离3 Minkowski距离其中m1，又称为Lm距离。4 Chebyshev距离是Minkowski距离当m时的极限。广义的“距离”：由于不同指标通常有不同的量纲量纲，这会引起各取值的分散程度差异较大，有时会造成很不合理的结果，为了消除此种影响，常需要在分析前对数据进行标准化处理。5 方差加权距离标准化数据的欧氏距离就是方差加权距离。?6 马马氏距离通常

4、都是尝试各种不同距离分析，最终采用最有利于分类的距离定义。=-=-=-=-niiTniiinjiT jijixnxxxxxnSxxxSxxSxxxxd112121 11)(11,)()()(其中算得的协方差矩阵：是由样品其中L令形成n个样品两两之间的距离矩阵阵：其中思想：首先将样品粗糙得分类，然后再依据样品间的距离按一定规则逐步调整，直至不能再调整为止。适合于：样本数目较大的数据集的聚类分析局限性：需要事先指定分类的数目，而且此数目对最终分类结果有较大影响。解决办法：实际中一般要对多个分类的数目进行尝试，以找出合理的分类结果快速聚类分析及实例1 选择聚点选择聚点( (聚类中心

5、点聚类中心点) ) 经验选择将n个样品人为地（或随机地）分为k类，以每类的均值向量（称为重心）作为聚点。最大最小原则先选择所有样品中相距先选择所有样品中相距最远的两个样品为初始最远的两个样品为初始的两个聚点，然后的两个聚点，然后, ,选择选择第第3 3个聚点个聚点( (与前两个聚与前两个聚点的距离最小者点的距离最小者 ), ), 按相按相同的原则依次选取下去同的原则依次选取下去，直至选出，直至选出k k个聚点。个聚点。（1）随机选择聚类种子点或中心点；（2）将每个观察样本分配给最近的种子；（3）重新把每个聚集中的中心点作为种子；（4）不断重复上述过程直到种子的变化足够小

6、为止。快速聚类法的步骤快速聚类法的步骤快速聚类法的步骤快速聚类法的步骤1.设k个初始聚点的集合是用下列原则实现初始分类：这样，将样品分成不相交的k类，以上初始分类的原则是每个样品以最近的初始聚点归类，这样得到一个初始分类2.从出发，计算新的聚点集合，以的重心作为新的聚点：其中是类中的样品数。这样，得到新的聚点集合从出发，将样品作新的分类。记得到分类这样依次进行下去。在以上递推计算过程中，不一定是样品，又一般不是的重心。当m逐渐增大，分类趋于稳定，此时，就会近似为的重心，从而算法即可结束。实际计算时，从某一步m开始，分类与完全相同，计算即告结束。3.设在第m步得到分类实例:国产轿

7、车市场竞争格局的快速聚类分析通过几个主要的汽车网站,收集2006年11 月6- 12 日目前汽车产品的车型主要参数和厂家指导价.利用 SPSS 软件, 采用聚类分析的方法, 对目前主要的轿车产品进行了聚类处理。车型的生产企业和企业所属集团代码的说明 1-中国(自主品牌 ) 2-欧洲 3-日本 4-美国 5-韩国按照上述的方法和分类原则进行数据收集,共产生了158个车型及其相关数据涵盖了轿车市场绝大部分生产企业和车型,可视为国产轿车的总体,所以该研究能反映出目前国产轿车竞争的全貌。聚类分析过程及结果由研究者指定聚类成多少类( 如k个) SPSS 确定k个初始类中心点迭代过程( Ite

8、ration History) 聚类结果在确定聚类数目的过程中, 尝试了聚类数为8- 15 个共8 个聚类方案, 以有助于识别相竞争的车型, 并尽可能与轿车级别的划分相一致为判断依据, 13 个聚类数所得到的结果是最为令人满意的。SPSS 根据样本数据的情况选择k 个有代表性的样本数据作为初始类中心, 初始类中心也可以由用户自行指定。SPSS 逐一计算每一个记录到各个类别中心点的欧氏距离, 把各个记录按照距离最近的原则归入各个类别, 并计算新形成的类别中心点; 按照新的中心位置, 重新计算每一记录距离新的类别中心点的距离, 并重新进行归类, 更新类别中心点; 重复, 直到达到终止迭代的判断要求为止。聚类结果低端产品高端产品直观上我们可以发现:11类和12类间距离最小,说明低端产品的差异相对较小 10类和7类类间的距离最大,说明高端产品之间差异增大第11类主要为普及型轿车，这类产品是市场竞争最为激烈的领域，为进一步展示各车型间的竞争关系，应对其进行再次聚类。排量（毫升）价格（元）整备质量（千克）结果分析结合实际背景知识和聚类结果,可以从以下几个方面对国产轿车市场竞争格局有一个全面的分析: 企业产品线战略分析竞争产品的识别及竞争格局分析

展开阅读全文

误差分析课件 聚类分析之快速聚类法

最新文档

误差分析课件聚类分析之快速聚类法