误差分析课件 聚类分析之快速聚类法

上传人:豆浆 文档编号:52247926 上传时间:2018-08-19 格式:PPT 页数:26 大小:634KB
返回 下载 相关 举报
误差分析课件 聚类分析之快速聚类法_第1页
第1页 / 共26页
误差分析课件 聚类分析之快速聚类法_第2页
第2页 / 共26页
误差分析课件 聚类分析之快速聚类法_第3页
第3页 / 共26页
误差分析课件 聚类分析之快速聚类法_第4页
第4页 / 共26页
误差分析课件 聚类分析之快速聚类法_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《误差分析课件 聚类分析之快速聚类法》由会员分享,可在线阅读,更多相关《误差分析课件 聚类分析之快速聚类法(26页珍藏版)》请在金锄头文库上搜索。

1、聚类分析的快速聚类法聚类分析样品间相似性的度量快速聚类分析及实例目录分类 俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很 多种分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面 ; 也可以考虑收入、教育水准、医疗条件、基 础设施等指标; 既可以用某一项来分类,也可以同时考虑多 项指标来分类。 基本思想是:通过定义样品或变量间“接近 程度”的度量,以此为基础,将“相近”的样 品或变量归为一类 。聚类分析的介绍 聚类分析和判别分析是研究分类问题 的数据分析方法。 聚类分析和判别分析的比较聚类类分析判别别分析区别别进进行聚类类分析

2、前对总对总 体有几 种类类型并不知 道总总体分类类已给给定, 在总总体分布或来自 总总体训练样训练样 本基础础 上,对对新样样品判定 属于哪个总总体 联联系判别别分析中的训练样训练样 本往往是从聚 类类分析中得到的引入:如何度量远近? 如果想要对100个学生进行分类,如果仅仅知道 他 们的数学成绩,则只好按照数学成绩来分类; 这些成绩在直线上形成100个点。这样就可以把接 近的点放到一类。 如果还知道他们的物理成绩,这样数学和物理成 绩就形成二维平面上的100个点,也可以按照距离 远近来分类。 三维或者更高维的情况也是类似;只不过三维以 上的图形无法直观地画出来而已。设X= 为所关心的p个指

3、标, 对此指标作n次观测得n组观测值称这n组观测数据为n个样品。这样,每个样 品可看成p维空间的一个点,n个样品组成p维 空间的n个点,我们可以用各点之间的距离来 衡量个样品点之间的靠近程度。样品间相似性的度量1 欧氏距离2 绝对绝对 距离3 Minkowski距离其中m1,又称为Lm距离。4 Chebyshev距离是Minkowski距离当m时的极限。广义的“距离”:由于不同指标通常有不同的量纲量纲,这会引起各取值的分散程度差异 较大,有时会造成很不合理的结果,为了消除此种影响,常需要在 分析前对数据进行标准化处理。5 方差加权距离 标准化数据的欧氏距离就是方差加权距离。?6 马马氏距离通常

4、都是尝试各种不同距离分析 ,最终采用最有利于分类的距离 定义。=-=-=-=-niiTniiinjiT jijixnxxxxxnSxxxSxxSxxxxd112121 11)(11,)()()(其中算得的协方差矩阵:是由样品其中L令形成n个样品两两之间的距离矩阵阵: 其中思想:首先将样品粗糙得分类,然后再依据 样品间的距离按一定规则逐步调整,直至不能 再调整为止。适合于:样本数目较大的数据集的聚类分析局限性:需要事先指定分类的数目,而且此 数目对最终分类结果有较大影响。解决办法:实际中一 般要对多个分类的数 目进行尝试,以找出 合理的分类结果快速聚类分析及实例1 选择聚点选择聚点( (聚类中心

5、点聚类中心点) ) 经验选择 将n个样品人为地(或随机地)分为k类, 以每类的均值向量(称为重心)作为聚点。 最大最小原则先选择所有样品中相距先选择所有样品中相距 最远的两个样品为初始最远的两个样品为初始 的两个聚点,然后的两个聚点,然后, ,选择选择 第第3 3个聚点个聚点( (与前两个聚与前两个聚 点的距离最小者点的距离最小者 ), ), 按相按相 同的原则依次选取下去同的原则依次选取下去 ,直至选出,直至选出k k个聚点。个聚点。(1)随机选择聚类种子点或中心点; (2)将每个观察样本分配给最近的种子; (3)重新把每个聚集中的中心点作为种子; (4)不断重复上述过程直到种子的变化足够小

6、为止。 快速聚类法的步骤快速聚类法的步骤快速聚类法的步骤快速聚类法的步骤1.设k个初始聚点的集合是用下列原则实现 初始分类:这样,将样品分成不相交的k类,以上初始分类的原则 是每个样品以最近的初始聚点归类,这样得到一个初始 分类2.从出发,计算新的聚点集合,以 的重心作为新的聚点 :其中是类中的样品数。这样,得到新的聚点集合从出发,将样品作新的分类。记得到分类这样依次进行下去。在以上递推计算过程中,不一定是样品,又一般不是的重心。当m逐渐增大,分类趋于稳定,此时,就会近似为的重心,从而算法即可结束。 实际计 算时,从某一步m开始,分类与完全相同,计算即告结束。3.设在第m步得到分类实例:国产轿

7、车市场竞争格局的快速聚类分析通过几个主要的汽车网站,收集2006年11 月6- 12 日 目前汽车产品的车型主要参数和厂家指导价.利用 SPSS 软件, 采用聚类分析的方法, 对目前主要的轿车 产品进行了聚类处理。车型的生产企业和企业所属集团代码的说明 1-中国(自主品牌 ) 2-欧洲 3-日本 4-美国 5-韩国按照上述的方法和分类原则进行数据收集,共产 生了158个车型及其相关数据涵盖了轿车市场绝大部 分生产企业和车型,可视为国产轿车的总体,所以该 研究能反映出目前国产轿车竞争的全貌。聚类分析过程及结果由研究者指定聚类成多少类( 如k个) SPSS 确定k个初始类中心点 迭代过程( Ite

8、ration History) 聚类结果 在确定聚类数目的过程中, 尝试了聚类数为8- 15 个共8 个聚类方案, 以有助于识别相竞争 的车型, 并尽可能与轿车级别的划分相一致为 判断依据, 13 个聚类数所得到的结果是最为 令人满意的。SPSS 根据样本数据的情况选择k 个有代表 性的样本数据作为初始类中心, 初始类中心 也可以由用户自行指定。SPSS 逐一计算每一个记录到各个类别中心点的欧 氏距离, 把各个记录按照距离最近的原则归入各个类 别, 并计算新形成的类别中心点; 按照新的中心位置, 重新计算每一记录距离新的类别中心点的距离, 并重 新进行归类, 更新类别中心点; 重复, 直到达到终止 迭代的判断要求为止。聚类结果低端产品高端产品直观上我们可以发现:11类和12类间距离最小,说明低端产品的差异相对 较小 10类和7类类间的距离最大,说明高端产品之间差 异增大 第11类主要为普及型轿车,这类产品是市场竞争 最为激烈的领域,为进一步展示各车型间的竞争关 系,应对其进行再次聚类。排量(毫升 )价格(元)整备质量(千克 )结果分析结合实际背景知识和聚类结果,可以从 以下几个方面对国产轿车市场竞争格局有 一个全面的分析: 企业产品线战略分析 竞争产品的识别及竞争格局分析

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号