聚类分析学习总结.

上传人:re****.1 文档编号:470758926 上传时间:2022-12-14 格式:DOCX 页数:9 大小:100.89KB
返回 下载 相关 举报
聚类分析学习总结._第1页
第1页 / 共9页
聚类分析学习总结._第2页
第2页 / 共9页
聚类分析学习总结._第3页
第3页 / 共9页
聚类分析学习总结._第4页
第4页 / 共9页
聚类分析学习总结._第5页
第5页 / 共9页
点击查看更多>>
资源描述

《聚类分析学习总结.》由会员分享,可在线阅读,更多相关《聚类分析学习总结.(9页珍藏版)》请在金锄头文库上搜索。

1、聚类分析学习体会聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类别尚不清 楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。聚类分析主要目的是研究事物的分类,而不同于判别分析。在判别分析中必须事先知 道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对 未知属性的样本进行判别和归类。若对一批样品划分的类型和分类的数目事先并不知道, 这时对数据的分类就需借助聚类分析方法来解决。聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数 据特征而定的。在一个给定的类里的这些对象在某种意义上倾向于彼此相似,而在不同类 里的这些对象

2、倾向于不相似。1聚类统计量在对样品(变量)进行分类时,样品(变量)之间的相似性是怎么度量?通常有三种 相似性度量一一距离、匹配系数和相似系数。距离和匹配系数常用来度量样品之间的相似 性,相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定 义,而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为:1. 定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又称为间 隔尺度变量。2. 定性变量:并不是数量上有变化,而只是性质上有差异。定性变量还可以再分 为:有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如文化程度分为文盲、小学、中学、大学

3、等。名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,例如职业分为工人、教师、干部、农民等。下面主要讨论具有定量变量的样品聚类分析,描述样品间的亲疏程度最常用的是距 离。1.1. 距离1. 数据矩阵设*为第i个样品的第j个指标,数据矩阵如下表品就是Rp中的n个点。在Rp中需定义某种距离,第1个样品与第j个样品之间的距离记为q,在聚类过程中,相距较近的点倾向于归为一类,相距较远的点应归属不同的类。所 定义的距离q一般应满足如下四个条件:(l) q 0,对一切i, j ;且d(x,XJ0当且仅当x Xjdjdji,对一切 i, j ; d ijd ikdkj,对一切 L j,k

4、2. 定量变量的常用的距离对于定量变量,常用的距离有以下几种:闵科夫斯基(Minkowski)距离Pdj(q) XkXjkqq这里q为某一自然数。闵科夫斯基距离有以下三种特殊形式:1) 当q 1时,dj(1) XikXjk称为绝对值距离,常被形象地称为“城市k 1街区”距离;p X2 2) 当q 2时,q(2) XjkX.k2,称为欧氏距离,这是聚类分析中最k 1常用的距离;3) 当q时,d.( ) max XjkXjk,称为切比雪夫距离。J1 k pJq(q)在实际中用得很多,但是有一些缺点,一方面距离的大小与各指标的观测单位 有关,另一方面它没有考虑指标间的相关性。当各指标的测量值相差悬殊

5、时,应先对数据标准化,然后用标准化后的数据计算距 离;最常用的标准化处理是:XX令 XSjj1n其中Xj - X.为第j个变量的样本均值,Sj n 1 i 1ni 1-(Xj Xj)2为第j个变量的样本方差。兰氏(Lance和Williams )距离当 Xj0( i 1,2,n; j 1,2,第i个样品与第j个样品间的兰氏距离为dj(L)p XikXjkk 1Xik Xjk这个距离与各变量的单位无关,但没有考虑指标间的相关性。马氏距离(Mahalanobis)距离第i个样品与第j个样品间的马氏距离为dj(M) .(XiXj)S1(XiXj)其中X X .X , , X ), X.(X.,X夕X

6、 ), S为样品协方差矩阵。/、 Ii ( iV l2 ip , j j V j2 jp / / J J-使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关;但马氏距离有一个很大的缺陷,就是S难确定。由于聚类是一个动态过程,故S随聚类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化,这不符和聚类 的基本要求。因此,在实际聚类分析中,马氏距离不是理想的距离。斜交空间距离第i个样品与第j个样品间的斜交空间距离定义为d 牙1 &:X)(X X.rijik jkii jj kiJP killd 其中g是变量xk与变量X间的相关系数。当p个变量互不相关时,djj即斜交空j间

7、距离退化为欧氏距离(除相差一个常数倍外)。P以上几种距离的定义均要求样品的变量是定量变量,如果使用的是定性变量,则有 相应的定义距离的方法。3. 定性变量的距离下例只是对名义尺度变量的一种距离定义。例1某高校举办一个培训班,从学员的资料中得到这样6个变量:性别(*)取值为 男和女;外语语种(X2)取值为英、日和俄;专业(X3)取值为统计、会计和金融;职 业(X4)取值为教师和非教师;居住处(X5)取值为校内和校夕卜;学历(x6)取值为本 科和本科以下。现有两名学员:Xi(男,英,统计,非教师,校外,本科)/X2 (女,英,金融,教师,校外,本科以下)/这两名学员的第二个变量都取值“英”,称为配

8、合的,第一个变量一个取值为m2mi m2“男”,另一个取值为“女”,称为不配合的。一般地,若记配合的变量数为m.不配合 的变量数为m2,则它们之间的距离可定义为d 12寸光阴不可轻 nn其中 X* XjXkj k 1k 12聚类分析从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS SAS等。从机器学习的角度看,需要由聚类学习算法自动确定标记,而分类学习的实例或数 据对象有类别标记。聚类是观

9、察式学习,而不是示例式的学习。从实际应用的角度看,聚类分析是数据挖掘的主要任务,是模式识别的重要前提。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的 特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和 定性归纳算法)的预处理步骤。2.1聚类分析的流程及数据来源聚类分析法的主要流程包括:数据预处理、为衡量数据点间的相似度 定义一个距离函数、聚类或分组和评估输出,用流程图描述如图1所示。图1聚类分析流程图聚类分析的源数据通常是待聚类或分组的数据。对机械故障模式识别而言,首先要获取关于本机组的大量运行参数,既要有机器平稳运行、正常工作时的数据,更要有机

10、器出现故障时的数据,并且获知故障的类别。这样,由已知故障类别、故障发生时的各运行参数、历史记录组成的数据库便构成了数据 挖掘的训练学习样本库。这里用到的数据就是设备的点检数据。2.2 .常用的聚类分析方法(1)系统聚类法系统聚类法(Hierarchical clusteHng method)是目前使用最多的一种方法。其 基本思 想是首先将n个样品看成n类(即一类包括一个样品),然后规定样品之间的距离和类与类 之间的距离。将距离最近的两类合并为一个新类,在计算新类和其他类之间的距离,再从 中找出最近的两类合并,继续下去,最后所有的样品全在一类。将上述并类过程画成聚类 图,便可以决定分多少类,每类

11、各有什么样品。系统聚类法的步骤为:首先各样品自成一类,这样对n组样品就相当于有n类; 计算各类间的距离,将其中最近的两类进行合并;计算新类与其余各类的距离,再将距 离最近的两类合并;重复上述的步骤,直到所有的样品都聚为一类时为止。下面以最短 距离法为例来说明系统聚类法的过程。最短距离法的聚类步骤如下: 规定样品之间的距离,计算样品的两两距离,距离矩阵记为So,开始视每个样品分别为一类,这时显然应有D(p,q) d ;pq 选择距离矩阵S。中的最小元素,不失一般性,记其为D(p,q),则将Gp与Gq合并为一新类,记为Gm,有GmGpGq ; 计算新类Gm与其他各类的距离,得到新的距离矩阵记为S!

12、; 对S?重复开始进行第步,直到所有样本成为一类为止。值得注意的是在整个聚类的过程中,如果在某一步的距离矩阵中最小元素不止一个 时,则可以将其同时合并。(2) 动态聚类法开始将n个样品粗略地分成若干类,然后用某种最优准则进行调整,一次又一次地调 整,直至不能调整了为止。此法非常类似于计算方法的迭代法。(3) 分解法它的程序正好和系统聚类相反,开始时所有的样本都在一类,然后用某种最优准则将 它分成两类。再用同样准则将这两类各自试图分裂为两类,从中选出一个使目标函数较好 者,这样由两类变成了三类。如此下去,一直分裂到每类只有一个样品为止(或用其他停 止规则)。(4)加入法将样品依次输入,每次输入后

13、将它放到当前聚类图的应有位置上,全部输入 后,即得聚类图。3总结体会聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据 来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同 的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据 源间的相似性,以及把数据源分类到不同的簇中。比如说现在要把n个产品按产品的m 个指标继续聚类,因为产品可能之前的特色是不一样的。而这个时候影响产品的因素有m 个,不可能一个一个的考虑,那样是分不出类来的。所以只能对产品的m个指标综合考 虑,采用SPSS中的样本聚类方法,就可以直接将产品分好类。并且从分析结果还可以看 出各类产品的特色分别是什么。聚类分析不仅可以用于样本聚类,还可以用于变量聚类,就是对m个指标进行聚 类。因为有时指标太多,不能全部考虑,需要提取出主要因素,而往往指标之间又有很多 相关联的地方,所以可以先对变量聚类,然后从每一类中选取出一个代表型的指标。这样 就大大减少了指标,并且没有造成巨大的信息丢失。2按此定义本例中X1与X2之间的距离为2。31.2. 匹配系数当样品的变量为定性变量时,通常采用匹配系数作为聚类统计量

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号