聚类算法教学文案－金锄头文库

资源描述

《聚类算法教学文案》由会员分享，可在线阅读，更多相关《聚类算法教学文案（37页珍藏版）》请在金锄头文库上搜索。

1、聚类算法什么是聚类聚类就是按照某个特定标准如距离准则把一个数据集分割成不同的类或簇使得同一个簇内的数据对象的相似性尽可能大同时不在同一个簇中的数据对象的差异性也尽可能地大即聚类后同一类的数据尽可能聚集到一起不同数据尽量分离简单地说聚类就是把相似的东西分到一组聚类的现状及应用聚类技术正在蓬勃发展对此有贡献的研究领域包括数据挖掘统计学机器学习空间数据库技术生物学以及市场营销等各种聚类方法也被不断提出和改进而不同的方法适合于不同类型的数据因此对各种聚类方法聚类效果的比较成为值得研究的课题聚类分析是一种重要的人类行为早在孩提时代一个人就通过不断改进下意识

2、中的聚类模式来学会如何区分猫狗动物植物目前在许多领域都得到了广泛的研究和成功的应用如用于模式识别数据分析图像处理市场研究客户分割 Web文档分类等聚类算法选择与分类目前有大量的聚类算法而对于具体应用聚类算法的选择取决于数据的类型聚类的目的如果聚类分析被用作描述或探查的工具可以对同样的数据尝试多种算法以发现数据可能揭示的结果主要的聚类算法可以划分为如下几类划分方法层次方法基于密度的方法基于网格的方法以及基于模型的方法几种聚类算法介绍划分聚类算法 K means聚类算法层次聚类算法 AGNES DIANA 密度聚类算法 DBSCAN K means聚

3、类算法 k means是划分方法中较经典的聚类算法之一由于该算法的效率高所以在对大规模数据进行聚类时被广泛应用目前许多算法均围绕着该算法进行扩展和改进 k means算法以k为参数把n个对象分成k个簇使簇内具有较高的相似度而簇间的相似度较低假设我们提取到原始数据的集合为D x1 x2 xn 并且每个xi为d维的向量 K means聚类的目的就是在给定分类组数k k n 值的条件下将原始数据分成k类 S S1 S2 Sk 在数值模型上即对以下表达式求最小值这里 i表示分类Si的平均值 k means聚类算法计算机实现步骤 1 从D中随机取k个元素作为k个簇的各自的中心

4、2 分别计算剩下的元素到k个簇中心的相异度将这些元素分别划归到相异度最低的簇 3 根据聚类结果重新计算k个簇各自的中心计算方法是取簇中所有元素各自维度的算术平均数 4 将D中全部元素按照新的中心重新聚类 5 重复第4步直到聚类结果不再变化 6 将结果输出 k means聚类算法示例对于一个数据集合D 假设K 3 首先3个中心点被随机初始化所有的数据点都还没有进行聚类默认全部都标记为红色如下图所示 k means聚类算法示例然后进入第一次迭代按照初始的中心点位置为每个数据点着上颜色重新计算3个中心点结果如下图所示 k means聚类算法示例可以看到由于初始的中心点是随

5、机选的这样得出来的结果并不是很好接下来是下一次迭代的结果 k means聚类算法示例可以看到大致形状已经出来了再经过两次迭代之后基本上就收敛了最终结果如下 k means聚类算法示例但k means并不是万能的虽然许多时候都能收敛到一个比较好的结果但是也有运气不好的时候会收敛到一个让人不满意的局部最优解例如选用下面这几个初始中心点 k means聚类算法示例最终会收敛到这样的结果 k means聚类算法优缺点优点 1 算法快速简单 2 对大数据集有较高的效率并且是可伸缩性的 3 时间复杂度近于线性而且适合挖掘大规模数据集缺点 1 K means算法中K是事先给定的

6、这个K值的选定是非常难以估计很多时候事先并不知道数据集应该分成多少个类别才最合适 2 K means算法中需要根据初始聚类中心来确定一个初始划分然后对初始划分进行优化这个初始聚类中心的选择对聚类结果有较大的影响一旦初始值选择的不好可能无法得到有效的聚类结果 3 不适合于发现非凸面形状的簇或者大小差别很大的簇而且它对于躁声和孤立点数据是敏感的层次聚类当采用划分聚类方法如k means K值选取十分困难时我们不妨考虑可以考虑层次聚类层次聚类是另一种主要的聚类方法它具有一些十分必要的特性使得它成为广泛应用的聚类方法它生成一系列嵌套的聚类树来完成聚类单点聚类处在

7、树的最底层在树的顶层有一个根节点聚类根节点聚类覆盖了全部的所有数据点可根据其聚类方式划分为凝聚自下而上聚类和分裂自上而下聚类层次凝聚的代表是AGNES算法层次分裂的代表是DIANA算法 AGNES算法 AGNES AGglomerativeNESting 算法最初将每个对象作为一个簇然后这些簇根据某些准则被一步步地合并两个簇间的相似度由这两个不同簇中距离最近的数据点对的相似度来确定聚类的合并过程反复进行直到所有的对象最终满足簇数目 AGNES 自底向上凝聚算法计算机编程实现输入包含n个对象的数据库终止条件簇的数目k 输出 k个簇达到终止条件规定簇数目 1 将

8、每个对象当成一个初始簇 2 REPEAT 3 根据两个簇中最近的数据点找到最近的两个簇 4 合并两个簇生成新的簇的集合 UNTIL达到定义的簇的数目判断两个类之间相似度的方法 1 SingleLinkage 又叫做nearest neighbor 就是取两个类中距离最近的两个样本的距离作为这两个集合的距离也就是说最近两个样本之间的距离越小这两个类之间的相似度就越大容易造成一种叫做Chaining的效果两个cluster明明从大局上离得比较远但是由于其中个别的点距离比较近就被合并了并且这样合并之后Chaining效应会进一步扩大最后会得到比较松散的cluster 2 Co

9、mpleteLinkage 这个则完全是SingleLinkage的反面极端取两个集合中距离最远的两个点的距离作为两个集合的距离其效果也是刚好相反的限制非常大两个cluster即使已经很接近了但是只要有不配合的点存在就顽固到底老死不相合并也是不太好的办法这两种相似度的定义方法的共同问题就是指考虑了某个有特点的数据而没有考虑类内数据的整体特点3 Average linkage 这种方法就是把两个集合中的点两两的距离全部放在一起求一个平均值相对也能得到合适一点的结果 average linkage的一个变种就是取两两距离的中值与取均值相比更加能够解除个别偏离样本对结果的干扰

10、层次聚类 AGNES算法示例第1步根据初始簇计算每个簇之间的距离随机找出距离最小的两个簇进行合并最小距离为1 合并后1 2点合并为一个簇第2步对上一次合并后的簇计算簇间距离找出距离最近的两个簇进行合并合并后3 4点成为一簇第3步重复第2步的工作 5 6点成为一簇第4步重复第2步的工作 7 8点成为一簇第5步合并 1 2 3 4 成为一个包含四个点的簇第6步合并 5 6 7 8 由于合并后的簇的数目已经达到了用户输入的终止条件程序结束步骤最近的簇距离最近的两个簇合并后的新簇11 1 2 1 2 3 4 5 6 7 8 21 3 4 1 2 3 4 5 6 7

11、 8 31 5 6 1 2 3 4 5 6 7 8 41 7 8 1 2 3 4 5 6 7 8 51 1 2 3 4 1 2 3 4 5 6 7 8 61 5 6 7 8 1 2 3 4 5 6 7 8 结束序号属性1属性2111212321422534635744845 层次聚类算法优缺点及改进算法优点适用于任意形状和任意属性的数据集灵活控制不同层次的聚类粒度强聚类能力缺点大大延长了算法的执行时间不能回溯处理层次聚类方法尽管简单但经常会遇到合并或分裂点的选择的困难改进层次方法的聚类质量的一个有希望的方向是将层次聚类和其他聚类技术进行集成形成多阶段聚类下面介绍两个改

12、进的层次聚类方法BIRTH和CURE BIRCH聚类算法 BIRCH 利用层次方法的平衡迭代归约和聚类是一个综合的层次聚类方法它用聚类特征和聚类特征树 CF 来概括聚类描述该算法通过聚类特征可以方便地进行中心半径直径及类内类间距离的运算 CF树是一个具有两个参数分支因子B和阂值T的高度平衡树存储了层次聚类的聚类特征分支因子定义了每个非叶节点孩子的最大数目而阈值给出了存储在树的叶子节点中的子聚类的最大直径 BIRCH聚类算法 BIRCH算法的工作过程包括两个阶段阶段一 BIRCH扫描数据库建立一个初始存放于内存的CF树它可以被看作数据的多层压缩试图保留数据内在的聚类结构

13、随着对象的插入 CF树被动态地构造不要求所有的数据读入内存而可在外存上逐个读入数据项因此 BIRTH方法对增量或动态聚类也非常有效阶段二 BIRCH采用某个聚类算法对CF树的叶结点进行聚类在这个阶段可以执行任何聚类算法例如典型的划分方法 BIRCH算法试图利用可用的资源来生成最好的聚类结果通过一次扫描就可以进行较好的聚类故该算法的计算复杂度是O n n是对象的数目 CURE聚类算法很多聚类算法只擅长处理球形或相似大小的聚类另外有些聚类算法对孤立点比较敏感 CURE算法解决了上述两方面的问题选择基于质心和基于代表对象方法之间的中间策略即选择空间中固定数目的具有代表性的点

14、而不是用单个中心或对象来代表一个簇该算法首先把每个数据点看成一簇然后再以一个特定的收缩因子向簇中心收缩它们即合并两个距离最近的代表点的簇 CURE聚类算法 CURE算法采用随机取样和划分两种方法的组合具体步骤如下从源数据集中抽取一个随机样本为了加速聚类把样本划分成p份每份大小相等对每个划分局部地聚类根据局部聚类结果对随机取样进行孤立点剔除主要有两种措施如果一个簇增长得太慢就去掉它在聚类结束的时候非常小的类被剔除对上一步中产生的局部的簇进一步聚类落在每个新形成的簇中的代表点根据用户定义的一个收缩因子收缩或向簇中心移动这些点代表和捕捉到了簇的形状用相

15、应的簇标签来标记数据由于它回避了用所有点或单个质心来表示一个簇的传统方法将一个簇用多个代表点来表示使CURE可以适应非球形的几何形状另外收缩因子降底了噪音对聚类的影响从而使CURE对孤立点的处理更加健壮而且能识别非球形和大小变化比较大的簇 CURE的复杂度是O n n是对象的数目所以该算法适合大型数据的聚类密度聚类算法密度聚类方法的指导思想是只要一个区域中的点的密度大于某个域值就把它加到与之相近的聚类中去这类算法能克服基于距离的算法只能发现类圆形的聚类的缺点可发现任意形状的聚类且对噪声数据不敏感但计算密度单元的计算复杂度大需要建立空间索引来降低计算量且对

16、数据维数的伸缩性较差这类方法需要扫描整个数据库每个数据对象都可能引起一次查询因此当数据量大时会造成频繁的I O操作代表算法有 DBSCAN OPTICS DENCLUE算法等 DBSCAN Density BasedSpatialClusteringofApplicationswithNoise 一个比较有代表性的基于密度的聚类算法与划分和层次聚类方法不同它将簇定义为密度相连的点的最大集合能够把具有足够高密度的区域划分为簇并可在有噪声的空间数据库中发现任意形状的聚类密度聚类算法对象的临域给定对象在半径内的区域核心对象如果一个对象的临域至少包含最小数目MinPts个对象则称该对象为核心对象例如在下图中 1cm MinPts 5 q是一个核心对象直接密度可达给定一个对象集合D 如果p是在q的邻域内而q是一个核心对象我们说对象p从对象q出发是直接密度可达的例如在图1中 1cm MinPts 5 q是一个核心对象对象p从对象q出发是直接密度可达的图1核心对象密度聚类算法密度可达如果存在一个对象链p1 p2 pn p1 q pn

展开阅读全文

聚类算法教学文案

最新文档