数据挖掘2015最新精品课程完整课件(第14讲)---基于密度的聚类

资源描述

《数据挖掘2015最新精品课程完整课件(第14讲)---基于密度的聚类》由会员分享，可在线阅读，更多相关《数据挖掘2015最新精品课程完整课件(第14讲)---基于密度的聚类（32页珍藏版）》请在金锄头文库上搜索。

1、基于密度的聚类方法 1 2 基于密度的聚类方法划分和层次方法旨在发现球状簇他们很难发现任意形状的簇改进思想将簇看作数据空间中由低密度区域分隔开的高密度对象区域这是基于密度的聚类方法的主要策略基于密度的聚类方法可以用来过滤噪声孤立点数据发现任意形状的簇 DBSCAN 基于高密度连通区域聚类OPTICS 通过点排序识别聚类结构DENCLUE 基于密度分布函数的聚类 3 DBSCAN 基于密度的簇是密度相连的点的集合主要思想寻找被低密度区域分离的高密度区域只要临近区域的密度单位大小上对象或数据点的数目超过某个阈值就继续聚类 4 DBSCAN 两个参数 Eps 邻域的最大半径Min

2、Pts 一个核心对象以Eps为半径的邻域内的最小顶点数 5 DBSCAN 密度制定半径 Eps 内点的个数如果一个对象的Eps邻域至少包含最小数目MinPts个对象则称该对象为核心对象 Corepoint 如果一个对象是非核心对象但它的邻域中有核心对象则称该对象为边界点 Borderpoint 除核心对象和边界点之外的点是噪声点 Noisepoint DBSCAN 核心边界和噪声点 7 DBSCAN 密度可达的 Density reachable 对于对象p和核心对象q 关于E和MinPts 我们称p是从q 关于E和MinPts 直接密度可达若对象p在对象q的E邻域内如果存在一个

3、对象链p1 pn p1 q pn p pi 1是从pi关于Eps和MinPts直接密度可达的则对象p是从对象q关于Eps和MinPts密度可达的密度可达性是直接密度可达性的传递闭包这种关系是非对称的只有核心对象之间是相互可达的 8 DBSCAN 密度相连的 Density connected 如果对象集合D中存在一个对象o 使得对象p和q是从o关于Eps和MinPts密度可达的那么对象p和q是关于Eps和MinPts密度相连的密度相连性是一个对称的关系 DBSCAN算法概念示例如图所示用一个相应的半径表示设MinPts 3 请分析Q M P S O R这5个样本点之间的关系

4、解答根据以上概念知道由于有标记的各点 M P O和R的近邻均包含3个以上的点因此它们都是核对象 M 是从P 直接密度可达而Q则是从 M 直接密度可达基于上述结果 Q是从P 密度可达但P从Q无法密度可达非对称类似地 S和R从O是密度可达的 O R和S均是密度相连的基于密度方法的聚类 DBSCAN DBSCAN算法根据以上的定义在数据库中发现簇和噪声簇可等价于集合D中簇核心对象密度可达的所有对象的集合 DBSCAN通过检查数据集中每个对象的邻域来寻找聚类如果一个点p的邻域包含多于MinPts个对象则创建一个p作为核心对象的新簇C 然后 DBSCAN从C中寻找

5、未被处理对象q的邻域如果q的邻域包含多MinPts个对象则还未包含在C中的q的邻点被加入到簇中并且这些点的邻域将在下一步中进行检测这个过程反复执行当没有新的点可以被添加到任何簇时该过程结束具体如下 DBSCAN算法步骤输入数据集D 参数MinPts 输出簇集合 1 首先将数据集D中的所有对象标记unvisited 2 do 3 从D中随机选取一个unvisited对象p 并将p标记为visited ifp的邻域包含的对象数至少为MinPts个创建新簇C 并把p添加到c中令N为p的邻域中对象的集合 7 forN中每个点piifpi是unvisited标记pi为vi

6、sited ifpi的邻域至少有MinPts个对象把这些对象添加到N ifpi还不是任何簇的对象将pi添加到簇C中 12 endfor 13 输出C 14 Else标记p为噪声 15 Untill没有标记为unvisited的对象基于密度方法的聚类 DBSCAN 下面给出一个样本事务数据库见下表对它实施DBSCAN算法根据所给的数据通过对其进行DBSCAN算法以下为算法的步骤设n 12 用户输入 1 MinPts 4 样本事务数据库 DBSCAN聚类过程第1步在数据库中选择一点1 由于在以它为圆心的以1为半径的圆内包含2个点小于4 因此它不是核心点选择下一个点第2

7、步在数据库中选择一点2 由于在以它为圆心的以1为半径的圆内包含2个点因此它不是核心点选择下一个点第3步在数据库中选择一点3 由于在以它为圆心的以1为半径的圆内包含3个点因此它不是核心点选择下一个点 DBSCAN聚类过程第4步在数据库中选择一点4 由于在以它为圆心的以1为半径的圆内包含5个点因此它是核心点寻找从它出发可达的点直接可达4个间接可达3个聚出的新类 1 3 4 5 9 10 12 选择下一个点 DBSCAN聚类过程第5步在数据库中选择一点5 已经在簇1中选择下一个点第6步在数据库中选择一点6 由于在以它为圆心的以1为半径的圆内包含3个点因

8、此它不是核心点选择下一个点 DBSCAN聚类过程第7步在数据库中选择一点7 由于在以它为圆心的以1为半径的圆内包含5个点因此它是核心点寻找从它出发可达的点聚出的新类 2 6 7 8 11 选择下一个点 DBSCAN聚类过程第8步在数据库中选择一点8 已经在簇2中选择下一个点第9步在数据库中选择一点9 已经在簇1中选择下一个点第10步在数据库中选择一点10 已经在簇1中选择下一个点第11步在数据库中选择一点11 已经在簇2中选择下一个点第12步选择12点已经在簇1中由于这已经是最后一点所有点都以处理程序终止基于密度方法的聚类 DBSCAN 算法执

9、行过程 19 DBSCAN OriginalPoints Clusters 特点抗噪声能处理任意形状聚类基于密度方法的聚类优点能克服基于距离的算法只能发现类圆形的聚类的缺点可发现任意形状的聚类有效地处理数据集中的噪声数据数据输入顺序不敏感缺点输入参数敏感确定参数 MinPts困难若选取不当将造成聚类质量下降由于在DBSCAN算法中变量 MinPts是全局惟一的当空间聚类的密度不均匀聚类间距离相差很大时聚类质量较差计算密度单元的计算复杂度大需要建立空间索引来降低计算量且对数据维数的伸缩性较差这类方法需要扫描整个数据库每个数据对象都可能引起一次查询因此当

10、数据量大时会造成频繁的I O操作 OPTICS算法尽管dbscan能够根据给定的输入参数和MinPts聚类对象但是它把选择能产生可接受的聚类结果的参数值的责任留给了用户这是许多其他算法都存在的问题但是对于高维数据而言设定准确的参数非常困难参数设置有细微的不同都可能导致差别很大的聚类结果全局参数不能很好地刻画其内在的聚类结构 OPTICS算法下图中所描述的数据集不能通过一个全局密度参数同时区分出簇A B C C1 C2和C3 只能得到A B C或C1 C2和C3 对于C1 C2和C3而言A B C都是噪声对于固定的MinPts值和两个 1 2 关于 1的MinPts簇C一定是

11、关于 2和MinPts簇C 的子集这就意味着如果两个对象在同一个基于密度的簇中则它们也是在同一个具有较低密度要求的簇中 23 OPTICS 通过点排序识别聚类结构对于真实的高维的数据集合而言参数的设置通常是依靠经验难以确定绝大多数算法对参数值是非常敏感的设置的细微不同可能导致差别很大的聚类结果 OPTICS算法通过对象排序识别聚类结构 OPTICS没有显式地产生一个数据集合簇它为自动和交互的聚类分析计算一个簇排序这个次序代表了数据的基于密度的聚类结构较稠密中的对象在簇排序中相互靠近 24 OPTICS 簇排序选择这样的对象即关于最小的E值它是密度可达的以便较高密度

12、较低E值的簇先完成对象p的核心距离使p成为核心对象的最小如果p不是核心对象那么p的核心距离没有任何意义可达距离对象q到对象p的可达距离是指p的核心距离和p与q之间欧几里得距离之间的较大值如果p不是核心对象 p和q之间的可达距离没有意义 OPTICS算法核心距离与可达距离假设 6mm MinPts 5 P的核心距离是p于第四个最近的数据对象之间的距离 q1到p的可达距离是p的核心距离 3mm 因为它比q1到p的欧氏距离大 q2关于p的可达距离是p到q2的欧氏距离它大于p的核心距离 OPTICS算法 OPTICS算法并不显式的产生数据及聚类而是输出簇排序 clustero

13、rdering 这个排序是所有分析对象的线性表并且代表数据基于密度的聚类结构较稠密簇中的对象在簇排序中相互靠近这个排序等价于从较广泛的参数设置中得到基于密度的聚类这样optics不需要用户提供特定密度阈值簇排列可以用来提取基本聚类信息导出内在的聚类结构也可以提供聚类的可视化 OPTICS算法为了构造不同的类对象需要按特定的次序处理这个次序选择这样的对象及关于最小的值它是密度可达的以便较高密度较低值的簇先完成 optics算法计算给定数据库中所有对象的排序并且存储每个对象核心距离和相应的可达距离 optics维护一个称作orderseeds的表来来产生输出排列

14、 orderseeds中的对象按到各自的最近核心对象的可达距离排序及按每个对象的最小可达距离排序 28 OPTICS 通过点排序识别聚类结构算法思路首先检查数据对象集合D中任一个对象的E 邻域设定其可达距离为未定义并确定其核心距离然后将对象及其核心距离和可达距离写入文件如果P是核心对象则将对象P的E 邻域内的对象N P 插入到一个种子队列中包含在种子队列中的对象p 按到其直接密度可达的最近的核心对象q的可达距离排序种子队列中具有最小可达距离的对象被首先挑选出来确定该对象的E一邻域和核心距离然后将其该对象及其核心距离和可达距离写入文件中如果当前对象是核心对象则更多的用

15、于扩展的后选对象被插入到种子队列中这个处理一直重复到再没有一个新的对象被加入到当前的种子队列中 29 OPTICS 通过点排序识别聚类结构 Step1 有序种子队列初始为空结果队列初始为空 Step2 如果所有点处理完毕算法结束否则选择一个未处理对象即不在结果队列中放入有序种子队列 Step3 如果有序种子队列为空返回Step2 否则选择种子队列中的第一个对象P进行扩张 Step3 1 如果P不是核心节点转Step4 否则对P的E邻域内任一未扩张的邻居q进行如下处理Step3 1 1 如果q已在有序种子队列中且从P到q的可达距离小于旧值则更新q的可达距离并调整q到相应位置以保证队列的有序性 Step3 1 2 如果q不在有序种f队列中则根据P到q的可达距离将其插入有序队列 Step4 从有序种子队列中删除P 并将P写入结果队列中返回Step3 OPTICS 通过点排序识别聚类结构数据集的排序可以用图形描述有助于可视化和理解数据集中聚类结构例如下图是一个简单的二维数据集的可达图其中三个高斯凸起反映数据集中比较稠密的部分 30 参数的影响减小则可达距离为无穷大的点增多 MinPts减小核心对象增多图象更尖锐不同密度形状大小的簇

展开阅读全文