两步聚类中文版详解

资源描述

《两步聚类中文版详解》由会员分享，可在线阅读，更多相关《两步聚类中文版详解（11页珍藏版）》请在金锄头文库上搜索。

1、目录第一节摘要2第二节介绍2第三节统计方法3第四节两步聚类方法的分析3第五节案例研究7第六节输入7第七节输出8第八节讨论10第九节结论11第一节摘要本文利用SPSS两步聚类的方法将现有的数据分为三个集群以分析银行客户的信息。对于我们的案例研究，这个方法是完美的，因为与其他经典聚类方法相比，两步聚类方法采用混合数据（包括连续和分类变量），它也发现了最优数量的集群。两步聚类方法创建三个客户的配置文件，最大的一组包括最有资历（与银行合作时间悠久）的客户，其信用卡申请的目的是教育或者公司业务。第二组主要包括拥有房产的客户，但主要是失业，他们信用卡申请的目的在于再培训或者

2、添置家庭用品。第三组主要是包括那些拥有未知属性的人，他们申请额度的目的在于购买汽车、添置电视或者教育。本文所涉及的研究目的主要在于便于本行更好的管理以加强公司的利润空间。第二节介绍在不同的领域中，不同的应用程都序可以使用聚类算法。然而,大多数的这些算法只处理数值数据和分类数据。然而,现实世界的数据可能包含数值和分类属性。两步聚类的方法是SPSS中解决这个问题的一个途径之一。在本文中,我们打算从一个银行提供的公共数据集中使用两部聚类的方法来确定银行客户的资料。该方法的优势在于可以确定适当数量的集群,所以我们的目标是找到这个概要文件的数量,有效地管理现有的和可能存在的客户。在下面几节

3、中,我们介绍两步聚类的方法和案例研究中的输入、输出和结果的分析。第三节统计方法数据分组（或数据集群）是一种方法,可以形成具有类似特征的类的对象。集群通常是与分类混淆,但有一个主要的区别,即分类时,对象被分配到预定义的类,而在集群的情况下,必须定义这些类。我们预计数据时使用集群技术自然得分组到不同的类别。集群类别的物品有很多共同的特点,例如,客户、事件等等。如果问题是复杂的,在聚类数据前,其他数据挖掘技术也可以应用（如神经网络和决策树）。经典的聚类方法使用分层或分区算法。分层算法在集群的基础之上建立集群,而分区算法在同一时间确定所有的集群，建立不同的分区，然后评估他们某些标准。在S

4、PSS 中,聚类分析可以使用两步聚类、分层集群或k - means聚类，每个方法都依赖不同的算法来创建集群。最后两个经典的分类方法是基于分层、分区的算法，而二步聚类方法在 SPSS 中是特别设计和实现的方法。对于应用程序而言，考虑到不同的数据类型这种情况，分层集群方法是有限的小数据集,k - means仅限于连续值，而两步聚类方法基于连续和分类变量的情况下可以创建集群模型。接下来，我们将探讨两步聚类方法，突出其优势之处。第四节两步聚类方法的分析两步聚类方法是设计用来分析大型数据集的算法。这个算法会用标准方法将不同的观察结果分组到不同的集群之中。这个过程会使用一个凝聚的层次聚类方法。与

5、经典的聚类分析方法相比，两步聚类分析方法使用连续的分类属性。此外，该方法可以自动确定最优数量的集群。两步聚类分析方法的实现主要包括下面几个步骤：o 预聚类o 解决处理非典型值（异常值）-噪声处理，可选o 聚类在预聚类步骤中，它会扫描数据记录，基于标准的距离决定当前记录是否可以添加到一个以前形成的集群或开始一个新的集群。测距的方法使用了两个类型:欧式距离和对数似然距离。预聚类过程的实现通过构建一个数据结构（称为CF（集群特性）树），其中包含集群中心。CF树有水平的节点,每个节点有一个条目的数量。叶子节点是最后的子类。对于每一个记录，从根节点开始，找到最近的子节点递归，沿着 CF 树下行。

6、一旦到达一个叶子节点,该算法找到最近的叶子节点中的叶条目。如果记录的数量在一个阈值距离之内,就会记录添加到叶子节点并且 CF 树更新。否则,它会创建一个新的叶子节点的值。在构建 CF 树的过程中,该算法实现了一个可选的步骤：可以解决非典型值（异常值）。离群值被认为并不能很好的适合任何集群的一个记录。在SPSS，在一片叶子中如果记录的数量小于一定比例的规模最大的CF树中的叶子条目就会被认为是离群值;默认情况下，这个比例是25%。在重建CF树之前，会搜索潜在的典型值，将他们放在一边。CF 树重建后,程序检查这些值是否恰当，是否可以不增加树的大小。最后,值不恰当会被认为是离群值。如果 CF

7、树超过允许的最大尺寸，它会基于现有的 CF 树，通过增加阈值距离重建 CF 树，。新的 CF 树会小很多，也允许输入新的记录。预聚类作为输入的一个步骤会产生有子类的聚类（没有噪声，如果你选择了处理非典型值这个选项）并且组成有价值的聚类的数量。因为子类的数量远小于初始时的记录数量，因此经典的聚类方法可以成功地使用。两步聚类方法使用一个凝结的自动分层方法决定了集群的数量。层次聚类方法是指集群不断融合的过程，直到一个集群组包括所有的记录。这个过程始于为每个子集定义一个初始集群。然后，所有集群进行比较并且集群之间的距离是最小的两个集群会合并成一个集群。这个过程会一直重复直到所有集群已经合并

8、。因此，它是相当简单的比较不同数量的集群解决方案。计算集群之间的距离，可以使用欧式距离和对数似然距离。欧式距离只有所有变量是连续的情况下可以使用。欧式距离是在m维空间中两个点的真实距离。对于集群来说，两个集群之间中心之间的距离被定义为欧式距离。集群中心被定义为集群中变量的容器。可以使用对数似然距离来分析连续和分类变量。两个集群之间的距离与似然函数的自然对数的减少是相关的，因此他们会被分组到一个集群。计算对数似然距离，假定连续变量正态分布和分类变量的多项式分布，以及变量是相互独立的。定义i和j两个集群之间的距离为:其中0 = -叫(Ka f；詁.：七=1七=1J在公式（2）中叮一士畔

9、咤寻Li 1儿弘-是i和j两个集群之间的距离；索引代表通过集群i和j的结合后生成的新的集群；人是所有连续变量的总数；是所有分组变量的总数；是第k个分类变量的数量；:是S集群中所有数据记录的数量；是S集群的数量，分类变量k 分成了 l个分组；一是分组变量k分成l个分组的记录的数量；对整个数据集来说, 是对连续变量k的方差（离散）的估计，r在集群j中，对于连续变量k的方差估计。为了自动确定集群的数量,该方法使用两个阶段。在第一个阶段,指示器BIC（施瓦兹 -贝叶斯准则）或AIC（Akaike准则）计算为每个集群从一个指定范围中计算数量;然后这个指示器用于寻找一个初始估计集群的数量。对于J集群

10、，两个指示器通过公式（4）和（5）计算得出，过程如下BIC(J) = -22L1 我八咆心(4)其中变量的相对贡献形成了集群计算的两种类型的变量连续和分类）。连续变量的重要性的衡量标准是基于:在这个公式中：丿是连续变量估计值的意思，并且是集群j中连续变量k的估计值。在H。（零假设），重要性衡量中学生分布呈Nk-1的自由度分布。显著性水平是双侧的。对于分组变量，重要性衡量是建立在X2的基础上的：在零假设中，作为一个X2和Lk的自由度。对于项目的集群成员，记录被分配用于解决非典型值的规范（噪声）和选择测量的距离。如果解决非典型值的选择不使用，根据距离测量的方法，值会分配给最近的集群中。否则，

11、该值是区别对待的，如下：1）在欧几里得的方法的情况下，一个项目被分配到最近的集群,如果它们之间的距离小于临界值：II J ka否则，该项目被声明为噪声（异常）2）如果选择对数似然方法，它假定噪声均匀分布,并且计算对数似然对应于一个有噪声项目且分配到最近的无噪声集群。然后，项目分配给集群获得对数的最高价值。这相当于将一个项目分配给最近的集群，如果它们之间的距离小于临界值。否则，项目被指定为噪音。总之，该方法的一个重要优点是它与混合数据操作（包括连续和分类数据）。另一个优势是,尽管两步聚类方法处理大型数据集，就所需处理这些数据的时间而言，这种方法比其他方法需要更短的时间。缺点是两步聚类

12、方法不允许丢失值且缺失值的项目不考虑分析第五节案例研究自从两步聚类方法开始成为大型数据集和处理混合数据的首选后，我们应用此方法并使用一些从银行获取的的公共数据聚类数据。另一方面,这些数据被用在另一个应用程序来减少维度应用PCA（主成分分析）。并在下文给出了该方法的输入和输出。第六节输入供给我们研究的数据集是从一家银行提供的公共数据库中的信息，数据真实可靠，在SPSS中，大致有14000条记录。这个表包含信用卡还款的的持续时间信息,信用历史，信用卡申请用途，信贷金额，储蓄账户，工龄，还款周期，个人状态、居住权、财产、年龄、住房、银行信用额度，工作，家属和信用批准状态等等。表1中给出这

13、个数据的一部分。Table i. Source dataDurationC reditH istaryPurpose(reditAinounlYearsEmpliiyed Paj menlRatePeinnailStatu&criticalfelevisiun1109.0:T4.0malejsmgle48ok lil nowtelevision5951.042.0female12criticaleducntion2096.072.0male singleok lil nowfLirnituie7882.0.2,0male single24past delays1870.043.0malesi

14、ngle36ok lil now9055.0=73.0male single36ok lil nowcai- used6948.0A2.0male single12ok lil nowtelevision3059.072.0mLe di voiced30criticalcai new5234.0miemployed4.0jiialemarried数据库包含3个分类变量和4个连续变量。默认情况下，连续变量被标准化。因为我们使用混合数据，我们在距离度量上只有对数似然的选择。在第一次运行，我们选择BIC确定聚类的数量，虽然我们可以重写此步骤并指定一个固定的数字。但是结果使用AIC运行是和BIC运行

15、结果是一致的，所以目前我们使用BIC指标。关于对于我们数据集的噪声处理方面，我们决定不检查噪声。异常值定义为在CF树的情况下，其他的叶子不超过规定的最大叶大小的百分比。通过SPSS软件的一个重要选择是XML格式的CF树或整个模型的导出。这允许模型进行更新，以增加额外的数据集。第七节输出1点击“分析I分类I两步聚类”命令，弹出“二阶聚类分析”对话框，如下所示,rtftaaco：1S出也） +Afi1HWA 押SfiAViXffl用前匹 Zx*srnffiiUifi：y苍自曲曽宦回曲-Ti ；环磁厂卜冲吨电帧财细釦|匪|国assiyr 卩岸、He j怙站曰SXi&i亀肖 Mft2将个人税前年收入，申请人申请信用额度和工龄拖入

展开阅读全文

两步聚类中文版详解

最新文档