聚类分析的思路和方法

资源描述

《聚类分析的思路和方法》由会员分享，可在线阅读，更多相关《聚类分析的思路和方法（78页珍藏版）》请在金锄头文库上搜索。

1、聚类分析的思路和方法2什么是聚类分析？v聚类分析是根据聚类分析是根据“物以类聚物以类聚”的道理，对样本或指的道理，对样本或指标进行分类的一种多元统计分析方法，它们讨论的标进行分类的一种多元统计分析方法，它们讨论的对象是大量的样本，要求能合理地按各自的特性进对象是大量的样本，要求能合理地按各自的特性进行合理的分类，没有任何模式可供参考或依循，即行合理的分类，没有任何模式可供参考或依循，即在没有先验知识的情况下进行的。在没有先验知识的情况下进行的。3聚类分析的基本思想聚类分析的基本思想v基本思想是认为研究的样本或变量之间存在着程度不同的相基本思想是认为研究的样本或变量之间存在着程度不同的相似性（亲

2、疏关系）。似性（亲疏关系）。v根据一批样本的多个观测指标，找出一些能够度量样本或变根据一批样本的多个观测指标，找出一些能够度量样本或变量之间相似程度的统计量，以这些统计量作为分类的依据，量之间相似程度的统计量，以这些统计量作为分类的依据，把一些相似程度较大的样本（或指标）聚合为一类，把另外把一些相似程度较大的样本（或指标）聚合为一类，把另外一些相似程度较大的样本（或指标）聚合为一类，直到把所一些相似程度较大的样本（或指标）聚合为一类，直到把所有的样本（或指标）都聚合完毕，形成一个由小到大的分类有的样本（或指标）都聚合完毕，形成一个由小到大的分类系统。系统。4聚类分析无处不在聚类分析无处不在v谁

3、经常光顾商店，谁买什么东西，买多少？谁经常光顾商店，谁买什么东西，买多少？v按按会会员员卡卡记记录录的的光光临临次次数数、光光临临时时间间、性性别别、年年龄龄、职业、购物种类、金额等变量分类职业、购物种类、金额等变量分类v这样商店可以这样商店可以v识识别别顾顾客客购购买买模模式式（如如喜喜欢欢一一大大早早来来买买酸酸奶奶和和鲜鲜肉肉，习惯周末时一次性大采购）习惯周末时一次性大采购）v刻画不同的客户群的特征刻画不同的客户群的特征5聚类分析无处不在v挖掘有价值的客户，并制定相应的促销策略：挖掘有价值的客户，并制定相应的促销策略：如，对经常购买酸奶的客户如，对经常购买酸奶的客户对累计消费达到对累计消

4、费达到12个月的老客户个月的老客户v针针对对潜潜在在客客户户派派发发广广告告，比比在在大大街街上上乱乱发发传传单命中率更高，成本更低！单命中率更高，成本更低！6聚类分析无处不在v谁是银行信用卡的黄金客户？谁是银行信用卡的黄金客户？利利用用储储蓄蓄额额、刷刷卡卡消消费费金金额额、诚诚信信度度等等变变量量对对客客户户分分类类，找出找出“黄金客户黄金客户”！这样银行可以这样银行可以制定更具吸引力的服务，留住客户！比如：制定更具吸引力的服务，留住客户！比如：v一定额度和期限的免息透支服务！一定额度和期限的免息透支服务！v赠送百盛的贵宾打折卡！赠送百盛的贵宾打折卡！v在他或她生日的时候送上一个小蛋糕！在

5、他或她生日的时候送上一个小蛋糕！7聚类的应用领域v经济领域：经济领域：帮助市场分析人员从客户数据库中发现不同的客户群，并且用购买模帮助市场分析人员从客户数据库中发现不同的客户群，并且用购买模式来刻画不同的客户群的特征。式来刻画不同的客户群的特征。谁喜欢打国际长途，在什么时间，打到那里？谁喜欢打国际长途，在什么时间，打到那里？对住宅区进行聚类，确定自动提款机对住宅区进行聚类，确定自动提款机ATM的安放位置的安放位置股票市场板块分析，找出最具活力的板块龙头股股票市场板块分析，找出最具活力的板块龙头股企业信用等级分类企业信用等级分类v生物学领域生物学领域推导植物和动物的分类；推导植物和动物的分类；对

6、基因分类，获得对种群的认识对基因分类，获得对种群的认识v数据挖掘领域数据挖掘领域作为其他数学算法的预处理步骤，获得数据分布状况，集中对特定的作为其他数学算法的预处理步骤，获得数据分布状况，集中对特定的类做进一步的研究类做进一步的研究8 例例对对10位位应应聘聘者者做做智智能能检检验验。3项项指指标标X，Y和和Z分分别别表表示示数数学学推推理理能能力力、空空间间想想象象能能力力和和语语言言理理解解能能力力。得得分分如如下下，选选择择合合适适的的统统计计方方法法对应聘者进行分类。对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322

7、232927Z2818162226222224242491011 聚聚类类分分析析根根据据一一批批样样本本的的许许多多观观测测指指标标，按按照照一一定定的的数数学学公公式式具具体体地地计计算算一一些些样样本本或或一一些些指指标标的的相相似似程程度度，把把相相似似的的样样本本或或指指标标归归为为一一类类，把把不不相相似似的归为一类。的归为一类。 12样本或变量间亲疏程度的测度样本或变量间亲疏程度的测度v研究样本或变量的亲疏程度的数量指标有两种：研究样本或变量的亲疏程度的数量指标有两种：v一一种种叫叫相相似似系系数数，性性质质越越接接近近的的变变量量或或样样本本，它它们们的的相相似似系系数数越越接

8、接近近于于1 1或或一一l l，而而彼彼此此无无关关的的变变量量或或样样本本它它们们的的相相似似系系数数则则越越接接近近于于0 0，相相似似的的为为一一类类，不相似的为不同类。不相似的为不同类。v另另一一种种叫叫距距离离，它它是是将将每每一一个个样样本本看看作作p p维维空空间间的的一一个个点点，并并用用某某种种度度量量测测量量点点与与点点之之间间的的距距离离，距距离较近的归为一类，距离较远的点应属于不同的类。离较近的归为一类，距离较远的点应属于不同的类。13v设有设有n个样本单位，每个样本测得个样本单位，每个样本测得p项指标项指标（变量），原始资料矩阵为：（变量），原始资料矩阵为：14定比变

9、量的聚类统计量：距离统计量定比变量的聚类统计量：距离统计量v绝对距离绝对距离v欧式距离欧式距离v明考斯基距离明考斯基距离v兰氏距离兰氏距离v马氏距离马氏距离v切氏距离切氏距离15v1. 绝对距离（绝对距离（Block距离）距离）v2. 欧氏距离欧氏距离(Euclidean distance)16v3. 明考斯基距离明考斯基距离(Minkowski)v4. 兰氏距离兰氏距离v5. 马氏距离马氏距离v6. 切比雪夫距离切比雪夫距离(Chebychev)1718v1. 相关系数相关系数v2. 夹角余弦夹角余弦定比变量的聚类统计量：相似系数统计量定比变量的聚类统计量：相似系数统计量19计数变量计数变量

10、(Count)（离散变量）的聚类统计量（离散变量）的聚类统计量v对对于于计计数数变变量量或或离离散散变变量量，可可用用于于度度量量样样本本（或或变变量量）之之间间的的相相似似性性或或不不相相似似性性程程度度的的统统计计量量主主要要有有卡卡方方测测度度（ Chi-square measure）和和 Phi方方测测度度（ Phi-square measure）。）。20二值二值(Binary)变量的聚类统计量变量的聚类统计量21聚类的类型v根根据据聚聚类类对对象象的的不不同同，分分为为Q型型聚聚类类和和R型型聚聚类类。vQ型型聚聚类类：样样本本之之间间的的聚聚类类即即Q

11、型型聚聚类类分分析析，则常用则常用距离距离来测度样本之间的亲疏程度。来测度样本之间的亲疏程度。vR型型聚聚类类：变变量量之之间间的的聚聚类类即即R型型聚聚类类分分析析，常用常用相似系数相似系数来测度变量之间的亲疏程度。来测度变量之间的亲疏程度。22聚类的类型v根根据据聚聚类类方方法法的的不不同同分分为为系系统统聚聚类类和和K均均值值聚类。聚类。v系系统统聚聚类类：又又称称为为层层次次聚聚类类（hierarchical cluster），是是指指聚聚类类过过程程是是按按照照一一定定层层次次进进行的。行的。vK均值聚类（均值聚类（ K-means Cluster ）23层次聚类层次聚类v基本思想：

12、基本思想：在在聚聚类类分分析析的的开开始始，每每个个样样本本（或或变变量量）自自成成一一类类；然然后后，按按照照某某种种方方法法度度量量所所有有样样本本（或或变变量量）之之间间的的亲亲疏疏程程度度，并并把把最最相相似似的的样样本本（或或变变量量）首首先先聚聚成成一一小小类类；接接下下来来，度度量量剩剩余余的的样样本本（或或变变量量）和和小小类类间间的的亲亲疏疏程程度度，并并将将当当前前最最接接近近的的样样本本（或或变变量量）与与小小类类聚聚成成一一类类；再再接接下下来来，再再度度量量剩剩余余的的样样本本（或或变变量量）和和小小类类间间的的亲亲疏疏程程度度，并并将将当当前前最最接接近近的的样样

13、本本（或或变变量量）与与小小类类聚聚成成一一类类；如如此此反反复复，直直到到所所有有样本（或变量）聚成一类为止。样本（或变量）聚成一类为止。24v系统聚类法不仅需要度量个体与个体之间的系统聚类法不仅需要度量个体与个体之间的距离，还要度量类与类之间的距离。类间距距离，还要度量类与类之间的距离。类间距离被度量出来之后，距离最小的两个小类将离被度量出来之后，距离最小的两个小类将首先被合并成为一类。由类间距离定义的不首先被合并成为一类。由类间距离定义的不同产生了不同的系统聚类法。同产生了不同的系统聚类法。25类间距离的度量方法v最短距离法最短距离法(Nearest Neighbor)v最长距离法最长距

14、离法(Further Neighbor)v组间平均连接法组间平均连接法(Between-group linkage)v组内平均连接法组内平均连接法(Within-group linkage)v重心法重心法(Centroid clustering)v中位数法中位数法(Median clustering)v离差平方和法离差平方和法(Wards method)26最短距离法最短距离法(Nearest Neighbor)v以两类中距离最近的两个个体之间的距离作以两类中距离最近的两个个体之间的距离作为类间距离。为类间距离。27x21x12x22x1128最长距离法最长距离法(Further Neighb

15、or)v以两类中距离最远的两个个体之间的距离作以两类中距离最远的两个个体之间的距离作为类间距离。为类间距离。29x11x2130组间平均连接法组间平均连接法(Between-group linkage)v以以两两类类个个体体两两两两之之间间距距离离的的平平均均数数作作为为类类间间距离。距离。31组间平均连接法（Between-group Linkage)32组内平均连接法组内平均连接法(Within-group linkage)v将将两两类类个个体体合合并并为为一一类类后后，以以合合并并后后类类中中所所有个体之间的平均距离作为类间距离。有个体之间的平均距离作为类间距离。33 组内平均连接法（组

16、内平均连接法（Within-group Linkage)x21x12x22x1134重心法重心法(Centroid clustering)v以以两两类类变变量量均均值值（重重心心）之之间间的的距距离离作作为为类类间距离。间距离。35重心距离：均值点的距离重心距离：均值点的距离36中位数法中位数法(Median clustering)v以两类变量中位数之间的距离作为类间距离。以两类变量中位数之间的距离作为类间距离。37离差平方和法离差平方和法(Wards method)v离离差差平平方方和和法法是是由由Ward提提出出的的，因因此此也也称称为为Ward方方法法。具具体体做做法法是是，先先将将n个

17、个个个体体各各自自成成一一类类，然然后后每每次次减减少少一一类类，随随着着类类与与类类的的不不断断聚聚合合，类类内内的的离离差差平平方方和和必必然然不不断断增增大大，选选择择使使离离差差平平方方和和增增加加最最小小的的两两类类合合并并，直直到所有的个体归为一类为止。到所有的个体归为一类为止。38 主要步骤主要步骤1. 1. 选择变量选择变量（1）和聚类分析的目的密切相关）和聚类分析的目的密切相关（2）反映要分类变量的特征）反映要分类变量的特征（3）在不同研究对象上的值有明显的差异）在不同研究对象上的值有明显的差异（4）变量之间不能高度相关）变量之间不能高度相关2. 2. 数据变换处理数

18、据变换处理为了消除各指标量纲的影响，需要对原始数为了消除各指标量纲的影响，需要对原始数据进行必要的变换处理。据进行必要的变换处理。 393. 3. 计算聚类统计量计算聚类统计量聚聚类类统统计计量量是是根根据据变变换换以以后后的的数数据据计计算算得得到到的的一一个个新新数数据据，它它用用于于表表明明各各样样本本或或变变量量间间的的关关系系密密切切程程度度。常常用用的的统统计计量量有有距距离离和和相似系数两大类。相似系数两大类。40 4. 4. 聚类聚类主要涉及两个问题：主要涉及两个问题：（1 1）选择聚类的方法）选择聚类的方法（2 2）确定形成的类数）确定形成的类数415. 5. 聚类

19、结果的解释和证实聚类结果的解释和证实对聚类结果进行解释是希望对各个类的特征进行准对聚类结果进行解释是希望对各个类的特征进行准确的描述，给每类起一个合适的名称。这一步可以借助确的描述，给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析，通常的做法是计算各类在各种描述性统计量进行分析，通常的做法是计算各类在各聚类变量上的均值，对均值进行比较，还可以解释各各聚类变量上的均值，对均值进行比较，还可以解释各类产生的原因。类产生的原因。 42k-均值聚类均值聚类K-means ClustervK-均值聚类也叫快速聚类均值聚类也叫快速聚类v要求事先确定分类数要求事先确定分类数v运算速度快（特别

20、是对于大样本）运算速度快（特别是对于大样本）43k-均值聚类均值聚类K-means Clusterv系系统统首首先先选选择择k个个聚聚类类中中心心，根根据据其其他他观观测测值值与与聚聚类类中中心心的的距距离离远远近近，将将所所有有的的观观测测值值分分成成k类类；再再将将k个个类类的的中中心心（均均值值）作作为为新新的的聚聚类类中中心心，重重新新按按照照距距离离进进行行分分类类；，这这样样一一直直迭迭代代下下去去，直直到到达达到到指指定定的的迭迭代代次次数数或或达达到到中中止止迭迭代代的的判判据据要要求求时时，聚聚类类过过程程结束。结束。44聚类分析终止的条件聚类分析终止的条件v迭迭代代次次数数

21、：当当目目前前的的迭迭代代次次数数等等于于指指定定的的迭迭代次数（代次数（SPSS默认为默认为10）时终止迭代。）时终止迭代。v类类中中心心点点偏偏移移程程度度：新新确确定定的的类类中中心心点点距距上上个个类类中中心心点点的的最最大大偏偏移移量量小小于于等等于于指指定定的的量量（SPSS默认为默认为0）时终止聚类。）时终止聚类。45例子1：31个省区小康和现代化指数的聚类分析v利利用用2001年年全全国国31个个省省市市自自治治区区各各类类小小康康和和现代化指数的数据，对地区进行聚类分析。现代化指数的数据，对地区进行聚类分析。v数数据据中中包包括括6类类指指数数：综综合合指指数数、社社会会结结

22、构构指指数数、经经济济与与技技术术发发展展指指数数、人人口口素素质质指指数数、生活质量指数、法制与治安指数生活质量指数、法制与治安指数。46系统聚类47vAgglomeration schedule：输出聚类过程表：输出聚类过程表vProximity matrix：输输出出各各个个体体之之间间的的距距离离矩阵矩阵vCluster Membership：每个个体类别归属表：每个个体类别归属表48vDendrogram：聚类树形图：聚类树形图vIcicle：冰柱图：冰柱图495051525354如果分为3类v第第1类：北京、上海、天津类：北京、上海、天津v第第2类：江苏、山东、辽宁、浙江、广东、福

23、类：江苏、山东、辽宁、浙江、广东、福建、黑龙江、吉林建、黑龙江、吉林v第第3类：其余省区类：其余省区55输出各组的统计信息在数据文件中保存分在数据文件中保存分类信息类信息DataSplit file565758K均值聚类vIterate and classify：不断计算新的类中心，替换旧的类中心。：不断计算新的类中心，替换旧的类中心。vClassify only：根据初始类中心进行聚类，不改变类中心。：根据初始类中心进行聚类，不改变类中心。596061626364例子2：土壤样本聚类分析v有有20个个土土壤壤样样本本，利利用用含含沙沙量量、淤淤泥泥含含量量、粘粘土土含含量量、有有机机物物、pH值值5个个变变量量的的数数据据对对这这20个土壤样本进行分类。个土壤样本进行分类。65系统聚类6667686970717273K均值聚类7475767778

展开阅读全文

聚类分析的思路和方法

最新文档