第八章聚类分析

上传人:鲁** 文档编号:567704430 上传时间:2024-07-22 格式:PPT 页数:18 大小:297.50KB
返回 下载 相关 举报
第八章聚类分析_第1页
第1页 / 共18页
第八章聚类分析_第2页
第2页 / 共18页
第八章聚类分析_第3页
第3页 / 共18页
第八章聚类分析_第4页
第4页 / 共18页
第八章聚类分析_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《第八章聚类分析》由会员分享,可在线阅读,更多相关《第八章聚类分析(18页珍藏版)》请在金锄头文库上搜索。

1、第八章第八章 聚类分析聚类分析 “物以类聚物以类聚, 人以群分人以群分” ,科学研究在揭示对象特点及其相互作用的,科学研究在揭示对象特点及其相互作用的过程中过程中, 不惜花费时间和精力进行对象分类不惜花费时间和精力进行对象分类 ,以揭示其中相同和不相同的,以揭示其中相同和不相同的特征。在心理学研究中特征。在心理学研究中, 经常遇到的分类包括两种情况:一是对研究样本经常遇到的分类包括两种情况:一是对研究样本或个案的分类或个案的分类, 即根据每个个案的一系列观测指标,将那些在这些观测量即根据每个个案的一系列观测指标,将那些在这些观测量方面表现相近的个案归为一类方面表现相近的个案归为一类, 将那些在

2、这些观测量方面的表现很不相同将那些在这些观测量方面的表现很不相同的个案归为不同类,类似于判别分析;二是对观测量的分类,即将一系列的个案归为不同类,类似于判别分析;二是对观测量的分类,即将一系列的观测量归类合并为性质明显不同的少数几个方面,类似于因素分析。的观测量归类合并为性质明显不同的少数几个方面,类似于因素分析。 但是聚类分析不同于因素分析:因素分析是根据所有变量间的相关关但是聚类分析不同于因素分析:因素分析是根据所有变量间的相关关系提取公共因子;聚类分析是先将最相似的两个变量聚为一小类,再去与系提取公共因子;聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小类合并,如此分层依

3、次进行;聚类分析也不同于判别分最相似的变量或小类合并,如此分层依次进行;聚类分析也不同于判别分析:判别分析是要先知道各种类,然后判断某个案是否属于某一类。我们析:判别分析是要先知道各种类,然后判断某个案是否属于某一类。我们这里主要是要介绍聚类分析方法及其这里主要是要介绍聚类分析方法及其SPSS的实现过程。的实现过程。犊挎琵富谓硬宽楷堤涕堡万篆孰霄埃心茵廊宛岳钧谣夏混灵搜翻且团记灭第八章聚类分析第八章聚类分析一、聚类分析的基本原理一、聚类分析的基本原理 聚类分析是一种数值分类方法(即完全是根据数据关系)。要进行聚类分析是一种数值分类方法(即完全是根据数据关系)。要进行聚类分析就要首先建立一个由某

4、些事物属性构成的指标体系,或者说是聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。物的特征。 所谓完备的指标体系,是说入选的指标是充分的,其它任何新增变所谓完备的指标体系,是说入选的指标是充分的,其它任何新增变量对辨别事物差异无显著性贡献。如果所选指标不完备,则导致分类偏量对辨别事物差异无显著性贡献。如果所选指标不完备,则导致

5、分类偏差。比如要对家庭教养方式进行分类,就要有描述家庭教育方式的一系差。比如要对家庭教养方式进行分类,就要有描述家庭教育方式的一系列变量,这些变量能够充分地反映不同家庭对子女的教养方式。列变量,这些变量能够充分地反映不同家庭对子女的教养方式。 简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越准确、测量越可靠,得到的分类结果越是能描述事物方面。变量选择越准确、测量越可靠,得到的分类结果越是能描述事物各类间的本质区别。各类间的本质区别。获俊赵啼舔毅碎谤窘狞赂郊锋乎柿盼研恕赎伶翠差晌另碾薄右兢末写混泵第八章聚类分析第

6、八章聚类分析 聚类分析完全是根据数据情况来进行的。就一个由聚类分析完全是根据数据情况来进行的。就一个由n个个案、个个案、k个变量组成的数据文件来说个变量组成的数据文件来说 ,当对个案进行聚类分析时,相当于对,当对个案进行聚类分析时,相当于对k 维坐标系中的维坐标系中的n 个点进行分组,所依据的是它们的距离个点进行分组,所依据的是它们的距离 ;当对变量;当对变量进行聚类分析时,相当于对进行聚类分析时,相当于对n维坐标系中的维坐标系中的k个点进行分组,所依据个点进行分组,所依据的也是点距。所以距离或相似性程度是聚类分析的基础。点距如何的也是点距。所以距离或相似性程度是聚类分析的基础。点距如何计算呢

7、?拿连续测量的变量来说,可以用欧氏距离平方计算:即各计算呢?拿连续测量的变量来说,可以用欧氏距离平方计算:即各变量差值的平方和。变量差值的平方和。脚冶场鹤雨溢费摄凰倔家蔷递秘值两酸霉裙桃奶惮售瑶联燥涟察险笔尼绒第八章聚类分析第八章聚类分析1. 1. 聚类分析的前期准备工作聚类分析的前期准备工作 聚类分析是以完备的数据文件为基础的,这一数据文件除观聚类分析是以完备的数据文件为基础的,这一数据文件除观测变量比较完备之外,一般还要求各个观测变量的量纲一致,即测变量比较完备之外,一般还要求各个观测变量的量纲一致,即各变量取值的数量级一致,否则各变量在描述客观事物某方面特各变量取值的数量级一致,否则各变

8、量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。征差异性的作用有被夸大或缩小的可能。 所以,聚类分析前要检查各变量的量纲是否一致,不一致则所以,聚类分析前要检查各变量的量纲是否一致,不一致则需进行转换,如将各变量均作标准化转换就可保证量纲一致。需进行转换,如将各变量均作标准化转换就可保证量纲一致。2. 2. 聚类分析的主要方法聚类分析的主要方法街残迸长婉抉捞恃行凋稼已舍娄富帮彝烯评芝绑醋谐坷砸伞沛藉陶永栅兴第八章聚类分析第八章聚类分析二、二、Q Q聚类分析的聚类分析的SPSSSPSS过程过程第一步:第一步:数据文件的准备。数据文件的准备。Q聚类分析是根据一系列观测变聚类分析是根据一

9、系列观测变量的测量值对个案进行分类,分类的依据是个案之间的量的测量值对个案进行分类,分类的依据是个案之间的“距距离离”。聚类之前的数据文件包括:。聚类之前的数据文件包括:n个个案的个个案的k个观测值。此个观测值。此外还需要一个个案的标识变量。外还需要一个个案的标识变量。第二步:第二步:点击点击“Analyze”菜单选中菜单选中“Classify”的的“HierarchicalCluster Analysis”,打开对话框。将参与聚类分析的观测变量打开对话框。将参与聚类分析的观测变量置入置入“Variable(s)”下的方框中,将个案标识变量的变量名置下的方框中,将个案标识变量的变量名置入入 “

10、Label Cases By” 下的方框中,同时在下的方框中,同时在 Cluster 之下选择之下选择Cases。然后选中。然后选中“Statistics”和和“Plots”。岩傍酥滞弄疑没躺画夺伞猾郸傀论袋策秃吠世瓢率遇谷沂膘迎酗刽羡伏镑第八章聚类分析第八章聚类分析第三步:第三步:点击点击“Method”打开聚类分析的距离计算方法设置对打开聚类分析的距离计算方法设置对话框话框 ,以实现对小类间距离,以实现对小类间距离 、样本间距离计算方法的设置、样本间距离计算方法的设置 ,同时对量纲不一致情况下的变量观测值进行转换:同时对量纲不一致情况下的变量观测值进行转换:(1) 小类间距离计算:默认方式

11、是类间平均链锁法(小类间距离计算:默认方式是类间平均链锁法(Between-Groups linkage) ,这种方法最充分地使用了数据资料;,这种方法最充分地使用了数据资料;(2) 样本间距离计算:样本间距离计算: 观测变量为连续变量,默认方法:欧氏距离平方;观测变量为连续变量,默认方法:欧氏距离平方; 观测变量为顺序或名义变量,默认方法:卡方测量方法;观测变量为顺序或名义变量,默认方法:卡方测量方法; 观测变量为二项选择变量观测变量为二项选择变量, 默认方法:二元欧氏距离平方。默认方法:二元欧氏距离平方。(3) 如果观测变量的量纲不一致,还需设置对不同量纲变量进如果观测变量的量纲不一致,还

12、需设置对不同量纲变量进标准化处理。默认状态是标准化处理。默认状态是“none”,需要时可以选择需要时可以选择“Z-scores”,这是使用最广泛、最直观的转换方法这是使用最广泛、最直观的转换方法 。在进行量纲转换时。在进行量纲转换时 ,要选择要选择“By cases”表明是属于表明是属于Q聚类分析中的量纲转换。聚类分析中的量纲转换。罪绢派诡庙赐篷傅腰耽凭厨姻苯剩顿对痢牌胰付鸡翱慌首系瑶洁仙周励端第八章聚类分析第八章聚类分析第四步:第四步:指定图形输出。层次聚类分析的图形结果有两种形指定图形输出。层次聚类分析的图形结果有两种形式式(1)树形图()树形图(Dendrogram),它可以展现聚类分析

13、的每一它可以展现聚类分析的每一次合并过程,次合并过程,SPSS首先将各类之间的距离重新转换到首先将各类之间的距离重新转换到 025之间之间 ,然后表现在图上,然后表现在图上 。此图可以粗略地表现聚类的过程。此图可以粗略地表现聚类的过程 ;(2)冰柱图()冰柱图(Icicle), 包括纵向冰柱图(包括纵向冰柱图(Vertical) 和横向和横向冰柱图冰柱图(Horizontal) 。冰柱图用。冰柱图用X符号来表示聚类过程符号来表示聚类过程 , 其选其选择包括:全部、部分、无。择包括:全部、部分、无。恃件来噬充辛祝杂容嫂郭委烽斧练昂搀老敖咨悦传服髓纳拌沪镐桶宪滓醉第八章聚类分析第八章聚类分析第五步

14、:第五步:显示凝聚状态表。点击层次聚类分析对话框中的显示凝聚状态表。点击层次聚类分析对话框中的“statistics”可以打开设置凝聚状态对话框。可以打开设置凝聚状态对话框。(1) 选中选中“Agglomeration schedule”,可以输出聚类分析,可以输出聚类分析详细过程,即每一阶段完成的是哪些个案或小类间的聚集;详细过程,即每一阶段完成的是哪些个案或小类间的聚集;(2)选中)选中“Proximity matrix”,可以输出各个案的距离矩阵;可以输出各个案的距离矩阵;(3)设置个案归属结果显示状态:)设置个案归属结果显示状态: 选中选中none,不显示个案归属情况;,不显示个案归属

15、情况; 选中选中Single solution,则显示聚集成指定的,则显示聚集成指定的n类时个案类时个案 归属情况;归属情况; 选中选中Range of solutions,则显示聚集成,则显示聚集成n1到到n2范围内范围内 的各种情况下的个案归属情况。的各种情况下的个案归属情况。桃猾缮啪时敷艳殖乘恰腹注梳宛牧侣靖肋套胆糟超涌萤坟朴铸墒乒六肃锌第八章聚类分析第八章聚类分析第六步:第六步:设定保存层次聚类分析的结果。点击层次聚类分析设定保存层次聚类分析的结果。点击层次聚类分析对话框中的对话框中的“save”可以打开设置保存分类结果的对话框。在可以打开设置保存分类结果的对话框。在“Cluster

16、membership”下边:下边: 选中选中None,不保存聚类结果到数据编辑窗口;,不保存聚类结果到数据编辑窗口; 选中选中Single solution,则保存聚集成指定的,则保存聚集成指定的n类时个案类时个案 归属结果;归属结果; 选中选中Range of solutions,则显示聚集成,则显示聚集成n1到到n2范围内范围内 的各种情况下的个案归属结果。的各种情况下的个案归属结果。 OK!填闹菇眯佳逞恶盗限述哮颗塞此党蓝娱捆锌阳处杆迎烩旦叮磅抨连只福粳第八章聚类分析第八章聚类分析 实例分析:根据实例分析:根据20名被试在不同色光刺激下选择反应时间的反名被试在不同色光刺激下选择反应时间的

17、反应模式,对其进行类型划分。实验数据如下表所示:应模式,对其进行类型划分。实验数据如下表所示:IDREDGREENBLUEYELLOW1 14104103893894504504904902 23563563603603913914064063 34124124224224804804654654 43203203503504004004204205 53803803903904254254604606 63903904564564554554334337 74124124504504404404554558 83563563833834004004104109 940540539039049

18、049045045010103883884104104264264104101111378378410410426426409409121230030035035040040042042013134124124204204904905235231414420420430430451451480480151536836839039038938940340316163903904004004204205095091717405405380380510510489489181839039039039042842847647619194004003803805005004554552020420420

19、400400486486505505SPSSSPSS过程演示过程演示打扰璃盘虚襄跳猛饲激蹦羹管肉菊拴拴剑聂骇柒父挫承晌入炭冲售俄溜垂第八章聚类分析第八章聚类分析三、三、R R聚类分析的聚类分析的SPSSSPSS过程过程 R 层次聚类分析对研究对象的观察变量进行分类,它使得层次聚类分析对研究对象的观察变量进行分类,它使得具有共同特征的变量聚集在一起,以便选择其中具有代表性的具有共同特征的变量聚集在一起,以便选择其中具有代表性的变量,实现用较少变量刻画研究对象的目的。变量,实现用较少变量刻画研究对象的目的。 R聚类分析的过程与聚类分析的过程与Q 聚类分析的过程是一致的聚类分析的过程是一致的 ,只是

20、在,只是在打开打开“Hierarchical Cluster Analysis” 的对话框中选的对话框中选“Variables”的聚类。在变量间距离的计算方法上选的聚类。在变量间距离的计算方法上选“Pearson Correlation” ,其它操作与,其它操作与Q聚类相同。聚类相同。实例分析实例分析:根据学生考试分数对课程进行分类根据学生考试分数对课程进行分类斥壁峭蛛陡昧尔由努搀拄柯摆觉褪儒曲肚瓮辕撵墒溢漆弯嚎蔚汲坚三厂层第八章聚类分析第八章聚类分析四、快速聚类分析四、快速聚类分析 快速聚类分析是由研究者指定类别数的大样本资料逐步聚类分快速聚类分析是由研究者指定类别数的大样本资料逐步聚类分析

21、。它先对数据进行初始分类,然后逐步调整,得到最终分类。快析。它先对数据进行初始分类,然后逐步调整,得到最终分类。快速聚类分析一般是对个案来进行的。对于变量分类来说,当变量较速聚类分析一般是对个案来进行的。对于变量分类来说,当变量较少时可以使用层次聚类分析中的少时可以使用层次聚类分析中的R聚类分析;当变量数比较多时则聚类分析;当变量数比较多时则可以使用因素分析。可以使用因素分析。 快速聚类分析也是以个案的距离为基础的,与层次聚类分析不快速聚类分析也是以个案的距离为基础的,与层次聚类分析不同的是:快速聚类分析要指定分类的类别数。快速聚类分析的逻辑同的是:快速聚类分析要指定分类的类别数。快速聚类分析

22、的逻辑程序是:程序是:1 1. .用户指定分类类别数用户指定分类类别数k k(无经验(无经验时可以进行多次探索性分析)时可以进行多次探索性分析)2 2.SPSS.SPSS程序自动确定各类中心点程序自动确定各类中心点(有经验用户也可以自己定义)(有经验用户也可以自己定义)3 3. .计算所有个案数据点到计算所有个案数据点到k k个类中个类中心点的欧氏距离心点的欧氏距离4 4. .根据距离最近原则将个案归类,即根据距离最近原则将个案归类,即距离哪个类中心点最近归为哪个类距离哪个类中心点最近归为哪个类社未型栓个井胡母贬盯芳置竖揣银菜网歇奥夜辈打爷致仿涨豫爬夏岂沮富第八章聚类分析第八章聚类分析第一步:

23、第一步:数据文件的准备。快速聚类分析的数据文件往往比数据文件的准备。快速聚类分析的数据文件往往比较大,主要是包括的个案数较多,而且可以包括一个个案的较大,主要是包括的个案数较多,而且可以包括一个个案的标识变量。当数据文件中数据量纲不一致时,则需要对数据标识变量。当数据文件中数据量纲不一致时,则需要对数据进行标准化转换或其它转换。进行标准化转换或其它转换。第二步:第二步:点击点击 “Analyze” 菜单选中菜单选中 “Classify” 的的 “K-MeansCluster”打开快速聚类分析对话框,将参与聚类分析的观测打开快速聚类分析对话框,将参与聚类分析的观测变量置入变量置入“Variabl

24、e(s)”下的方框中,将个案标识变量的变量下的方框中,将个案标识变量的变量名置入名置入 “Label Cases By”下的方框中,指定聚类的类别数下的方框中,指定聚类的类别数 ,同时在同时在“Method”之下选择默认的之下选择默认的“Iterate and Classify”,这,这样,程序可以自动确定类中心点。样,程序可以自动确定类中心点。快速聚类分析的主要步骤是:快速聚类分析的主要步骤是:姻揽灯光絮筑珐南扮有宗赔劳价息由诸胞诬鸽炊洽惨躲应亿弯淮俱赃耻造第八章聚类分析第八章聚类分析第三步:第三步:点击点击“Options”打开统计参数显示对话框和缺省值处打开统计参数显示对话框和缺省值处理

25、方式对话框。在理方式对话框。在“Statistics”之下有三方面的显示要求:之下有三方面的显示要求: Initial cluster centers: 显示有关初始类中心点的数据;显示有关初始类中心点的数据; Anova table: 对快速聚类分析产生的类作单因素方差分析,对快速聚类分析产生的类作单因素方差分析, 并输出各个变量的方差分析表;并输出各个变量的方差分析表; Cluster information for each case: 输出个案的分类信息及输出个案的分类信息及 距所属类中心点的距离。距所属类中心点的距离。其它操作以默认方式进行其它操作以默认方式进行籽甭吃湍农块惨闰假玩痘

26、烁澎钎陶宋诫坝秒衫嘉草佳讹偿较影摄殃泻这数第八章聚类分析第八章聚类分析 实例分析:为反映员工心理因素方面的差异性,某研究者调研实例分析:为反映员工心理因素方面的差异性,某研究者调研了一工厂了一工厂36名员工的名员工的6 项心理因素项心理因素 ,如下表所示。请根据这一分数,如下表所示。请根据这一分数对员工进行分类,并回答:员工分成几类比较理想?对员工进行分类,并回答:员工分成几类比较理想?Z1Z2Z3Z4Z5Z6Z1Z2Z3Z4Z5Z6666462505856536653595545555059595351615558615861504749454646596460525456555950545

27、269556072605567555948564750565268405155625468464651595161565256606056535251605362554763525269585762525157455559565557394446565757525955505068464556685871685361585460595251605361605651535255576564645674505957525653576351675360535351566552516247565667675652506359535548534649435048635760665156535765526

28、759564658504552604071575658475057495048544544494246SPSSSPSS过程演示过程演示亏凉末坑智类甫眨书诌复前稻算致口些浩初箭熟奈忘藐译缺威尾蓟闯窟期第八章聚类分析第八章聚类分析练习题练习题1. 为研究不同公司的运营特点,调查了为研究不同公司的运营特点,调查了 15 个公司的组织文化、组个公司的组织文化、组织氛围、领导角色和员工发展织氛围、领导角色和员工发展4个方面的内容。请将这个方面的内容。请将这15个公司按个公司按照其各自的特点划分成照其各自的特点划分成4种类型。数据如下表所示。种类型。数据如下表所示。不同公司的特点不同公司的特点公司公司组织

29、文化组织文化组织氛围组织氛围领导角色领导角色员工发展员工发展MICROSOF80857590IBM85859090DELL85858560APPLE90907590联想联想99987880NPP88898990北京电子北京电子79809597清华紫光清华紫光89788182北大方正北大方正75789596TCL60658588娃哈哈娃哈哈79875051ANGEL75768889HUSSAR60568990世纪飞扬世纪飞扬1001008584VINDA61648960SPSSSPSS过程演示过程演示绊熏幸砧笼着双腊婿也偷宇姬踌犀恰滚馒得拙疡玩桌牡寅课心异寓墟庐挚第八章聚类分析第八章聚类分析2.

30、 2. 请每个同学都参加请每个同学都参加“人性的哲学修订量表人性的哲学修订量表”问卷调查,然后分别问卷调查,然后分别对参加调查的同学和问卷项目进行类型划分。对参加调查的同学和问卷项目进行类型划分。人性的哲学修订量表人性的哲学修订量表 说明:本问卷由一系列关于态度的陈述组成。每一陈述只是代表人们说明:本问卷由一系列关于态度的陈述组成。每一陈述只是代表人们的一种普遍观点,并没有对错之分。您可能同意某些观点却不同意另一些的一种普遍观点,并没有对错之分。您可能同意某些观点却不同意另一些观点。我们感兴趣的是您同意或不同意的程度如何。观点。我们感兴趣的是您同意或不同意的程度如何。 仔细阅读每一陈述,然后针

31、对每一陈述打一分数以表明你同意或不同仔细阅读每一陈述,然后针对每一陈述打一分数以表明你同意或不同意的程度。这些数值的意义如下:意的程度。这些数值的意义如下: 6完全同意完全同意 5部分同意部分同意 4略微同意略微同意 3略微不同意略微不同意 2部分不同意部分不同意 1完全不同意完全不同意 回答这些问题时,往往第一印象最为恰当。阅读每一陈述,决定您是回答这些问题时,往往第一印象最为恰当。阅读每一陈述,决定您是否同意以及程度如何。务请回答每一问题。如您发现这些数值均不能反映否同意以及程度如何。务请回答每一问题。如您发现这些数值均不能反映你的观点,请选择与你的观点最接近的数值。你的观点,请选择与你的观点最接近的数值。问卷项目问卷项目傀堕晌笔找襟卯邀乞诊酮否边矮聘逾忧尽锋婆赠苹饼缄凤坟府腔芯听馒余第八章聚类分析第八章聚类分析奢拽项项辉噪捧笑椒藻布面效阁白札搀善追琢猜贿鸽王棉啥隘嚷陡逛撒袖第八章聚类分析第八章聚类分析

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号