管理统计学PPT教学课件-第九章聚类分析

资源描述

《管理统计学PPT教学课件-第九章聚类分析》由会员分享，可在线阅读，更多相关《管理统计学PPT教学课件-第九章聚类分析（103页珍藏版）》请在金锄头文库上搜索。

1、管理统计学,2010年,9 聚类分析与判别分析,9.1 聚类分析 9.2 判别分析,9.1 聚类分析,9.1.1 基本原理和方法 9.1.2 系统聚类法 9.1.3 系统聚类的SPSS应用 9.1.4 K均值聚类法 9.1.5 K均值聚类法的SPSS应用,9.1.1 基本原理和方法,聚类分析：采用定量数学方法，根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，以这些统计量为划分类型的依据分类的基本思想：把一些相似程度较大的样品（或指标）聚合为一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到把所有的样品（或指标）聚合完毕,聚类分析,例

2、如：有p个指标（变量），n个对象，依据这n个对象在p个指标下的数据，对这n个对象进行聚类。设数据为：每一个对象是p维空间中的一个点聚类问题，就是在p维空间中，对这n个点的聚类问题,使用聚类分析的注意的问题,变量（指标）不能太多，否则，难以判断聚类结果的实际意义指标间有一定的相关关系（不必高度相关），可以对所观察的一群个体分类，从而可以对个体进行进一步的研究变量（指标）过多，则可对指标分类，把有相近含义的指标聚到一起，把整个指标群分为若干类,聚类分析的分类,样本聚类/Q型聚类：对观测量(Case)进行聚类，不同的目的选用不同的指标作为分类的依据变量聚类/R型聚类：能够找出彼此独立且有代

3、表性的自变量，而又不丢失大部分信息，主要是对研究对象的观测变量进行聚类，使得具有共同特征的变量作为一类,聚类分析的步骤, 选择描述事物对象的变量（指标）形成数据文件，建立样品资料矩阵确定数据是否需要标准化确定表示对象距离或相似程度的统计量计算对象间的距离（rij）和相似关系矩阵R（rij）对称阵：i到j的距离与j到i的距离相等选择类与类之间的距离定义聚类分类,度量样本之间相似程度的统计量,距离：将一个样品看作P维空间的一个点，并在空间用某种度量测量点与点之间的距离，距离越近的点归为一类，距离较远的点归为不同的类以dij表示第i个样本与第j个样本间的距离，需要满足以下四个条件

4、 dij0，对一切i和j成立 dij0，当且仅当ij成立 dijdji0，对一切i和j成立 dijdikdkj，对于一切i和j成立相似系数：变量或样品的关系越密切，其性质就越接近，它们的相似系数的绝对值越接近1；反之，它们的相似系数的绝对值越接近于零，即样品的关系越疏远样品之间相似系数大的样品归为一类，样品之间相似系数小的样品归为不同的类，即两点相似系数越接近1，就相当于距离越短，即相似的为一类，不相似的属于不同类,常用距离的分类,欧氏距离欧氏距离平方偏差距离明考夫斯基距离马氏距离相关系数,类间距离计算方法,类间距离：最基本的类：由一个点组成的类每一类都由一个点组成，点间的

5、距离就是类间距离某一类包含不止一个点，就要确定类间距离最短距离连接法：用两类中所有样本对距离的最小值作为两类的距离，合并距离最近或相关系数最大的两类最长距离连接法：用两类中所有样本对距离的最大值作为两类的距离，合并距离最近或相关系数最大的两类类间平均距离连接法：将两个类中所有的样本的平均距离作为两个类的距离，合并距离最近或相关系数最大的两类,聚类分析的类型,聚合法：每个样本自成一类计算各类之间相似程度统计量，把最相似的两类合并成一类重复上步，直到所有样本归为一类分解法：所有样本归为一类分为两类重复上步，一直到每个样本归为一类或不能再细分为止调优法：开始人为将样本

6、初始分类判断该分类是否最优，如果不是则进行修改重复上述步骤，直到分类达到最优为止,分类数的确定,戴米尔曼（Demirmen，1972）提出的根据树状结构图来分类的准则：准则1：任何类都必须在邻近各类中是突出的，即各类重心之间距离必须大准则2：各类所包含的元素都不要过多准则3：分类的数目应该符合使用的目的准则4：若采用几种不同的聚类方法处理，则在各自的聚类图上应发现相同的类层次聚类中每次合并的类与类之间的距离也可以作为确定类数的一个辅助工具在层次聚类过程中，先把离得近的类合并，在并类过程中聚合系数呈增加趋势聚合系数小，表示合并的两类的相似程度大，两个差异很大的类合到一起，会使该

7、系数增大,聚类方法的选择,影响聚类方法的使用效果的因素类的结构（主要指类的形状、规模和个数）奇异值的存在类与类之间重叠的程度相似测度的选择奇异值是指和样本中其他的观测量差异很大的观测量，它远离其它观测量，自成一类,9.1.2 系统聚类法,系统聚类法基本思想将所有样品看成一个类选择性质最接近（距离最小）的两类合并为一个新类计算新类与其他类的距离，将距离最近的两类合并，这样直至所有的样品合并为一类,系统聚类方法分类（待续）,（1）最短距离法距离最近的样品归入一类计算新类和单个样品间的距离作为单个样品和类中的样品间的最小距离，尚未合并的样品间的距离并未改变在每一步，两类之间的距

8、离是它们两个最近点间的距离（2）最长距离法按两个最远成员间的距离进行类的归并最长距离法与最短距离法相比，类与类之间的距离定义和计算新类与其他类的距离所用的公式不同（3）重心法两类之间的距离为两类重心间的距离，对样品聚类的重心就是该类的均值缺陷是较后合并的类比较前合并的类更不相似（4）类平均法（Median clustering）两类之间的距离是以各自的中数加以度量的，这使两个正被合并的类，在均值计算中被赋予相等的权力，而不管每一类中的样品数,系统聚类方法分类（续）,（5）类间平均连接法按各个团体中成员间的平均距离连类，两个类间的距离为所有样品偶对间的平均距离（6）类内平均连

9、接法按各个团体中成员间的平均距离连类，且使产生类的所有样品之平均距离尽可能小，是取产生类的所有可能样品偶对间的平均距离（7）离差平方和法如果分类正确，同类样品的离差平方和应当较小，类与类的离差平方和应当较大。具体做法是先将n个样品看成一类每次缩小一类，每缩小一类离差平方和就要增大，选择使S增加最小的两类合并直到所有的样品归为一类为止计算每一类所有变量的均值对每一个样品计算到类均值的距离平方，对所有样品求这些距离之和合并的两类是使类内距离总平方和增加最少的类,9.1.3 系统聚类的SPSS应用,例9.1 有关研究机构通过2008年我国部分省市的土地利用情况（单位：万公顷）进行分析

10、，试图依据给出的数据对土地利用结构进行分类,（数据来源：中国统计年鉴 2009中国统计出版社）,操作及其说明,Analyze Classify Hierarchical Cluster Hierarchical Cluster Analysis,Hierarchical Cluster Analysis,从左侧选入参与聚类分析的变量,选入标签变量,选择聚类类型,对观测量（样本）进行聚类，对应于样本聚类,对变量（指标）进行聚类，对应于变量聚类,选择输出结果,统计分析,统计图表,Hierarchical Cluster Analysis：Statistics,Statistics Hierarch

11、ical Cluster Analysis：Statistics,聚集状态表,各项间的距离矩阵,类成员栏,不显示类成员表，为系统默认值,要求列出聚为一定类数的各观测量所属的类,某个范围中每步各观测量所属的类,Hierarchical Cluster Analysis： Method,Agglomeration schedule continue Method Hierarchical Cluster Analysis：Method,Cluster Method选择的聚类方法,Between-groups linkage(组间连接)：合并两类的结果使所有的两两项对之间的平均距离最小，项对的两个成

12、员分别属于不同的类，该方法中使用各对之间的距离 Within-groups linkage(组内连接)：若当两类合并为一类后，合并后的类中的所有项之间的平均距离最小，两类间的距离即是合并后的类中所有可能的观测量对之间的距离平方 Nearest neighbor（最近邻法）：该方法首先合并最近的或最相似的两项，用两类间最近点间的距离代表两类间的距离 Furthest neighbor：最远邻法/完全连接，用两类之间最远点的距离代表两类之间的距离 Centroid clustering（重心法）：应与欧氏距离平方法一起使用，像计算所有各项均值之间短距离那样计算两类之间的距离，该距离随聚类的进行不断

13、减小 Median clustering（中间距离法）：应与欧氏平方距离一起使用 Wards method：离差平方和法，应与欧氏平方距离一起使用,距离的测度方法选择（待续）,在Measure栏中选择距离计算方法 Interval：应用于等间隔测度的变量。单击矩形框右侧的下箭头展开下拉，选择连续变量距离测度的方法 Eucidean distance：欧式距离，即两样本间距离为其对应指标值之差的平方和的平方根 Squrared Eucidean distance：欧式距离平方，即两样本间距离为其对应指标值之差的平方和；Cosine：变量矢量的余弦，这是模型相似性的度量 Pearson Corre

14、alation：相关系数距离 Chebychev：切比雪夫距离，即两样本间的距离为两样本对应指标值之差的绝对值中的最大值 Block：City-Block或Manhattan距离，即两样本间的距离为两样本对应指标值之差的绝对值和 Minkowski：两样本间的距离是一个绝对幂的度量，即两样本对应指标值之差的绝对值的p次幂之和的p次根，p由用户指定 Customized：距离是一个绝对幂的度量，即两样本对应指标值之差的绝对值的p次幂之和的r次根，p与r由用户指定,距离的测度方法选择（续）,Counts：应用于计数变量。单击其右侧的向下箭头，展开两种选择不相似性测度的方法： Chi-Square

15、 measure：卡方测度，用卡方值测度不相似性。该测度是根据两个集的频数相等的卡方检验，测度产生的值是卡方值的平方根，这是系统默认的 Phi-Square measure：两组频数之间的2 测度，试图考虑减少样本量对实际度值的实际预测频率减少的影响 Binary：应用于二值变量。单击Binary右侧的向下箭头展开下拉来选择距离或不相似性测度的方法，首先应明确对二值变量，系统默认用1表示某特性出现，用0表示某特性不出现,确定标准化的方法,Transform Values：确定标准化的方法。单击standardize右侧向下箭头选择标准化的方法： None：不进行标准化，是系统默认值 Z sco

16、res：把数值标准化到Z分数。标准化后变量均值为0，标准差为1，系统将每个值减去被标准化的变量或观测量的均值，再处以其标准差，如果标准差为0，则将所有值置为0 Range -1 to 1：将数值标准化到1到1范围内 Maxinum mannitude：把数值标准化到最大值1。该方法是把标准化的变量或观测量的值用最大值去除，如果最大值为0，则用最小值的绝对值处再加1 Range 0 to 1：将数值标准化到0到1范围内 Mean of 1：把数值标准化到一个均值的范围内 Standard deviation of 1：把数值标准化到单位标准差,测度的转换方法选择,Transfrom Measure：测度的转换方法选择 Absolute Values：把距离取绝对值，当数值符号表示相关方向，且只对负相关关系感兴趣时才采用此方法进行交换 Change Sign：把相似性值变为不相似性值或相反，用求反的方法使距离顺

展开阅读全文

管理统计学PPT教学课件-第九章 聚类分析

管理统计学PPT教学课件-第九章聚类分析