主成分与因子分析

上传人:桔**** 文档编号:557578544 上传时间:2023-11-30 格式:DOCX 页数:31 大小:265.72KB
返回 下载 相关 举报
主成分与因子分析_第1页
第1页 / 共31页
主成分与因子分析_第2页
第2页 / 共31页
主成分与因子分析_第3页
第3页 / 共31页
主成分与因子分析_第4页
第4页 / 共31页
主成分与因子分析_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《主成分与因子分析》由会员分享,可在线阅读,更多相关《主成分与因子分析(31页珍藏版)》请在金锄头文库上搜索。

1、聚类分析一、分类俗语说,物以类聚、人以群分。 当有一个分类指标时,分类比较容易。 但是当有多个指标,要进行分类就不是很容易了。 比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、 日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标。二、聚类分析概述由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方 法,因为这样会忽视相对重要程度的问题。所以需要进行多元分类,即聚类分析。 最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于 昆虫的分类中,此后又广泛地应用在天气、生物等方面。对于一个数据,人们既可以对变量(指标)进行分

2、类(相当于对数据中的列分类), 也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数 学上是对称的,没有什么不同。三、聚类中选择变量的要求1. 和聚类分析的目标密切相关2. 反映了要分类对象的特征3. 变量之间不应该高度相关。四、如何聚类?聚类分析就是要找出具有相近程度的点或类聚为一类; 如何衡量这个“相近程度”?就是要根据“距离”来确定。 这里的距离含义很广,凡是满足 4 个条件(后面讲)的都是距离,如欧氏距离、 马氏距离,相似系数也可看作为距离。第一节 距离和相似系数、 距离什么是距离?x x1112xxX =?

3、1221. 常用距离Minkowski 距离:d (q)二忆|ijXikk=1jkb1q当 q=1 时:d (1)显ijk=1x - x,称为绝对距离(Block) ik jk当 q=2 时:d (2) =(X |xijikk=1-Xjk|)12,称为欧氏距离(Eudidem)X1px?p,即X = ( :ij nxpX X Xn1 n2np设:d表示第i个样品与第j个样品之间的距离 ij首先我们看样本数据:一般满足以下四个条件时,就称为聚类d 0,对一切i,j;ijd = 0,等价于i = j;ijd = d,对一切i,j;ijjid d + d,对一切 i, j, k。 ijikkj明氏距

4、离当q=8时:d (a) = max x -x,称为切比雪夫距离 ij1k dAB CD改进的方法:对数据进行标准化,然后再计算距离。另一个缺点:它没有考虑到指标之间的相关性。改进的方法是:采用马氏距离马氏距离是1936 年由印度数学家:马哈拉比斯由协方差矩阵计算构造的距离d 二(X X )工-1(X X )ij i j i j相似系数夹角余弦一cosine尽管图中AB和CD长度不一样,但形状相似。当长度不是主要矛盾时,就可利 用夹角余弦这样的相似系数。相关系数 也可用相关系数来刻画样品之间的相似关系。 把两两样品的相关系数都计算出来,可形成样品相关系数矩阵。r1pr2prnpr r1112r

5、rR = (r ) = 2122ij:r rn1 n2三、关联测度主要用来度量聚类变量为分类变量的研究对象的相似性。 简单匹配系数:是测度二分类变量的,是度量两个案例在所有的聚类变量上答案 相同的情况出现的频率。 雅科比系数:是在简单匹配系数基础上进行的改进,也是度量二分类变量的。第二节 系统聚类法、 系统聚类法的步骤V采用系统聚类法根据实际情况,确定类和类的个数系统聚类法1. 最短距离法Nearest NeighborD = min d (x , x )pq i jG1 G2 G3 G4 G5G10G210G32.51.5G465G58703.5 05.5 20G6G3G4G5G60G31.

6、50G453.50G573.53.502. 最长距离法Furthest NeighborD = max d (x , x )pq i jG1G2G3G4G5G6G3G4G5G10G60G210亠 G32.501zG32.51.50Y G463.50G4653.50G583.53.50G5875.5203.重心法Centroid ClusteringD = min d (x , x )pq p q4. 类平均法Between-groups LinkageD 二pq n n1 2 x gG x gG5.离差平方和法WordMethodD =工(x x )(x x ), D =工1ipi p2xgG

7、ipD=1+2(x -x )(x -x ) j q j qx gGjqi p j qi(x x) (x x) n D = D D Dkipq1+212x gG oGk p q 它的思想来源于方差分析 此外,还有中间距离法、类内平均法等。第三节 SPSS 中的聚类分析与过程例1饮料数据(drink.sav)16 种饮料的热量、咖啡因、钠及价格四种变量饮料编号热量咖啡因钠价格1207.203.3015.502.80236.805.9012.903.30372.207.308.202.40436.70.4010.504.005121.704.109.203.50689.104.0010.203.30

8、7146.704.309.701.80857.602.2013.602.10995.90.008.501.3010199.00.0010.603.501149.808.006.303.701216.604.706.301.501338.503.707.702.0014.004.2013.102.2015118.804.707.204.1016107.00.008.304.20、 SPSS 中的聚类分析SPSS 中的聚类功能常用的有两种:快速聚类(迭代过程):K-Means Cluster分层聚类: Hierarchical1. K-Means Cluster 快速聚类(1)K-Means Cl

9、uster 原理首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个;其次,由系统选择 k 个(聚类的类数:观测量(也可由用户指定:作为聚类的种 子。第三,按照距离这些类中心的距离最小的原则把所有观测量(样品:分派到各类 重心所在的类中去。第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为 第二次迭代的中心;第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时, 聚类过程结束。(2)K-Means Cluster 聚类过程由 Analyze Classify K-Means Cluster将各变量放入Variable;输入最后聚类的个数;Initia

10、l Cluster CentersCluster1234热量207.20146.7095.90.00咖啡因3.304.30.004.20钠15.509.708.5013.10价格2 801 801 302 20Iteration HistoryIterationChance in Clus ter Centers123415.06512.53212.27525.9012.0005.2131.3974.1273.0005.6315.725.0004.000.000.000.000a. Convergence achieved due to no or small change in cluste

11、r centers. The maximum absolute coordinate change for any center is . 000. The current iteration is 4. The minimum distance between initial centers is 50.998.Cluster1234热量203.10123.5578.7029.73咖啡因1.653.273.384.48钠13.058.6010.139.47价格3 153 402 282 78Final Cluster CentersCluster12.00024.00034.00046.00

12、0Valid16.000Missing.000Number of Cases in each ClusterCluster MembershipCase NumberClusterDistance115.065248.000337.834448.231522.1156310.4697223.2548321.4179317.6301015.06511420.63712413.5721349.01114429.9621525.20016216.8932. Hierarchical Cluster 聚类 分层聚类由两种方法:分解法和凝聚法。分层聚类的功能:即可进行样品的聚类,也可进行变量的聚类。 分层聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。 分层聚类的中要进行以下的选择:数据的标准化 测度方法的选择:距离方法的选择或相似性、关联程度的选择。聚类方法的选择:即以什么方法聚类,SPSS中提供了 7中方法可进行选

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号