matlab数据分析方法_(5)资料

上传人:tia****nde 文档编号:70365272 上传时间:2019-01-16 格式:PPT 页数:112 大小:1.47MB
返回 下载 相关 举报
matlab数据分析方法_(5)资料_第1页
第1页 / 共112页
matlab数据分析方法_(5)资料_第2页
第2页 / 共112页
matlab数据分析方法_(5)资料_第3页
第3页 / 共112页
matlab数据分析方法_(5)资料_第4页
第4页 / 共112页
matlab数据分析方法_(5)资料_第5页
第5页 / 共112页
点击查看更多>>
资源描述

《matlab数据分析方法_(5)资料》由会员分享,可在线阅读,更多相关《matlab数据分析方法_(5)资料(112页珍藏版)》请在金锄头文库上搜索。

1、普通高等院校计算机课程规划教材,MATLAB数据分析方法,李柏年 吴礼斌 主编 张孔生 丁 华 参编,第六章 聚类分析,“人以类聚, 物以群分”。对事物进行分类,是人们认识事物的出发点,也是人们认识世界的一种重要方法。因此,分类学已成为人们认识世界的一门基础学科。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。本章主要介绍谱系聚类、K均值聚类、模糊均值聚类和模糊减法聚类及其MATLAB实现,第2章 数据描述性分析,数据描述性分析是从样本数据出发,概括分析数据的集中位置、分散程度、相互关联关系等,分析数据分布的正态或偏态特征.描述性分

2、析是进行数据进一步分析的基础.对不同类型量纲的数据有时还要进行变换,然后再作出合理分析.本章主要介绍样本数据的基本统计量、数据的可视化、数据分布检验及数据变换等内容.,2.1基本统计量与数据可视化,2.1.1样本数据的基本统计量,描述数据基本特征主要为集中位置和分散程度。设从所研究的对象(即总体)X中观测得到n个观测值,6.1.1聚类的思想 在社会经济领域中存在着大量分类问题,比如对我国30个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生

3、产率等等,根据这些指标对30个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。又比如若对某些大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。,6.1 距离聚类,由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的数学工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。 聚类问题的一般提法是:设有 个样品的 元观测数据组成一个数据矩阵,其中每一行表示一个样品,每一列表示一个指标, 表示第 个样品关于第 项指标的观测值,要根据观测值

4、矩阵X对样品或指标进行分类。一种分类的思想是:在样品之间定义距离,在指标之间定义相似系数. 样品距离表明样品之间的相似度,指标之间的相似系数刻画指标之间的相似度. 将样品(或变量)按相似度的大小逐一归类,关系密切的聚集到较小的一类,关系疏远的聚集到较大的一类,直到所有的样品(或变量)都聚集完毕。上述思想正是聚类分析的基本思想。,值得注意的是:第4章介绍的判别分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。判别分析方法假定组(或类)已事先分好,判别新样品应归属哪一组,对组的事先划分有时也可以通过聚类分析得到。聚类分析方法是按样品(或变量)的数据特征,把相似的样品(或变量)倾向于分

5、在同一类中,把不相似的样品(或变量)倾向于分在不同类中。,6.1.2向量的距离,设有 n 个样品的 p 元观测数据,这时,每个样品可看成 元空间的一个点,也即一个 维向量,两个向量之间的距离记为,满足如下条件:,(1)(非负性) 且 当且仅当 (2)(对称性) (3)(三角不等式) 在聚类分析中最常用的是欧氏距离。,1.欧氏距离,2.绝对距离,3.明氏距离,4.切氏距离,(6.1.1),(6.1.2),(6.1.4),(6.1.3),其中m(m0)为常数。,5.方差加权距离,6.马氏距离,其中,为样品的协方差矩阵.,(6.1.5),(6.1.6),其中,在MATLAB中,计算距离的命令是pdi

6、st. 调用格式 Y =pdist(X,distance) 输入的X是一个矩阵,行为个体,列为指标,distance 是距离的类型。若缺省distance,则输出的Y是一个行向量,向量的长度为(N-1)*N/2,其中N是样本的容量,Y的元素分别为个体(1,2),(1,3),., (1,N), (2,3),.(2,N),.(N-1,N)之间的欧氏距离。 可选项distance有:euclidean欧氏距离;cityblock绝对距离;minkowski明氏距离(m=2);chebychev切氏距离;seuclidean方差加权距离;mahalanobis马氏距离。,表6.1 5省(区、市)城镇居

7、民人均家庭收入,例6.1.1 2008年我国5省、区、市城镇居民人均年家庭 收入如下表,为了研究上述5个省、区、市的城镇居民收入差异, 需要利用统计资料对其进行分类,指标变量有4个, 计算各省、区、市之间的前6种距离,解:x=18738.96 778.36 452.75 7707.87 21791.11 1399.14 369.12 6199.77 9302.38 959.43 293.92 3603.72 8354.63 638.76 65.33 2610.61 9422.22 938.15 141.75 1976.49; d1=pdist(x);% 此时计算出各行之间的欧氏距离,为了得到距

8、离矩阵, 键入命令: D= squareform(d1); % 注意此时d1必须 是一个行向量,结果为实对称矩阵,D = 1.0e+004 * 0 0.3462 1.0293 1.1575 1.0944 0.3462 0 1.2763 1.3932 1.3080 1.0293 1.2763 0 0.1428 0.1639 1.1575 1.3932 0.1428 0 0.1280 1.0944 1.3080 0.1639 0.1280 0 矩阵D中的第3行第2列为12763,表示上海与 山西的欧氏距离为12763, 其余类推.,若想得到下三角阵,则有命令: S = tril(squarefor

9、m(d1) S=1.0e+004 * 0 0 0 0 0 0.3462 0 0 0 0 1.0293 1.2763 0 0 0 1.1575 1.3932 0.1428 0 0 1.0944 1.3080 0.1639 0.1280 0,欧氏距离与量纲有关,因此,有时需要对数据进行预处 理,如标准化等,在Matlab中的命令是:zscore(x). d2=pdist(x,cityblock); %计算绝对距离 D2=squareform(d2) D2 = 1.0e+004 * 0 0.5265 1.3881 1.6009 1.5519 0.5265 0 1.5600 1.8090 1.7281

10、 1.3881 1.5600 0 0.2490 0.1921 1.6009 1.8090 0.2490 0 0.2078 1.5519 1.7281 0.1921 0.2078 0,d3=pdist(x,minkowski,3); %计算明氏距离,d3为1行10列 的行向量 d4=pdist(x,chebychev) %计算切氏距离. d5=pdist(x,seuclidean) %计算方差加权距离. d6=pdist(x,mahalanobis) %计算马氏距离,欧氏距离与量纲有关,因此,有时需要对数据进行预处理, 如标准化等,在MATLAB中的命令是zscore,调用格式 Z = zsco

11、re(X) 输入X表示N行p列的原始观测矩阵,行为个体,列为指标。 输出Z为X的标准化矩阵,即 Z = (Xones(N,1)*mean(X) ./(ones(N,1)* std(X), 其中mean(X)为行向量,表示各个指标的均值估计, std(X)表示指标的标准差估计。./表示对应元素相除, ones(N,1)表示元素全为1的行向量,向量的长度为N。,聚类分析方法不仅可以对样品进行分类,而且可以对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。对 个指标变量进行聚类时,用相似系数来衡量变量之间的相似程度(关联度),若用 表示变量 之间的相似系数,则应满足:,(1

12、) 且,(2) 当且仅当,(3),相似系数中最常用的是相关系数与夹角余弦. 例6.1.2. 计算例6.1.1中各指标之间的相关系数与夹角余弦 解:x=; %与例6.1.1数据相同 R=corrcoef(x); %指标之间的相关系数 R = 1.0000 0.6183 0.8138 0.8931 0.6183 1.0000 0.4287 0.2927 0.8138 0.4287 1.0000 0.9235 0.8931 0.2927 0.9235 1.0000,x1=normc(x); % 将x的各列化为单位向量 J=x1*x1 %计算夹角余弦 J = 1.0000 0.9536 0.9609

13、0.9797 0.9536 1.0000 0.9026 0.8990 0.9609 0.9026 1.0000 0.9833 0.9797 0.8990 0.9833 1.0000,6.1.3类间距离与递推公式 前面,我们介绍了两个向量之间的距离,下面我们 介绍两个类别之间的距离:,设,表示两个样品,之间的距离,,分别表示两个类别,各自含有,(1)最短距离,即用两类中样品之间的距离最短者作为两类间距离.,个样品.,(6.1.9),(2)最长距离,即用两类中样品之间的距离最长者作为两类间距离.,(6.1.10),(3)类平均距离,即用两类中所有两两样品之间距离的平均作为 两类间距离.,(6.1.

14、11),(4)重心距离,其中,分别是,两类重心之间的欧氏距离作为类间距离.,(6.1.12),的重心,这是用,(5)离差平方和距离(ward),显然,离差平方和距离与重心距离的平方成正比.,(6.1.13),设有两类,合并成新的一类, 包含了,个样品,如何计算,与其他类别,之间的距离,这就需要建立类间距离,的递推公式.,(1)最短距离,(6.1.14),(2)最长距离,(3)类平均距离,(6.1.15),(6.1.16),(4)重心距离,(6.1.17),证明:,(5)离差平方和距离,(6.1.18),6.2谱系聚类与K均值聚类,谱系聚类法是目前应用较为广泛的一种聚类法. 谱系聚类是根据生物分

15、类学的思想对研究对象进行 分类的方法. 在生物分类学中,分类的单位是: 门、纲、目、科、属、种,其中种是分类的基本 单位,分类单位越小,它所包含的生物就越少,生物 之间的共同特征就越多. 利用这种思想,谱系聚类 首先将各样品自成一类,然后把最相似(距离最近或,6.2.1 谱系聚类,相似系数最大)的样品聚为小类,再将已聚合的小类按 各类之间的相似性(用类间距离度量)进行再聚合,随着相似性的减弱,最后将一切子类都聚为一大类, 从而得到一个按相似性大小聚结起来的一个谱系图.,1 谱系聚类的步骤 谱系聚类的步骤如下:,(1),个样品开始作为,个类,距离或相似系数,得到实对称矩阵,计算两两之间的,(2) 从,的非主对角线上找最小(距离)或最大元素,(相似系数),设该元素是,则将,合并成一个新类,在,中去掉,所在的两行、两列,并加上新类,之间的距离或相似系数,得到,与其余各类,阶矩阵,(3) 从,出发重复步骤(2)的做法得到,,再由,出发重复上述步骤,直到两个样品聚为一个大类为止.,(4) 在合并过程中要记下合并样品的编号及两类合并 时的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号