《多元统计》课程实验报告-聚类分析

上传人:第*** 文档编号:30620099 上传时间:2018-01-31 格式:DOCX 页数:30 大小:61.93KB
返回 下载 相关 举报
《多元统计》课程实验报告-聚类分析_第1页
第1页 / 共30页
《多元统计》课程实验报告-聚类分析_第2页
第2页 / 共30页
《多元统计》课程实验报告-聚类分析_第3页
第3页 / 共30页
《多元统计》课程实验报告-聚类分析_第4页
第4页 / 共30页
《多元统计》课程实验报告-聚类分析_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《《多元统计》课程实验报告-聚类分析》由会员分享,可在线阅读,更多相关《《多元统计》课程实验报告-聚类分析(30页珍藏版)》请在金锄头文库上搜索。

1、多元统计与程序设计课 程 实 验 报 告项目名称: 聚类分析学生姓名:学生学号:指导教师:完成日期:1 实验内容(1)掌握聚类分析的思想和计算步骤;(2)会使用 Matlab 实现对样本进行聚类分析;2 模型建立与求解2.1 聚类分析的形成思路众所周知,同类事物具有很强的相似性,因此文件我们可以用相似性统计量这个度量标准作为事物分类的依据。一种等价的说法时同类事物之间的距离应很小,因此我们也可以用距离统计量作为分类的依据。分类就是把各种属性差异比较小的样品合在一类。在分类之前,我们必须对所需要分类的事物进行定量的特征变量提取。我们要求这些特征变量能全面地反映样品的各种属性,且在不失去主要信息的

2、条件下,禁令减少特征变量的个数。选中的特征变量在全部样品中变化显著,及方差比较大。2.2 关于变量的数据预处理2.2.1 变量的标准化设有 n 个样品,m 个特征变量,设第 i 个样品,第 j 个变量的观测值为xij(i=1,2,n;j=1,2,m)。由此可构成一个 nxm 阶矩阵(2.1)X=(xij)nm=1112212212 12将式(2.1)中每一个变量根据以下公式变换,称为标准化.对每个变量标准化的公式为(i=1,2,n)(j=1,2,m)=式中, ,=1=1 S=1=1()212标准化后变量的平均值为 0,标准离差为 1.2.2.2 变量的正规化对每个变量施行以下变换,称为正规化。

3、(i=1,2,n;j=1,2,m)=()()()式中, 和 是第 j 个变量的最大值和最小值。显然,0 1.2.2.3 变量的规格化对变量施行以下变换,称为规格化。(i=1,2,n;j=1,2,m)=()式中, 是第 j 个变量的最大值。显然,0 1.2.3 系统聚类法系统聚类法事目前国内使用最多的一种聚类法,属于聚合法。其分类统计计量一般采用距离系数计量,其基本步骤为:1. 每个样品为一类,计算各样品之间的距离系数;2. 把距离最小的两类合为一类;3. 计算新的类间的距离;4. 重复 2、3 步一直到合为一类为止。由于在分类的过程中类与类间的距离可以有不同的定义,所以系统聚类法又可以细分为常

4、用的八种方法,它们是最短距离法,最长距离法、中间距离法、可变法、重心法、类平均法、可变类平均法、离差平方和法。2.3.1 最短距离法设有 n 个样品用 表示样品 与样品 间的距离(i,j=1,2,3 ,n) ,用 表示类。定义类与类间的距离为两类最近样品的距离,用 表示 与 的1, 2, 距离,则(2.2)=当 p=q 是,规定 =0分类的原则是:类与类之间的距离最近的两类合并。最短距离法事以公式(2.2)进行分类,步骤如下:1. 确定样品之间的距离计算公式,计算出 n 个样品中的两两之间的距离(i,j=1,2, ,n) ,得对称阵 D(0):( 0) =0 12131210 232 12 3

5、 0开始每个样品自成一类,所以 = 。2. 选择 D(0)中最小的非零元素,设为 (= ) ,则将 与 合并成一个新类, 记为(2.3)=, 3. 计算新类 与其他类 ( t p、q)的距离; (2.4)=, =, 将 D(0 )中第 p,q 行及第 p,q 列用式(2.3)合并成一个新行新列,对应于 ,所得的矩阵记为 D(1)。4. 对 D(1)重复上述多 D(0)的 2、3 两步作法,得 D(2),如此下去,直到所有的元素合并为一类为止。在实际分类过程中分类的结果一般用谱系图给出。2.3.2 谱系图的形成作谱系图的方法目前有两种:一种是一次计算形成法,另一种是逐步计算形成法,规则如下:首先

6、计算出 n 个样品(或变量)的距离系数(相似系数) ,找出最小值(或者是最大值,比如相关系数) ,然后选出次小值(或者次大值) ,按以下规则归并:1. 若两个样品(或变量)在已形成的组中未出现过,则形成新的组。2. 若两个样品(或变量)中有一个事在已分好的组中出现过,则另一个就加入到该组中。3. 若两个样品(或变量)都在同一组中,则不连接。4. 若两个样品(或变量)都在已经分好的两组中,则把两组连接成新一组。如此反复进行,直到所有样品都归为一类为止。3 实验数据与实验结果3.1 实验数据在某地区通过地质资料分析及勘探证实该地区三号、五号煤层为可开采煤层,但在一些零星露头和小煤窑中所见的可开采煤

7、究竟是属于哪一个层位尚难确定。现用定量分析建模方法确定这些零星露头和小煤窑可开采煤究竟属哪一个层位。为此,我们根据专业知识在三号、五号煤层提取了九个特征变量,它们是有机总量、粘土类、黄铁矿、硅酸盐、二氧化硅、二氧化铁、三氧化二铝、氧化钙、氧化镁、然后在三号煤层中采样 12 次得 1-12 号样本,在五号煤层中采样 7 次得 13-19 号样本,在零星露头和小煤窑采样 5 次得 20-24 号样本,原始数据见下表:有机总量 粘土类 黄铁矿 碳酸盐 SiO2 Fe2O3 Al2O3 CaO MgO86.76 12.25 0.00 0.40 46.20 5.36 35.55 3.58 1.3092.

8、52 7.32 0.00 0.16 47.52 3.68 37.70 1.95 0.5996.76 3.07 0.17 0.00 47.86 7.82 37.77 1.38 0.6385.56 13.03 0.94 0.47 45.04 7.44 36.06 3.43 0.6587.75 10.26 1.23 0.76 36.22 24.29 29.25 3.23 1.1575.69 24.06 0.00 2.50 47.40 3.76 40.00 0.97 1.1598.21 0.63 0.16 0.00 86.82 18.87 31.75 2.82 0.9684.50 14.46 1.04

9、 0.00 46.94 4.59 37.35 2.20 0.8994.14 5.86 0.00 0.00 48.66 8.41 38.42 0.51 0.6790.50 6.72 2.78 0.00 35.18 31.58 30.11 0.51 0.5972.05 26.49 1.46 0.00 49.04 5.19 39.28 0.05 0.74三号98.10 1.71 0.00 0.00 54.22 5.79 32.04 1.33 0.6396.35 3.13 0.26 0.00 44.76 6.54 36.20 0.76 0.7098.48 0.00 1.08 0.44 28.60 17

10、.77 24.37 3.37 5.5688.51 2.54 4.33 0.29 49.12 25.27 18.49 2.46 1.0779.75 19.63 0.00 0.00 53.98 8.27 24.66 4.25 2.3794.54 0.76 2.05 0.31 35.64 34.81 11.18 6.50 0.7891.51 7.88 0.61 0.00 46.06 8.42 39.71 0.82 0.74五号90.89 3.04 0.23 1.17 62.48 5.11 25.73 0.72 0.7069.79 24.13 5.04 0.00 47.56 10.56 37.99 0

11、.10 1.04未知 78.47 20.60 0.75 0.00 46.96 4.636 38.42 1.28 1.1940.71 29.28 3.58 0.00 61.48 5.19 27.53 0.01 0.85样本 73.03 24.09 2.88 0.00 47.02 8.72 39.42 0.10 0.7886.35 4.99 8.12 0.00 33.48 40.15 13.98 4.30 0.633.2 实验过程及结果 X=86.76 12.25 0.00 0.40 46.20 5.36 35.55 3.58 1.30;92.52 7.32 0.00 0.16 47.52 3.6

12、8 37.70 1.95 0.59;96.76 3.07 0.17 0.00 47.86 7.82 37.77 1.38 0.63;85.56 13.03 0.94 0.47 45.04 7.44 36.06 3.43 0.65;87.75 10.26 1.23 0.76 36.22 24.29 29.25 3.23 1.15;75.69 24.06 0.00 2.50 47.40 3.76 40.00 0.97 1.15;98.21 0.63 0.16 0.00 86.82 18.87 31.75 2.82 0.96;84.50 14.46 1.04 0.00 46.94 4.59 37.3

13、5 2.20 0.89;94.14 5.86 0.00 0.00 48.66 8.41 38.42 0.51 0.67;90.50 6.72 2.78 0.00 35.18 31.58 30.11 0.51 0.59;72.05 26.49 1.46 0.00 49.04 5.19 39.28 0.05 0.74;98.10 1.71 0.00 0.00 54.22 5.79 32.04 1.33 0.63;96.35 3.13 0.26 0.00 44.76 6.54 36.20 0.76 0.70;98.48 0.00 1.08 0.44 28.60 17.77 24.37 3.37 5.

14、56;88.51 2.54 4.33 0.29 49.12 25.27 18.49 2.46 1.07;79.75 19.63 0.00 0.00 53.98 8.27 24.66 4.25 2.37;94.54 0.76 2.05 0.31 35.64 34.81 11.18 6.50 0.78;91.51 7.88 0.61 0.00 46.06 8.42 39.71 0.82 0.74;90.89 3.04 0.23 1.17 62.48 5.11 25.73 0.72 0.70;69.79 24.13 5.04 0.00 47.56 10.56 37.99 0.10 1.04;78.47 20.60 0.75 0.00 46.96 4.636 38.42 1.28 1.19;40.71 29.28 3.58 0.00 61.48 5.19 27.53 0.01 0.85;73.03 24.09 2.88 0.00 47.02 8.72 39.42 0.10 0.78;86.35 4.99 8.12 0.00 33.48 40.15 13.98 4.30 0.63X =Columns 1 through 8 86.7600 12.2500 0 0.4000 46.200

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 工程造价

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号