学校数模培训课件数模培训(讲解p59-末尾)统计分析

上传人:E**** 文档编号:106894611 上传时间:2019-10-16 格式:PDF 页数:103 大小:2.99MB
返回 下载 相关 举报
学校数模培训课件数模培训(讲解p59-末尾)统计分析_第1页
第1页 / 共103页
学校数模培训课件数模培训(讲解p59-末尾)统计分析_第2页
第2页 / 共103页
学校数模培训课件数模培训(讲解p59-末尾)统计分析_第3页
第3页 / 共103页
学校数模培训课件数模培训(讲解p59-末尾)统计分析_第4页
第4页 / 共103页
学校数模培训课件数模培训(讲解p59-末尾)统计分析_第5页
第5页 / 共103页
点击查看更多>>
资源描述

《学校数模培训课件数模培训(讲解p59-末尾)统计分析》由会员分享,可在线阅读,更多相关《学校数模培训课件数模培训(讲解p59-末尾)统计分析(103页珍藏版)》请在金锄头文库上搜索。

1、数学建模数理统计 培训讲义 第一节 聚类分析 第二节 回归分析(1) 第三节 回归分析(2) 第四节 相关分析 第五节 主成分分析 第六节 判别分析 王亮 数学建模培训讲义数学建模培训讲义 - 1 - 专题一专题一 聚类分析聚类分析 第一节 聚类分析概述 一. 聚类分析的起源聚类分析的起源 聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识 来实现分类。 随着生产技术和科学的发展, 人类的认识不断加深, 分类越来越细, 要求也越来越高,有时仅凭经验和专业知识是不能进行确切分类的,往往需要定 性和定量分析结合起来进行分类工作,从而数学工具逐渐被引入到了分类学当 中,也就是数值分类

2、学数值分类学。后来随着多元分析的引进,聚类分析又逐渐从数值分类 学中分离出来而形成一个相对独立的分支。 分类的问题大体上可以分为两种(提醒学生注意区分): 、判别分析;、聚类分析。其中,判别分析就是对当前所研究的问题已知其 类别数目,且知道各类的特征(如分布规律,或者已知来自各类的训练样本),从 而将另一些未知类别的个体正确归属于其中某一类。 以下重点介绍聚类分析。 二. 聚类分析的定义聚类分析的定义 聚类分析聚类分析又称群分析群分析,它是研究对样品或指标进行分类的一种多元统计方 法。简单来说就是在事先不知道所研究的问题应该分为几类,更不确定观测到的 个体的具体分类情况, 通过对观测数据进行分

3、析处理, 选定一种度量个体接近程 度的统计量 度量个体接近程 度的统计量,确定分类数目,建立一种分类方法,并按亲近程度对观测对象给出 合理的分类。 注:所谓“类” ,简单来说就是相似元素的集合。 例:在实际问题中,经常会遇到分类的问题,比如说: (1) 对某年级学生按成绩的好坏分成几等; (2) 对人体测量的几十个的尺寸按反应人体高矮、胖瘦的部位分为几类; 在经济学中存在更多的这类问题: (3) 对全国 30 个省、市、自治区独立核算工业企业的经济效益进行分析,一 般不是逐个省市区进行分析,而较好的做法是通过选取能反映企业经济 效益的代表性指标,如百元固定资产实现利税,资金利税率、产值利税 率

4、,百元销售收入实现利润,全员劳动生产率等等,根据这些指标对 30 个省市区进行分类,然后根据分类结果对企业经济效益进行综合评分, 从而得出更科学的结论; (4) 若对某些地区的物价指数进行考察,但是物价指数包含的内容很多,像 农用生产物价指数,服务项目物价指数,食品消费物价指数,建材零售 价格指数等,由于要考察的物价指数很多,通常先对这些物价指数进行 分类。 当然说聚类分析作为多元统计分析的一个相对新的分支而言, 正处于发展阶 段,理论上并不很完善,使用中往往与其他方法结合起来效果会更好。比如说先 对一批观测对象用聚类分析进行分类,再用判别分析的方法建立判别准则,用以 对新的观测对象判别归类,

5、逐步的还可以结合主成分分析,回归分析等方法,深 入的对问题进行分析研究。 三. 聚类分析的内容聚类分析的内容 数学建模培训讲义数学建模培训讲义 - 2 - 按其聚类的方法可以分为: (1) 系统聚类法:开始每个对象自成一类,然后每次将最相似的两类进行合 并,合并后重新计算新类与其他类的距离或相似性测度,这一过程一直 继续,直到所有对象归为一类为止。并类的过程可以用一张谱系聚类图 描述。 (2) 动态聚类法(调优法):首先对n个对象初步分类,然后根据分类的损失函 数尽可能小的原则对分类进行调整,直到分类合理为止。 (3) 有序样品聚类法(最优分割法):开始将所有样品看成一类,然后根据某 种最优准

6、则将他们分割为两类、三类,一直分割到所需的k类为止。这 种方法适用于有序样品的分类问题。 (4) 模糊聚类法:利用模糊集理论来处理分类问题,它对经济领域中具有模 糊特征的两类数据或多态数据具有明显的分类效果。 (5) 图论聚类法:利用图论中最小支撑树的概念来处理分类问题。 (6) 聚类预报法:利用聚类方法处理预报问题。在多元统计分析中,可用来 做预报的方法很多,如回归分析和判别分析,但对一些异常数据,如气 象中的灾害性天气的预报, 回归或判别分析的处理效果均不是特别理想, 而聚类预报则弥补了这一不足。 另外聚类分析根据分类对象的不同,可分为R型和Q型两大类: R型聚类是对变量(指标)进行分类处

7、理;Q型聚类是对样品进行分类处理。 R型聚类分析的目的: (1) 可以了解变量间及变量组合间的亲疏关系; (2) 对变量进行分类; (3) 根据分类结果及它们之间的关系,在每一类中选择有代表性的变量做为 重要变量,利用少数几个重要变量进一步做分析计算,如进行回归分析、 Q型聚类分析等。 Q型聚类分析的目的: 对样品进行分类,分类的结果比传统分类方法更细致、全面、合理,当然使 用不同的分类方法通常会得到不同的分类结果,对任何观测数据都没有唯一“正 确的”分类方法,实际应用中,常采用不同的分类方法,对数据进行分类计算, 以便对分类提供依据。 数学建模培训讲义数学建模培训讲义 - 3 - 第二节 距

8、离与相似系数 一. 数据的变换方法数据的变换方法 这里有n个样品,每个样品测得m项指标(变量),观测数据为: (1, , 1,) ij xinjm=? 变量 样品 1jm XXX? (1) ( ) ( ) i n X X X ? ? ? ? 1111 1 jm iijim xxx xxx ? ? ? ? ? 1 nnjnm xxx ? ? ? 均 值 1jm xxx? 标准差 1jm SSS? 极 差 1jm RRR? 极差(该组中)max min,也称为全距(Range) 注:极差大的一组不一定方差大,方差大的一组也不一定极差大。 这些数据当中,均值定义形式为: 1 1 (1,2,) n j

9、tj t xxjm n = = ? 标准差定义形式为: 2 1 1 () (1,2,) 1 n jtjj t Sxxjm n = = ? 这里可能就会出现一个问题: 所考察的m个不同的变量中, 一般都有不同的量纲, 不同的数量级单位,不同的取值范围。为了使不同的量纲,不同的取值范围的数 据能放在一起进行比较,通常要对数据进行变换处理,常用的方法有: 1. 中心化变换: (1,2, ; 1,2,) ijijj xxxinjm =? 这是一种标准化处理方法,变换后数据的均值为0,协差阵不变,也就是说,协 差阵为: * (), ij SSS= 其中: * 11 11 ()() 11 nn ijtii

10、tjjtitj tt Sxxxxx x nn = = 数学建模培训讲义数学建模培训讲义 - 4 - 【补充回忆相关知识: 定义:()()( ) ,Cov X YEXE XYE Y= 协方差; () ()( ) , XY Cov X Y D XD Y = X与Y的相关系数。 注:()()( )()2,D XYD XD YCov X Y+=+, ()()()( ),Cov X YE XYE X E Y=协方差计算公式, ()(),Cov X XD X=。 设n维随机变量() 12 , n XXX?的二阶混合中心矩均存在: ()()() , ijijiijj CCov X YEXE XXE X =

11、, ,1,2,i jn=? () 11121 21222 12 n n ijij n n nnnn ccc ccc Cc ccc = ? ? ? ? () 12 , n XXX?的协方差矩阵 显然,CC = 。 n维正态分布的概率密度维正态分布的概率密度 先看二维情况: () () ()()()() 22 1122 22 2 2 1122 12 11 ,exp2 2 1 22 1 xxyy f x y =+ () ()() 1 12 22 11 exp 2 2 xCx C = 这里, 1 2 x X x = , 1 2 = , 2 1112 112 2 2122 122 cc C cc = 推

12、广到n维情况:() () ()() 1 121 22 11 ,exp 2 2 n n f x xxxCx C = ?,这里, 1 2 n x x X x = ? , () () () 1 1 22 n n E X E X E X = ? ,C是() 12 , n XXX?的协方差矩阵 数学建模培训讲义数学建模培训讲义 - 5 - n维正态分布的重要性质:维正态分布的重要性质: (1)n维随机变量() 12 , n XXX?服从n维正态分布 12 , n XXX?的任意线 性组合 1122nn l Xl Xl X+?服从一维正态分布; (2)若() 12 , n XXX?服从n维正态分布,设 1

13、2 , k Y YY?是()1,2, j Xjn=?的 线性函数,则() 12 , k Y YY?也服从多维正态分布(线性变换不变性) ; (3)设() 12 , n XXX?服从n维正态分布,则 12 , n XXX?相互独立 12 , n XXX?两两不相关。 】 2. 标准化变换: (1,2, ; 1,2,) ijj ij j xx xinjm S =? 变换后, 每个变量的样本均值为0, 标准差为1, 并且标准化变换后的数据 * ij x与 变量的量纲无关。 3. 极差标准化变换: (1,2, ; 1,2,) ijj ij j xx xinjm R =? 变换后,每个变量的样本均值为0

14、,极差为1,并且 * 1 ij x ) 由Lance和Williams最早提出的,定义为: 1 1 ( ), ( ,1,2, ) () m itjt ij t itjt xx dLi jn mxx = = + ? 这是一个无量钢的量,对大的奇异值不敏感,使得它对高度偏倚的数据更实用。 数学建模培训讲义数学建模培训讲义 - 7 - 闵氏距离和兰氏距离都假定变量之间相互独立, 即在正交空间中讨论距离问 题;但在实际问题中,变量之间往往存在一定的相关性,为克服变量之间的相关 性影响,可采用马氏距离。 3. 马氏距离(Mahalanobis) 样品 ( )i X与 ( )j X的马氏距离为: 1 ( )( )( )( ) ()()() ( ,1,2, ) ijijij dMXXSXXi jn =? 其中 1 S 为样本协差阵的逆矩阵。 4. 斜交空间距离 为克服变量间相关性的影响,可定义为: 1 2 2 11 1 ()() ( ,1,2, ) mm ijikjkiljlkl kl dxxxxri jn m = = ? 其中 kl r为变量 k X与 l X之间的相关系数。 三. 变量间的相似系数和距离变量间的相似系数和距离 聚类分析法不仅用来对样品进行分类,有时需要对变量进行分类。在对变量 进行分类时,通常采用相似系数来表示变量之间的亲疏程度。 设 ij C表示变量 i

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号