学校数模培训课件数模培训(讲解p59-末尾)统计分析

资源描述

《学校数模培训课件数模培训(讲解p59-末尾)统计分析》由会员分享，可在线阅读，更多相关《学校数模培训课件数模培训(讲解p59-末尾)统计分析（103页珍藏版）》请在金锄头文库上搜索。

1、数学建模数理统计培训讲义第一节聚类分析第二节回归分析(1) 第三节回归分析(2) 第四节相关分析第五节主成分分析第六节判别分析王亮数学建模培训讲义数学建模培训讲义 - 1 - 专题一专题一聚类分析聚类分析第一节聚类分析概述一. 聚类分析的起源聚类分析的起源聚类分析起源于分类学，在考古的分类学中，人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展，人类的认识不断加深，分类越来越细，要求也越来越高，有时仅凭经验和专业知识是不能进行确切分类的，往往需要定性和定量分析结合起来进行分类工作，从而数学工具逐渐被引入到了分类学当中，也就是数值分类

2、学数值分类学。后来随着多元分析的引进，聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。分类的问题大体上可以分为两种(提醒学生注意区分)：、判别分析；、聚类分析。其中，判别分析就是对当前所研究的问题已知其类别数目，且知道各类的特征(如分布规律，或者已知来自各类的训练样本)，从而将另一些未知类别的个体正确归属于其中某一类。以下重点介绍聚类分析。二. 聚类分析的定义聚类分析的定义聚类分析聚类分析又称群分析群分析，它是研究对样品或指标进行分类的一种多元统计方法。简单来说就是在事先不知道所研究的问题应该分为几类，更不确定观测到的个体的具体分类情况，通过对观测数据进行分

3、析处理，选定一种度量个体接近程度的统计量度量个体接近程度的统计量，确定分类数目，建立一种分类方法，并按亲近程度对观测对象给出合理的分类。注：所谓“类” ，简单来说就是相似元素的集合。例：在实际问题中，经常会遇到分类的问题，比如说： (1) 对某年级学生按成绩的好坏分成几等； (2) 对人体测量的几十个的尺寸按反应人体高矮、胖瘦的部位分为几类；在经济学中存在更多的这类问题： (3) 对全国 30 个省、市、自治区独立核算工业企业的经济效益进行分析，一般不是逐个省市区进行分析，而较好的做法是通过选取能反映企业经济效益的代表性指标，如百元固定资产实现利税，资金利税率、产值利税率

4、，百元销售收入实现利润，全员劳动生产率等等，根据这些指标对 30 个省市区进行分类，然后根据分类结果对企业经济效益进行综合评分，从而得出更科学的结论； (4) 若对某些地区的物价指数进行考察，但是物价指数包含的内容很多，像农用生产物价指数，服务项目物价指数，食品消费物价指数，建材零售价格指数等，由于要考察的物价指数很多，通常先对这些物价指数进行分类。当然说聚类分析作为多元统计分析的一个相对新的分支而言，正处于发展阶段，理论上并不很完善，使用中往往与其他方法结合起来效果会更好。比如说先对一批观测对象用聚类分析进行分类，再用判别分析的方法建立判别准则，用以对新的观测对象判别归类，

5、逐步的还可以结合主成分分析，回归分析等方法，深入的对问题进行分析研究。三. 聚类分析的内容聚类分析的内容数学建模培训讲义数学建模培训讲义 - 2 - 按其聚类的方法可以分为： (1) 系统聚类法：开始每个对象自成一类，然后每次将最相似的两类进行合并，合并后重新计算新类与其他类的距离或相似性测度，这一过程一直继续，直到所有对象归为一类为止。并类的过程可以用一张谱系聚类图描述。 (2) 动态聚类法(调优法)：首先对n个对象初步分类，然后根据分类的损失函数尽可能小的原则对分类进行调整，直到分类合理为止。 (3) 有序样品聚类法(最优分割法)：开始将所有样品看成一类，然后根据某种最优准

6、则将他们分割为两类、三类，一直分割到所需的k类为止。这种方法适用于有序样品的分类问题。 (4) 模糊聚类法：利用模糊集理论来处理分类问题，它对经济领域中具有模糊特征的两类数据或多态数据具有明显的分类效果。 (5) 图论聚类法：利用图论中最小支撑树的概念来处理分类问题。 (6) 聚类预报法：利用聚类方法处理预报问题。在多元统计分析中，可用来做预报的方法很多，如回归分析和判别分析，但对一些异常数据，如气象中的灾害性天气的预报，回归或判别分析的处理效果均不是特别理想，而聚类预报则弥补了这一不足。另外聚类分析根据分类对象的不同，可分为R型和Q型两大类： R型聚类是对变量(指标)进行分类处

7、理；Q型聚类是对样品进行分类处理。 R型聚类分析的目的： (1) 可以了解变量间及变量组合间的亲疏关系； (2) 对变量进行分类； (3) 根据分类结果及它们之间的关系，在每一类中选择有代表性的变量做为重要变量，利用少数几个重要变量进一步做分析计算，如进行回归分析、 Q型聚类分析等。 Q型聚类分析的目的：对样品进行分类，分类的结果比传统分类方法更细致、全面、合理，当然使用不同的分类方法通常会得到不同的分类结果，对任何观测数据都没有唯一“正确的”分类方法，实际应用中，常采用不同的分类方法，对数据进行分类计算，以便对分类提供依据。数学建模培训讲义数学建模培训讲义 - 3 - 第二节距

8、离与相似系数一. 数据的变换方法数据的变换方法这里有n个样品，每个样品测得m项指标(变量)，观测数据为： (1, , 1,) ij xinjm=? 变量样品 1jm XXX? (1) ( ) ( ) i n X X X ? ? ? ? 1111 1 jm iijim xxx xxx ? ? ? ? ? 1 nnjnm xxx ? ? ? 均值 1jm xxx? 标准差 1jm SSS? 极差 1jm RRR? 极差(该组中)max min，也称为全距(Range) 注：极差大的一组不一定方差大，方差大的一组也不一定极差大。这些数据当中，均值定义形式为： 1 1 (1,2,) n j

9、tj t xxjm n = = ? 标准差定义形式为： 2 1 1 () (1,2,) 1 n jtjj t Sxxjm n = = ? 这里可能就会出现一个问题：所考察的m个不同的变量中，一般都有不同的量纲，不同的数量级单位，不同的取值范围。为了使不同的量纲，不同的取值范围的数据能放在一起进行比较，通常要对数据进行变换处理，常用的方法有： 1. 中心化变换： (1,2, ; 1,2,) ijijj xxxinjm =? 这是一种标准化处理方法，变换后数据的均值为0，协差阵不变，也就是说，协差阵为： * (), ij SSS= 其中： * 11 11 ()() 11 nn ijtii

10、tjjtitj tt Sxxxxx x nn = = 数学建模培训讲义数学建模培训讲义 - 4 - 【补充回忆相关知识：定义：()()( ) ,Cov X YEXE XYE Y= 协方差； () ()( ) , XY Cov X Y D XD Y = X与Y的相关系数。注：()()( )()2,D XYD XD YCov X Y+=+， ()()()( ),Cov X YE XYE X E Y=协方差计算公式， ()(),Cov X XD X=。设n维随机变量() 12 , n XXX?的二阶混合中心矩均存在： ()()() , ijijiijj CCov X YEXE XXE X =

11、， ,1,2,i jn=? () 11121 21222 12 n n ijij n n nnnn ccc ccc Cc ccc = ? ? ? ? () 12 , n XXX?的协方差矩阵显然，CC = 。 n维正态分布的概率密度维正态分布的概率密度先看二维情况： () () ()()()() 22 1122 22 2 2 1122 12 11 ,exp2 2 1 22 1 xxyy f x y =+ () ()() 1 12 22 11 exp 2 2 xCx C = 这里， 1 2 x X x = ， 1 2 = ， 2 1112 112 2 2122 122 cc C cc = 推

12、广到n维情况：() () ()() 1 121 22 11 ,exp 2 2 n n f x xxxCx C = ?，这里， 1 2 n x x X x = ? ， () () () 1 1 22 n n E X E X E X = ? ，C是() 12 , n XXX?的协方差矩阵数学建模培训讲义数学建模培训讲义 - 5 - n维正态分布的重要性质：维正态分布的重要性质：（1）n维随机变量() 12 , n XXX?服从n维正态分布 12 , n XXX?的任意线性组合 1122nn l Xl Xl X+?服从一维正态分布；（2）若() 12 , n XXX?服从n维正态分布，设 1

13、2 , k Y YY?是()1,2, j Xjn=?的线性函数，则() 12 , k Y YY?也服从多维正态分布（线性变换不变性）；（3）设() 12 , n XXX?服从n维正态分布，则 12 , n XXX?相互独立 12 , n XXX?两两不相关。】 2. 标准化变换： (1,2, ; 1,2,) ijj ij j xx xinjm S =? 变换后，每个变量的样本均值为0，标准差为1，并且标准化变换后的数据 * ij x与变量的量纲无关。 3. 极差标准化变换： (1,2, ; 1,2,) ijj ij j xx xinjm R =? 变换后，每个变量的样本均值为0

14、，极差为1，并且 * 1 ij x ) 由Lance和Williams最早提出的，定义为： 1 1 ( ), ( ,1,2, ) () m itjt ij t itjt xx dLi jn mxx = = + ? 这是一个无量钢的量，对大的奇异值不敏感，使得它对高度偏倚的数据更实用。数学建模培训讲义数学建模培训讲义 - 7 - 闵氏距离和兰氏距离都假定变量之间相互独立，即在正交空间中讨论距离问题；但在实际问题中，变量之间往往存在一定的相关性，为克服变量之间的相关性影响，可采用马氏距离。 3. 马氏距离(Mahalanobis) 样品 ( )i X与 ( )j X的马氏距离为： 1 ( )( )( )( ) ()()() ( ,1,2, ) ijijij dMXXSXXi jn =? 其中 1 S 为样本协差阵的逆矩阵。 4. 斜交空间距离为克服变量间相关性的影响，可定义为： 1 2 2 11 1 ()() ( ,1,2, ) mm ijikjkiljlkl kl dxxxxri jn m = = ? 其中 kl r为变量 k X与 l X之间的相关系数。三. 变量间的相似系数和距离变量间的相似系数和距离聚类分析法不仅用来对样品进行分类，有时需要对变量进行分类。在对变量进行分类时，通常采用相似系数来表示变量之间的亲疏程度。设 ij C表示变量 i

展开阅读全文