数学建模实用教程(主成分分析)

上传人:l**** 文档编号:136642435 上传时间:2020-06-30 格式:PPT 页数:70 大小:1.60MB
返回 下载 相关 举报
数学建模实用教程(主成分分析)_第1页
第1页 / 共70页
数学建模实用教程(主成分分析)_第2页
第2页 / 共70页
数学建模实用教程(主成分分析)_第3页
第3页 / 共70页
数学建模实用教程(主成分分析)_第4页
第4页 / 共70页
数学建模实用教程(主成分分析)_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《数学建模实用教程(主成分分析)》由会员分享,可在线阅读,更多相关《数学建模实用教程(主成分分析)(70页珍藏版)》请在金锄头文库上搜索。

1、综合评价方法之二 基于数据分析几种方案,方案一 主成份分析法,问题实际背景,在现实生活中,人们往往会对样品收集尽可能多的指标,例如人口普查往往要调查每个人的姓名、年龄、性别、文化程度、住房、职业、收入、消费等几十项指标,从收集资料的角度来看,收集较多的数据有利于完整反映样品的特征,但是这些指标从统计角度来看相互之间具有一定的依赖关系,从而使所观测的数据在反映信息上有一定重叠。,解决的问题之一:降维,主成份分析正是针对这类问题而产生的,是解决这类题的理想工具。 主成分分析也称主分量分析(principal components analysis,PCA)是由美国的科学家哈罗德霍特林(Harold

2、 Hotelling)于1933年首先提出的。人们希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。,多维数据的一种图形表示方法。 我们知道当维数大于3时便不能画出几何图形经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,这样既可以就这两个主成分性质加以分析,还可以根据主成分画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主成分中的地位,进而还可以对样本进行分类处理 。,解决的问题之二:几何分析,选择评价指标体系后通过对各指标加权的办法来进行综合。但是,如何对指标加权是一项具有挑战性的

3、工作。指标加权的依据是指标的重要性,指标在评价中的重要性判断难免带有一定的主观性,这影响了综合评价的客观性和准确性。主成分分析法是根据指标间的相对重要性进行客观加权,可以避免综合评价者的主观影响,所以在实际应用中越来越受到人们的重视。,解决的问题之三:客观加权,有关数学模型与常见实例,2008年美国数学建模竞赛题:“评价国家公共卫生体系上的应用 ” 啤酒风味评价分析实例 我国部分地区城镇居民家庭收支基本情况分析实例,主成分分析的基本思想,明确信息量大数学意义,我们知道,当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小

4、值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。,为了便于理解以两个指标为例:,主成分确定的准则:信息损失小,之间重叠少,假设共有n个样品,每个样品都测量了两个指标 (X1,X2),在坐标系x1-O-x2中,观察散点的分布,单独看这n个点的分量X1和X2,它们沿着x1方向和x2方向都具有较大的离散性,其离散的程度可以分别用的X1方差和X2的方差测定。如果仅考虑X1或X2中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃某个分量不是“确定主成分”的有效办法。,确

5、定第一主成分方法,事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。,结论: 为第一主成分, 为第二主成分。,主成分的数学模型:,推广一般主成分确定的模型,主成分分析的数学模型是,设p个变量构成的q维随机向量为 X = (X1,Xp) 对X作正交变换,令Y = TX,其中T为正交阵,要求Y的各分量是不相关的,并且Y的第一个分量的方差是最大的,第二个分量的方差次之,等等。为了保持信息不丢失,Y的各分量方差和与X的各分量方差和相等。,Y是列向量,T为正交阵有:TT=I;T=T(-1),新旧变量关系的表达式,新指标的方差及它们的协方差:,其中 表示方差,Cov表示协

6、方差, 表示X协方差阵,主成分确定条件:,第一主成分为,满足 , 并且使得 达到最大的 。 第二主成分为,满足 , 使得 达到最大的 。 一般情形,第 主成分为,满足 , 且 ( ),使得 达到最大的 。,第一主成分求法,第二主成分求法,第 主成分求法,结论:,主成分保持信息总量不少,主成分个数确定的标准,第 个主成分的贡献率:,主成分个数确定的标准,主成分分析的步骤,构造样本阵,样本阵 , 其中 是样本容量即评价对象, 是评价指标个数, 是第 个样本中采集的第 项评价指标值。,指标正向化,正向指标是随着该指标值的增长总系统评价结果越好,因而转化公式为,转化后样本阵,指标规范化,为克服单位差异

7、对评价结果的影响,须将指标规范化 其中,协方差矩阵:也是样本阵的相关系数阵,显然, 的协方差矩阵也是 的相关系数矩阵,确定主成分,构造综合评价函数,1.求 的权值公式: 2.构造综合评价函数 这里我们应该注意,从本质上说综合评价函数是对原始指标的线性综合,从计算主成分到对之加权,经过两次线性运算后得到综合评价函数。,啤酒风味评价实例分析,题目:啤酒是个多指标风味食品, 为了全面了解啤酒的风味, 啤酒企业开发 了大量的检测方法用于分析啤酒的指标, 但是面对大量的指标数据, 大多数企业又感到茫然,不知道如何利用这些大量的数据, 来对各品牌的啤酒加以评价,由上面的介绍可知,在这种情况下,主成分分析法

8、较为适合。,构造样本阵 (1)确定原始评价指标:即未经简化的指标m个 本题选有:乙醛、乙酸乙酯、异丁酯、乙酸异戊酯、异戊醇及己酸乙酯 (m=6) (2)确定评价对象:即定抽样,一般样本容量n个 本题选有:百威啤酒、喜力啤酒和青岛啤酒 ,南方某种啤酒(n=4),(3)采集样本数据: 采集4个样本的对应指标,得到4个6维的随机向量。 (4)构造样本阵: 。本题,构造标准化阵Z,指标规范化 为克服单位差异对评价结果的响,须将样本阵元素规范化,得标准化矩阵Z,其中,本题标准化矩阵,相关系数矩阵:对角元为1的实对称,本题相关系数阵,相关系数阵的特征值及向量,(1)解样本相关系数矩阵R 的特征方程 得6个

9、特征根, (2)确定主成分个数 k :并由大到小排列: 使信息的利用率达85%以上,,(3)构造个主成份 :,对每个j, j=1,2,.,k, 解得单位特征向 量,则第j个主成份,本题k=2,利用率d=45.1%+38.2%=83.3%,构造综合评价价值函数:,(1)首先构造权向量:,其中,(2)构造价值函数:,本题结果:,综合结论:由好到差排序 喜力啤酒 百威啤酒 青岛啤酒 南方某种啤酒,随机向量X的方差协方差阵对角线上的元素,主成分的方差协方差矩阵的对角线元素,正交矩阵T中对应的第k行第i列元素,主成分因子载荷量:,主成分因子载荷量:以,为坐标画图分析,结果分析:,从图 可以看出, 主成分

10、 1 主要由乙酸乙酯、乙酸异戊酯和己酸乙酯决定, 这些酯含量高, 主成分1 就越大, 即主成分1 代表了啤酒的酯香, 酯香越浓, 主成分 1就越大。主成分2 主要由乙醛、异丁醇和异戊醇决定,这些成分能够代表啤酒的“酒劲”的大小, 这些成分含量越高,主成分2 就越大,即啤酒的酒味就越重。,模型结果分析(2):各样本主成分,各样本主成分分析图,结论:关于个样本结论,结合这种解释, 就可以对图2 中的分类做出分析, 其中百威啤酒是酒味适中和酯香相对较浓的“浓香型”啤酒, 喜力啤酒是酒味和酯香均较浓的“浓醇型”啤酒 青岛啤酒是酒味较重, 而酯香较弱的“醇型”啤酒 某品牌的啤酒则是酒味和酯香均弱的“淡型

11、”啤酒。,SPSS实现主成分分析,某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是: X1:年末固定资产净值,单位:万元; X2:职工人数据,单位:人; X3:工业总产值,单位:万元; X4:全员劳动生产率,单位:元/人年; X5:百元固定资产原值实现产值,单位:元; X6:资金利税率,单位:%; X7:标准燃料消费量,单位:吨; X8:能源利用效果,单位:万元/吨。,样本阵,请问:如何从这些经济指标出发,对各工业部门进行综合评价与排序? 我们的目标是:先对数据进行标准化,得到相关矩阵R以后,计算该矩阵的8个特征值及对应的特征向量。由下式建立8个主成分: 分别计算各主成分,

12、(一)利用SPSS进行因子分析 将原始数据输入SPSS数据编辑窗口,将8个变量分别命名为X1X8 。在SPSS窗口中选择AnalyzeData ReductionFactor菜单项,调出因子分析主界面,并将变量X1X8移入Variables框中,其他均保持系统默认选项,单击OK按钮,执行因子分析过程。,因子提取的方法:主成分,用相关矩阵提取特征向量,用X的方差协方差阵进行分析:默认数据无标准化,由R矩阵计算的特征根,前两个特征根的方差解释度达到80%,Total列为各因子对应的特征根,本例中共提取两个公因子;% of Variance列为各因子的方差贡献率;Cumulative %列为各因子累

13、积方差贡献率,由表中可以看出,前两个因子已经可以解释79.31%的方差,(二)利用因子分析结果进行主成分分析 1. 将下表中因子载荷阵中的数据输入SPSS数据编辑窗口,分别命名为a1和a2。,2. 为了计算第一个特征向量,点击菜单项中的TransformCompute,调出Compute variable对话框,在对话框中输入等式: z1=a1 / SQRT(2.576) 点击OK按钮,即可在数据编辑窗口中得到以z1为变量名的第一特征向量。 再次调出Compute variable对话框,在对话框中输入等式: z2=a2 / SQRT(1.389) 点击OK按钮,得到以z2为变量名第二特征向量

14、。这样,我们得到了特征向量矩阵:,从而有,两个主成分的表达式:,3. 再次使用Compute命令,就可以计算得到两个主成分。,以下我们用SPSS对上例中13个行业的综合排序: 进入SPSS的factor分析窗口,用相应的命令获得以下结果:,对R矩阵计算得到的特征值,得到因子载荷阵:此时仅提取前3个因子,已经能够解释86%的原变量方差,利用载荷阵与特征向量之间的关系,我们计算前三个特征向量:,这三个主成分Y是在标准化数据基础上提炼得到的,因此在计算综合得分时,要注意先将原始数据标准化。,由上表看出,第一主成分除了与X8的相关性最弱以外,基本反映了其它7个原始变量的信息;第二主成分与8个原始变量的

15、相关性都差不多,也是综合反映了信息;第三个主成分仅与X8的相关性最高,主要反映了工业行业中能源利用率的问题。,因此,我们得到三个主成分具体表达式: 接下来,利用各特征值的方差贡献率做权重计算各行业的综合得分:,从上表中看出,机器行业在该地区的综合评价排在第一,从原始数据也反映出机器行业存在明显的规模优势。而排在该地区行业发展最末的三位分别是皮革行业、电力行业和煤炭行业。 从综合分析来看,该地区的优势产业集中在以机器为主的重型工业,这为该地区制定未来行业发展规划提供依据。,注意:在进行综合得分计算时,要先将原始数据X做标准化,在analyse-descriptives中有直接生成的命令。 然后在transform窗口中输入新变量(主成分得分、综合得分等)的表达式。 利用rank cases命令对最后的综合得分进行排序,可以得到最终各样本点在综合分析中的排名。,谢谢!,谢谢观看! 2020,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作范文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号