数学建模实用教程(主成分分析)

资源描述

《数学建模实用教程(主成分分析)》由会员分享，可在线阅读，更多相关《数学建模实用教程(主成分分析)（70页珍藏版）》请在金锄头文库上搜索。

1、综合评价方法之二基于数据分析几种方案,方案一主成份分析法,问题实际背景,在现实生活中，人们往往会对样品收集尽可能多的指标，例如人口普查往往要调查每个人的姓名、年龄、性别、文化程度、住房、职业、收入、消费等几十项指标，从收集资料的角度来看，收集较多的数据有利于完整反映样品的特征，但是这些指标从统计角度来看相互之间具有一定的依赖关系，从而使所观测的数据在反映信息上有一定重叠。,解决的问题之一：降维,主成份分析正是针对这类问题而产生的，是解决这类题的理想工具。主成分分析也称主分量分析（principal components analysis,PCA）是由美国的科学家哈罗德霍特林（Harold

2、 Hotelling）于1933年首先提出的。人们希望通过克服相关性、重叠性，用较少的变量来代替原来较多的变量，而这种代替可以反映原来多个变量的大部分信息，这实际上是一种“降维”的思想。,多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形经过主成分分析后，我们可以选取前两个主成分或其中某两个主成分，这样既可以就这两个主成分性质加以分析，还可以根据主成分画出n个样品在二维平面上的分布况，由图形可直观地看出各样品在主成分中的地位，进而还可以对样本进行分类处理。,解决的问题之二：几何分析,选择评价指标体系后通过对各指标加权的办法来进行综合。但是，如何对指标加权是一项具有挑战性的

3、工作。指标加权的依据是指标的重要性，指标在评价中的重要性判断难免带有一定的主观性，这影响了综合评价的客观性和准确性。主成分分析法是根据指标间的相对重要性进行客观加权，可以避免综合评价者的主观影响，所以在实际应用中越来越受到人们的重视。,解决的问题之三：客观加权,有关数学模型与常见实例,2008年美国数学建模竞赛题：“评价国家公共卫生体系上的应用 ” 啤酒风味评价分析实例我国部分地区城镇居民家庭收支基本情况分析实例,主成分分析的基本思想,明确信息量大数学意义,我们知道，当一个变量只取一个数据时，这个变量（数据）提供的信息量是非常有限的，当这个变量取一系列不同数据时，我们可以从中读出最大值、最小

4、值、平均数等信息。变量的变异性越大，说明它对各种场景的“遍历性”越强，提供的信息就更加充分，信息量就越大。主成分分析中的信息，就是指标的变异性，用标准差或方差表示它。,为了便于理解以两个指标为例：,主成分确定的准则：信息损失小，之间重叠少,假设共有n个样品，每个样品都测量了两个指标（X1，X2），在坐标系x1-O-x2中，观察散点的分布，单独看这n个点的分量X1和X2，它们沿着x1方向和x2方向都具有较大的离散性，其离散的程度可以分别用的X1方差和X2的方差测定。如果仅考虑X1或X2中的任何一个分量，那么包含在另一分量中的信息将会损失，因此，直接舍弃某个分量不是“确定主成分”的有效办法。,确

5、定第一主成分方法,事实上，散点的分布总有可能沿着某一个方向略显扩张，这个方向就把它看作椭圆的长轴方向。,结论：为第一主成分，为第二主成分。,主成分的数学模型：,推广一般主成分确定的模型,主成分分析的数学模型是，设p个变量构成的q维随机向量为 X = （X1，Xp）对X作正交变换，令Y = TX，其中T为正交阵，要求Y的各分量是不相关的，并且Y的第一个分量的方差是最大的，第二个分量的方差次之，等等。为了保持信息不丢失，Y的各分量方差和与X的各分量方差和相等。,Y是列向量,T为正交阵有：TT=I;T=T(-1),新旧变量关系的表达式,新指标的方差及它们的协方差：,其中表示方差，Cov表示协

6、方差，表示X协方差阵,主成分确定条件：,第一主成分为，满足，并且使得达到最大的。第二主成分为，满足，使得达到最大的。一般情形，第主成分为，满足，且（），使得达到最大的。,第一主成分求法,第二主成分求法,第主成分求法,结论：,主成分保持信息总量不少,主成分个数确定的标准,第个主成分的贡献率：,主成分个数确定的标准,主成分分析的步骤,构造样本阵,样本阵 , 其中是样本容量即评价对象，是评价指标个数，是第个样本中采集的第项评价指标值。,指标正向化,正向指标是随着该指标值的增长总系统评价结果越好，因而转化公式为,转化后样本阵,指标规范化,为克服单位差异

7、对评价结果的影响，须将指标规范化其中,协方差矩阵：也是样本阵的相关系数阵,显然，的协方差矩阵也是的相关系数矩阵,确定主成分,构造综合评价函数,1.求的权值公式： 2.构造综合评价函数这里我们应该注意，从本质上说综合评价函数是对原始指标的线性综合，从计算主成分到对之加权，经过两次线性运算后得到综合评价函数。,啤酒风味评价实例分析,题目：啤酒是个多指标风味食品, 为了全面了解啤酒的风味, 啤酒企业开发了大量的检测方法用于分析啤酒的指标, 但是面对大量的指标数据, 大多数企业又感到茫然,不知道如何利用这些大量的数据, 来对各品牌的啤酒加以评价，由上面的介绍可知,在这种情况下,主成分分析法

8、较为适合。,构造样本阵（1）确定原始评价指标：即未经简化的指标m个本题选有：乙醛、乙酸乙酯、异丁酯、乙酸异戊酯、异戊醇及己酸乙酯（m=6）（2）确定评价对象：即定抽样，一般样本容量n个本题选有：百威啤酒、喜力啤酒和青岛啤酒，南方某种啤酒（n=4）,（3）采集样本数据：采集4个样本的对应指标，得到4个6维的随机向量。（4）构造样本阵：。本题,构造标准化阵Z,指标规范化为克服单位差异对评价结果的响，须将样本阵元素规范化，得标准化矩阵Z,其中,本题标准化矩阵,相关系数矩阵：对角元为1的实对称,本题相关系数阵,相关系数阵的特征值及向量,（1）解样本相关系数矩阵R 的特征方程得6个

9、特征根, （2）确定主成分个数 k ：并由大到小排列：使信息的利用率达85%以上，,（3）构造个主成份：,对每个j, j=1,2,.,k, 解得单位特征向量,则第j个主成份,本题k=2，利用率d=45.1%+38.2%=83.3%,构造综合评价价值函数：,（1）首先构造权向量：,其中,（2）构造价值函数：,本题结果：,综合结论：由好到差排序喜力啤酒百威啤酒青岛啤酒南方某种啤酒,随机向量X的方差协方差阵对角线上的元素,主成分的方差协方差矩阵的对角线元素,正交矩阵T中对应的第k行第i列元素,主成分因子载荷量:,主成分因子载荷量：以,为坐标画图分析,结果分析：,从图可以看出, 主成分

10、 1 主要由乙酸乙酯、乙酸异戊酯和己酸乙酯决定, 这些酯含量高, 主成分1 就越大, 即主成分1 代表了啤酒的酯香, 酯香越浓, 主成分 1就越大。主成分2 主要由乙醛、异丁醇和异戊醇决定,这些成分能够代表啤酒的“酒劲”的大小, 这些成分含量越高,主成分2 就越大,即啤酒的酒味就越重。,模型结果分析（2）：各样本主成分,各样本主成分分析图,结论:关于个样本结论,结合这种解释, 就可以对图2 中的分类做出分析, 其中百威啤酒是酒味适中和酯香相对较浓的“浓香型”啤酒, 喜力啤酒是酒味和酯香均较浓的“浓醇型”啤酒青岛啤酒是酒味较重, 而酯香较弱的“醇型”啤酒某品牌的啤酒则是酒味和酯香均弱的“淡型

11、”啤酒。,SPSS实现主成分分析,某市工业部门13个行业的8项重要经济指标的数据，这8项经济指标分别是： X1：年末固定资产净值，单位：万元； X2：职工人数据，单位：人； X3：工业总产值，单位：万元； X4：全员劳动生产率，单位：元/人年； X5：百元固定资产原值实现产值，单位：元； X6：资金利税率，单位：%； X7：标准燃料消费量，单位：吨； X8：能源利用效果，单位：万元/吨。,样本阵,请问：如何从这些经济指标出发，对各工业部门进行综合评价与排序？我们的目标是：先对数据进行标准化，得到相关矩阵R以后，计算该矩阵的8个特征值及对应的特征向量。由下式建立8个主成分：分别计算各主成分,

12、（一）利用SPSS进行因子分析将原始数据输入SPSS数据编辑窗口，将8个变量分别命名为X1X8 。在SPSS窗口中选择AnalyzeData ReductionFactor菜单项，调出因子分析主界面，并将变量X1X8移入Variables框中，其他均保持系统默认选项，单击OK按钮，执行因子分析过程。,因子提取的方法：主成分,用相关矩阵提取特征向量,用X的方差协方差阵进行分析：默认数据无标准化,由R矩阵计算的特征根,前两个特征根的方差解释度达到80%,Total列为各因子对应的特征根，本例中共提取两个公因子；% of Variance列为各因子的方差贡献率；Cumulative %列为各因子累

13、积方差贡献率，由表中可以看出，前两个因子已经可以解释79.31%的方差,（二）利用因子分析结果进行主成分分析 1. 将下表中因子载荷阵中的数据输入SPSS数据编辑窗口，分别命名为a1和a2。,2. 为了计算第一个特征向量，点击菜单项中的TransformCompute，调出Compute variable对话框，在对话框中输入等式： z1=a1 / SQRT(2.576) 点击OK按钮，即可在数据编辑窗口中得到以z1为变量名的第一特征向量。再次调出Compute variable对话框，在对话框中输入等式： z2=a2 / SQRT(1.389) 点击OK按钮，得到以z2为变量名第二特征向量

14、。这样，我们得到了特征向量矩阵：,从而有，两个主成分的表达式：,3. 再次使用Compute命令，就可以计算得到两个主成分。,以下我们用SPSS对上例中13个行业的综合排序：进入SPSS的factor分析窗口，用相应的命令获得以下结果：,对R矩阵计算得到的特征值,得到因子载荷阵：此时仅提取前3个因子，已经能够解释86%的原变量方差,利用载荷阵与特征向量之间的关系，我们计算前三个特征向量：,这三个主成分Y是在标准化数据基础上提炼得到的，因此在计算综合得分时，要注意先将原始数据标准化。,由上表看出，第一主成分除了与X8的相关性最弱以外，基本反映了其它7个原始变量的信息；第二主成分与8个原始变量的

15、相关性都差不多，也是综合反映了信息；第三个主成分仅与X8的相关性最高，主要反映了工业行业中能源利用率的问题。,因此，我们得到三个主成分具体表达式：接下来，利用各特征值的方差贡献率做权重计算各行业的综合得分：,从上表中看出，机器行业在该地区的综合评价排在第一，从原始数据也反映出机器行业存在明显的规模优势。而排在该地区行业发展最末的三位分别是皮革行业、电力行业和煤炭行业。从综合分析来看，该地区的优势产业集中在以机器为主的重型工业，这为该地区制定未来行业发展规划提供依据。,注意：在进行综合得分计算时，要先将原始数据X做标准化，在analyse-descriptives中有直接生成的命令。然后在transform窗口中输入新变量（主成分得分、综合得分等）的表达式。利用rank cases命令对最后的综合得分进行排序，可以得到最终各样本点在综合分析中的排名。,谢谢！,谢谢观看！ 2020,

展开阅读全文