主成分分析也称主分量分析

上传人:鲁** 文档编号:509334309 上传时间:2023-07-09 格式:DOCX 页数:8 大小:25.89KB
返回 下载 相关 举报
主成分分析也称主分量分析_第1页
第1页 / 共8页
主成分分析也称主分量分析_第2页
第2页 / 共8页
主成分分析也称主分量分析_第3页
第3页 / 共8页
主成分分析也称主分量分析_第4页
第4页 / 共8页
主成分分析也称主分量分析_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《主成分分析也称主分量分析》由会员分享,可在线阅读,更多相关《主成分分析也称主分量分析(8页珍藏版)》请在金锄头文库上搜索。

1、主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技 术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的 第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上, 依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。 这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最 重要方面。但是,这也不是一定的,要视具体应用而定。编辑主成分分析的基本思想

2、在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉 及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映 了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的 信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增 加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量 较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在 实际评估工作中,我们常常会选用几个有代表性的综合指标,

3、采用打分的方法来进行评估, 故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。 因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根 据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的 几个综合指标,使综合指标为原来变量的线 性拟合。这样,综合指标不仅保留了原始变量 的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复 杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果 评估要素涉及个指标,这指标构 成的维随机向量为。对作正交变换,令,其中为正交阵, 的

4、各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可 能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析, 达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量 之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我 们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统 计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一 些启发,把科普效果评估研究引向深入。例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普

5、 作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计 算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并 达到一定的可信度,就容易进行科普效果的评估。编辑主成分分析法的基本原理主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机 向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成 对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变 量系统,再通过构造适当的价值函数,进一步把

6、低维系统转化成一维系统。编辑主成分分析的主要作用概括起来说,主成分分析主要由以下几个方面的作用。1. 主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X 空间(mVp),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成 分乙(即m=1)时,这个Y1仍是使用全部X变量(p个)得到的。例如要计算Y1的均值也得使 用全部x的均值。在所选的前m个主成分中,如果某个X.的系数全部近似于零的话,就可I以把这个X.删除,这也是一种删除多余变量的方法。I2. 有时可通过因子负荷a.的结论,弄清X变量间的某些关系。j3. 多维数据的一种图形表示方法。我们知道当维数大于3

7、时便不能画出几何图形,多元 统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经 过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画 出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还 可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。4. 由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回 归分析。5. 用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身 易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变 量集合。用主

8、成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合 的效果。编辑主成分分析法的计算步骤1、原始指标数据的标准化采集p维随机向量x = (x2,.,Xp)T)n个样品x (Xi,X2,.%)T,i=l,2,nnp,构造样本阵,对样本阵元进行如下标准化变换: ,2 = 1, 2,J = 1, 2, .J p其中2、对标准化阵Z求相关系数矩阵,得标准化阵乙ZTZR = P = n_.y=刀喝 认j = 12应其中,-。3、解样本相关矩阵R的特征方程人匚 1得p个特征根,确定主成分按确定m值,使信息的利用率达85%以上,对每个兮j=l,2,.,m,解方程组Rb = X.b得单位特征向

9、量J。j4、将标准化后的指标变量转换为主成分Uij = zbj = 1, 2, .,m口称为第一主成分,U2称为第二主成分,,U称为第p主成分。1 25、对m个主成分进行综合评价对m个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。编辑1主成分分析法的应用分析编辑1案例一:主成分分析法在啤酒风味评价分析中的应用1啤酒是个多指标风味食品,为了全面了解啤酒的风味,啤酒企业开发了大量的检测方法 用于分析啤酒的指标,但是面对大量的指标数据,大多数企业又感到茫然,不知道如何利用 这些大量的数据,由上面的介绍可知,在这种情况下,主成分分析法能够派上用场。近年来,科 研人员为了获得对啤酒风

10、味更好的理解,多元统计技术的使用越来越多。这主要有以下两方 面的原因:在啤酒领域里,几乎没有一个问题能够使用单变量(单指标)就能反映事物的属性, 例如啤酒的好坏、一致性,不能通过双乙酰一个指标说明问题;另一个重要的原因就是,近 年来大量数学统计软件的不断出现和个人电脑的普及促进了多元统计分析技术的应用。多元 统计技术在啤酒风味研究中的一个重要任务就是找出啤酒风格和啤酒理化指标(风味成分指 标也属于理化指标)之间的相关性。例如可以用多元统计技术来找出啤酒的风味指标和啤酒 风味的关系或不同啤酒的风味差异性。经常使用的多元统计技术有聚类分析、判别分析、主成分分析和回归分析等。其中主成 分分析能够用于

11、多指标产品,主成分分析可以按照事物的相似性区分产品,结果可用一维、 二维或三维平面坐标图标示,特别直观。使用主成分分析法可以研究隐藏在不同变量背后的 关系,而且根据这些变量能够获得主成分的背景解释。鉴于主成分分析在啤酒风味质量应用中的强大作用,本文简单介绍主成分分析的基本 原理及其在啤酒一致性监控中的应用,以引起我国啤酒同行的广泛关注。编辑11材料与方法1.1仪器HP 6890毛细管气相色谱仪(美国安捷伦公司),FID检测器,HP 7694E顶空自动进样 器,HP气相色谱化学工作站。1.2分析方法1.2.1样品制备啤酒于5 C冷藏,量取5 mL酒液于20 mL顶空瓶中,添加2.0 g/L正丁醇

12、溶液0.10 mL,加密封垫及铝盖密封,振荡混匀以供顶空气相色谱测定。1.2.2色谱条件毛细管色谱柱(DB- WAXETR 30 mx0.53 mm i.d,膜厚1.0 ym);柱温:起始温度为35 C 以10 Cmin程序升温至150 C,再以20 Cmin升温到180 C,并继续恒温5 min;进样口温 度150 C;检测器温度200 C;载气为高纯氮气,流速为5 mL/min;氢气30 mL/min;空气400 mL/min;采用分流进样,分流比为1 :1。编辑2主成分分析法的基本原理2.1主成分分析法在啤酒研究中应用的必要性这里通过一个例子说明,主成分分析在啤 酒研究中的必要性。假如有

13、6个啤酒样品,分别标为A- F,每个啤酒样品用3个指标来描述。 这些指标可以是仪器的分析数据、感官分析数据或两者都用。为了便于讨论,假设这3个指 标分别为苦味值(BU)、DMS和酒精浓度。为了解这6个样品两两之间的相似性,便于将这6 个样品进行分类,可以把这6个样品画在三维空间中,见图1。显然在这个简单的例子中,这6 个样品倾向于形成两类,即分别是A- C和D- F。通过所测的指标可以解释这种分类,例如, 第一组(A- C)有较高的苦味值和较低的酒精浓度。这个例子中只涉及到6个样品和3个指 标。但是实际上,样品数量和指标数量都会很大,例如,有20个指标,这时,样品不能在20 维的坐标系中画出。

14、为了解决多指标的样品的比较问题,可以使用主成分分析法。2.2主成分分析法的基本原理主成分分析的第一步是将所有的指标数据进行标准化,标准化的一般方法为:(xij - ij x mean) / 8 ,这里x是样品j的第i个指标,xmean和8是第j个指标的平均值和标准偏差, jjijjj通过标准化后,每个变量的平均值变成0,标准偏差为1。标准化的好处是可以消除不同指标间 的量纲差异和数量级间的差异。第二步求出指标间的相关矩阵,通过相关矩阵,可以确定具有高度相关性的指标,这些 指标间的协方差可以通过另一个变量替代,这个变量叫作第一成分。去掉第一成分后,计算 残留相关阵,通过残留相关阵,第二组高度相关

15、的变量也可以发现,它们的协方差可以用第 二成分替代,第二成分和第一成分是正交的。第二成分对原始数据的贡献去除后,可以提取 第三成分。此过程一直继续,直到原始数据的所有方差都被提取后结束。结果是原数据转化 成了同样数量的新变量,但是,这些新变量之间是正交的。因此,每个样品的原始变量的标准化数据就被转换成一系列成分的计算值。每一个样品, 原始数据能够表达成新成分的线性组合值,例如一个有9个指标的数据集就可转换成:% =I L1.2C2 I I 5 9O9V2 = 1/2.1 Cl I L22C2 I I 6也9= L91C1 II I 环9C9一 L是原始数据的标准化值。丄:二、L二是原变 量与新成分之间的相关程度的指标,一般将其称为因子荷载。通过计算机的主成分程序生成对方差的贡献率。一般而言,原数据的总方差总是高度集 中在前几个成分中。因此,在这个分析中,可以基于可以接受的最低方差贡献率,来选择几个数 目较少的主成分。最终,可以用选择的几个主成分来重新计算所用的样品。重新计算的值叫 做主成分得分。因为原始数据阵的方差通常集中在前几个主成分中(一般为2或3个),因此样品的一 系列标准化因子得分可以在二维的平面坐标中画出,这样就能够根据样品的相似性来分类 样品。另外,还可以根据因子荷载对这种分类做出某种解释。编

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号