主元分析(PCA)理论分析及应用

上传人:m**** 文档编号:432880219 上传时间:2023-07-06 格式:DOCX 页数:15 大小:166.71KB
返回 下载 相关 举报
主元分析(PCA)理论分析及应用_第1页
第1页 / 共15页
主元分析(PCA)理论分析及应用_第2页
第2页 / 共15页
主元分析(PCA)理论分析及应用_第3页
第3页 / 共15页
主元分析(PCA)理论分析及应用_第4页
第4页 / 共15页
主元分析(PCA)理论分析及应用_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《主元分析(PCA)理论分析及应用》由会员分享,可在线阅读,更多相关《主元分析(PCA)理论分析及应用(15页珍藏版)》请在金锄头文库上搜索。

1、主元分析(PCA)理论分析及应用什么是 PCA?PCA 是 Principal component analysis 的缩写,中文翻译为主元分析。它是一 种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字: 主元分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音 和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优 点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛, 从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结 果之一。在以下的章节中,不仅有对 PCA 的比较直观的解释,同时也配有较为深入 的分

2、析。首先将从一个简单的例子开始说明 PCA 应用的场合以及想法的由来, 进行一个比较直观的解释;然后加入数学的严格推导,引入线形代数,进行问题 的求解。随后将揭示PCA与SVD(Singular Value Decomposition)之间的联系以及 如何将之应用于真实世界。最后将分析 PCA 理论模型的假设条件以及针对这些 条件可能进行的改进。一个简单的模型在实验科学中我常遇到的情况是,使用大量的变量代表可能变化的因素,例 如光谱、电压、速度等等。但是由于实验环境和观测手段的限制,实验数据往往 变得极其的复杂、混乱和冗余的。如何对数据进行分析,取得隐藏在数据背后的 变量关系,是一个很困难的问

3、题。在神经科学、气象学、海洋学等等学科实验中, 假设的变量个数可能非常之多,但是真正的影响因素以及它们之间的关系可能又 是非常之简单的。下面的模型取自一个物理学中的实验。它看上去比较简单,但足以说明问题。 如图表 错误!未定义书签。所示。这是一个理想弹簧运动规律的测定实验。假 设球是连接在一个无质量无摩擦的弹簧之上,从平衡位置沿x轴拉开一定的距离 然后释放。图表 错误!未定义书签。对于一个具有先验知识的实验者来说,这个实验是非常容易的。球的运动只是在 x 轴向上发生,只需要记录下 x 轴向上的运动序列并加以分析即可。但是,在真 实世界中,对于第一次实验的探索者来说(这也是实验科学中最常遇到的一

4、种情 况),是不可能进行这样的假设的。那么,一般来说,必须记录下球的三维位置 (x0, y0, z0 ) 。这一点可以通过在不同角度放置三个摄像机实现(如图所示),假设 以 200Hz 的频率拍摄画面,就可以得到球在空间中的运动序列。但是,由于实 验的限制,这三台摄像机的角度可能比较任意,并不是正交的。事实上,在真实 世界中也并没有所谓的x,y,z轴,每个摄像机记录下的都是一幅二维的图像, 有其自己的空间坐标系,球的空间位置是由一组二维坐标记录的: (XA yA ),( XB yB ),( XC yc )。经过实验,系统产生了几分钟内球的位置序列。怎样 从这些数据中得到球是沿着某个X轴运动的规

5、律呢?怎样将实验数据中的冗余 变量剔除,化归到这个潜在的 x 轴上呢?这是一个真实的实验场景,数据的噪音是必须面对的因素。在这个实验中噪 音可能来自空气、摩擦、摄像机的误差以及非理想化的弹簧等等。噪音使数据变 得混乱,掩盖了变量间的真实关系。如何去除噪音是实验者每天所要面对的巨大 考验。上面提出的两个问题就是PCA方法的目标。PCA主元分析方法是解决此类问 题的一个有力的武器。下文将结合以上的例子提出解决方案,逐步叙述 PCA 方 法的思想和求解过程。线形代数:基变换从线形代数的角度来看,PCA的目标就是使用另一组基去重新描述得到的数 据空间。而新的基要能尽量揭示原有的数据间的关系。在这个例子

6、中,沿着某兀 轴上的运动是最重要的。这个维度即最重要的“主元”。PCA的目标就是找到这 样的“主元”,最大程度的去除冗余和噪音的干扰。A. 标准正交基为了引入推导,需要将上文的数据进行明确的定义。在上面描述的实验过程 中,在每一个采样时间点上,每个摄像机记录了一组二维坐标(XA,乙),综合三 台摄像机数据,在每一个时间点上得到的位置数据对应于一个六维列向量。XAyA- XX = ByBXCyC如果以200Hz的频率拍摄10分钟,将得到10x60X200二120000个这样的向量数 据。抽象一点来说,每一个采样点数据X都是在m维向量空间(此例中m = 6 )内 的一个向量,这里的m是牵涉的变量个

7、数。由线形代数我们知道,在m维向量 空间中的每一个向量都是一组正交基的线形组合。最普通的一组正交基是标准正 交基,实验采样的结果通常可以看作是在标准正交基下表示的。举例来说,上例中每个摄像机记录的数据坐标为(XA,乙),这样的基便是心,0),1)。那为什么 卫返)(空空)不取 2 2 2 2 或是其他任意的基呢?原因是,这样的标准正交基 反映了数据的采集方式。假设采集数据点是(2,2),一般并不会记录曲,0)(在 (兰込(二 2 二 2)2222 基下),因为一般的观测者都是习惯于取摄像机的屏幕坐标,即向上和向右的方向作为观测的基准。也就是说,标准正交基表现了数据 观测的一般方式。在线形代数中

8、,这组基表示为行列向量线形无关的单位矩阵。B. 基变换从更严格的数学定义上来说, PCA 回答的问题是:如何寻找到另一组正交基,它们是标准正交基的线性组合,而且能够最好的表示数据集?这里提出了 PCA 方法的一个最关键的假设:线性。这是一个非常强的假设 条件。它使问题得到了很大程度的简化: 1 )数据被限制在一个向量空间中,能 被一组基表示;2)隐含的假设了数据之间的连续性关系。这样一来数据就可以被表示为各种基的线性组合。令X表示原数据集。X是 一个mXn的矩阵,它的每一个列向量都表示一个时间采样点上的数据X,在上 面的例子中,m = 6,n = 120000。Y表示转换以后的新的数据集表示。

9、P是他们 之间的线性转换。PX = Y(1)有如下定义: 匕表示P的行向量。 x表示X的列向量(或者X)。 yi表示Y的列向量。 公式(1)表示不同基之间的转换,在线性代数中,它有如下的含义: P是从X到Y的转换矩阵。 几何上来说,P对X进行旋转和拉伸得到Y。 P的行向量,pi,,pm是一组新的基,而Y是原数据X在这组新的基 表示下得到的重新表示。下面是对最后一个含义的显式说明:PX =p1px11pxm1px1npxmn注意到 Y 的列向量:px1iy =:ip xmi可见yi表示的是xi与P中对应列的点积,也就是相当于是在对应向量上的投影。 所以,P的行向量事实上就是一组新的基。它对原数据

10、X进行重新表示。在一 些文献中,将数据X成为“源”而将变换后的Y称为“信号”这是由于变换 后的数据更能体现信号成分的原因。C. 问题在线性的假设条件下,问题转化为寻找一组变换后的基,也就是P的行向 量pr,pm,这些向量就是PCA中所谓的“主元”。问题转化为如下的形式: 怎样才能最好的表示原数据 X ? P 的基怎样选择才是最好的? 解决问题的关键是如何体现数据的特征。那么,什么是数据的特征,如何体现呢?方差和目标“最好的表示”是什么意思呢?下面的章节将给出一个较为直观的解释,并 增加一些额外的假设条件。在线性系统中,所谓的“混乱数据”通常包含以下的 三种成分:噪音、旋转以及冗余。下面将对这三

11、种成分做出数学上的描述并针对 目标作出分析。A. 噪音和旋转噪音对数据的影响是巨大的,如果不能对噪音进行区分,就不可能抽取数据 中有用的 信息。噪 音 的横梁有 多种方 式, 最常见的定 义 是信噪比 SNR (signaltonoise rat或是方差比 a 2:C 2SNR =- signalC2noise(2) 比较大的信噪比表示数据的准确度高,而信噪比低则说明数据中的噪音成分 比较多。那么怎样区分什么是信号,什么是噪音呢?这里假设,变化较大的信息 被认为是信号,变化较小的则是噪音。事实上,这个标准等价于一个低通的滤波 器,是一种标准的去噪准则。而变化的大小则是由方差来描述的。工 n (

12、x - x)2C 2 = i=1 i-n-1 它表示了采样点在平均值两侧的分布,对应于图表 错误!未定义书签。 (a) 就是采样点云的“胖瘦”。显然的,方差较大,也就是较“宽”较“胖”的分布 表示了采样点的主要分布趋势,是主信号或主要分量;而方差较小的分布则被认 为是噪音或次要分量。耳(b)咖“歳晌卄图表 错误!未定义书签。:(a)摄像机A的采集数据。图中黑色垂直直线表示一 组正交基的方向。汇ignal是采样点云在长线方向上分布的方差,而C爲se是数据点 在短线方向上分布的方差。(b)对P的基向量进行旋转使SNR和方差最大。假设摄像机A拍摄到的数据如图表 错误!未定义书签。(a)所示,圆圈代表

13、采样 点,因为运动理论上是只存在于一条直线上,所以偏离直线的分布都属于噪音。 此时 SNR 描述的就是采样点云在某对垂直方向上的概率分布的比值。那么,最 大限度的揭示原数据的结构和关系,找出某条潜在的,最优的x轴,事实上等价 寻找一对空间内的垂直直线(图中黑线表示,也对应于此空间的一组基),使得 信噪比尽可能大的方向。容易看出,本例中潜在的x轴就是图上的较长黑线方向。 那么怎样寻找这样一组方向呢?直接的想法是对基向量进行旋转。如图表 错误! 未定义书签(b)所示,随着这对直线的转动SNR以及方差的变化情况。应于SNR最大值的一组基p*,就是最优的“主元”方向。在进行数学中求取这组基的推 导之前

14、,先介绍另一个影响因素。B. 冗余有时在实验中引入了一些不必要的变量。可能会使两种情况:1)该变量对 结果没有影响;2)该变量可以用其它变量表示,从而造成数据冗余。下面对这 样的冗余情况进行分析和分类。(b)high redundancylow redundancy图表 错误!未定义书签。可能冗余数据的频谱图表示。r1和仃分别是两个不同的观测变量。(比如例子中的XA,yB)。最佳拟合线丫2 kri用虚线表示。如图表 错误!未定义书签。所示,它揭示了两个观测变量之间的关系。 (a) 图所示的情况是低冗余的,从统计学上说,这两个观测变量是相互独立的,它们 之间的信息没有冗余。而相反的极端情况如(C

15、), r和丫2高度相关,丫2完全可以用 r1表示。一般来说,这种情况发生可能是因为摄像机A和摄像机B放置的位置太 近或是数据被重复记录了,也可能是由于实验设计的不合理所造成的。那么对于 观测者而言,这个变量的观测数据就是完全冗余的,应当去除,只用一个变量就 可以表示了。这也就是 PCA 中“降维”思想的本源。C. 协方差矩阵对于上面的简单情况,可以通过简单的线性拟合的方法来判断各观测变量之b 2 = L-ABn -1A, B 分别表示不同的观测变量所记录的一组值,在统计学中,由协方差的 性质可以得到:间是否出现冗余的情况,而对于复杂的情况,需要借助协方差来进行衡量和判断: 工 n (a - a )(b - b)i1 iib Ab - 0,且b Ab二0当且仅当观测变量A,B相互独立。 b 2 = b 2 当 A 一 RAB A = 等价的,将A,B写成行向量的形式:A = a a a B = b b b 12n ,12n协方差可以表示为:1b 2AB三ABtn-1(3)那么,对于一组具有m个观测变量,n个采样时间点的采样数据X

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 机械/制造/汽车 > 电气技术

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号