模式识别主成分分析和KL变换

资源描述

《模式识别主成分分析和KL变换》由会员分享，可在线阅读，更多相关《模式识别主成分分析和KL变换（70页珍藏版）》请在金锄头文库上搜索。

1、主成分分析主成分分析PCAPrincipleComponentAnalysis通过K L变换实现主成分分析PCA的变换矩阵是协方差矩阵 K L变换的变换矩阵可以有很多种二阶矩阵协方差矩阵总类内离散度矩阵等等当K L变换矩阵为协方差矩阵时等同于PCA K L坐标系的产生矩阵 K L变换特征提取思想用映射或变换的方法把原始特征变换为较少的新特征降维主成分分析 PCA 基本思想进行特征降维变换不能完全地表示原有的对象能量总会有损失希望找到一种能量最为集中的的变换方法使损失最小 K L变换原始输入 x变换后特征 y变换矩阵线性变换 A则 y ATx K L变换思考希望特

2、征之间关联性尽可能小变换后的相关矩阵 Ry E yyT E ATxxTA ATRxA我们是不是希望Ry是个对角矩阵如何选择A K L变换考虑以Rx的特征向量作为A的列则Ry ATRxA a1 a2 an TRx a1 a2 an a1 a2 an T 1a1 2a2 nan 为对角矩阵对角线元素为 1 2 n达到变换后特征不相关的目的以上为K L变换 K L变换思考K L变换性质如果降维有什么结果原有N维只保留m维即去掉ym 1 yN希望和原来的表示方法差别最小即 E x x 2 最小x 表示 y1 ym 在原空间中对应的表示方法 K L变换 K L变换结论如果对特征向量

3、排序舍弃最小的特征则损失的能量最小 K L变换典型应用 1 降维与压缩对一幅人脸图象如果它由M行与N到象素组成则原始的特征空间维数就应为M N 而如果在K L变换以及只用到30个基那么维数就降至30 由此可见降维的效果是极其明显的譬如原训练样本集的数量为V 而现采用30个基数据量是大大降低 K L变换典型应用 3 人脸识别首先搜集要识别的人的人脸图象建立人脸图象库然后利用K L变换确定相应的人脸基图象再反过来用这些基图象对人脸图象库中的有人脸图象进行K L变换在识别时先对一张所输入的脸图象进行必要的规范化再进行K L变换分析得到其参数向量 K L变换典型应用 4 人脸

4、图象合成使用K L变换进行特征提取题目主成分分析PCA 路志宏 PrincipalComponentAnalysis 内容一前言二问题的提出三主成分分析1 二维数据的例子2 PCA的几何意义3 均值和协方差特征值和特征向量4 PCA的性质四主成分分析的算法五具体实例实例2六结论七练习 1 前言假定你是一个公司的财务经理掌握了公司的所有数据比如固定资产流动资金每一笔借贷的数额和期限各种税费工资支出原料消耗产值利润折旧职工人数职工的分工和教育程度等等如果让你介绍公司状况你能够把这些指标和数字都原封不动地摆出去吗当然不能实例1实例2你必须要

5、把各个方面作出高度概括用一两个指标简单明了地把情况说清楚汇报什么 PCA 多变量问题是经常会遇到的变量太多无疑会增加分析问题的难度与复杂性在许多实际问题中多个变量之间是具有一定的相关关系的因此能否在各个变量之间相关关系研究的基础上用较少的新变量代替原来较多的变量而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息事实上这种想法是可以实现的主成分分析原理是把原来多个变量化为少数几个综合指标的一种统计分析方法从数学角度来看这是一种降维处理技术主成分分析方法就是综合处理这种问题的一种强有力的方法 1 如何作主成分分析当分析中所选择的变量具有不同的量纲变

6、量水平差异很大应该选择基于相关系数矩阵的主成分分析在力求数据信息丢失最少的原则下对高维的变量空间降维即研究指标体系的少数几个线性组合并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息这些综合指标就称为主成分要讨论的问题是 2 问题的提出各个变量之间差异很大 2 如何选择几个主成分主成分分析的目的是简化变量一般情况下主成分的个数应该小于原始变量的个数关于保留几个主成分应该权衡主成分个数和保留的信息 3 如何解释主成分所包含的几何意义或经济意义或其它美国的统计学家斯通 Stone 在1947年关于国民经济的研究是一项十分著名的工作他曾利用美国192

7、9一1938年各年的数据得到了17个反映国民收入与支出的变量要素例如雇主补贴消费资料和生产资料纯公共支出净增库存股息利息外贸平衡等等在进行主成分分析后竟以97 4 的精度用三个新变量就取代了原17个变量实例1 经济分析根据经济学知识斯通给这三个新变量分别命名为总收入F1 总收入变化率F2和经济发展或衰退的趋势F3 更有意思的是这三个变量其实都是可以直接测量的主成分分析就是试图在力保数据信息丢失最少的原则下对这种多变量的数据表进行最佳综合简化也就是说对高维变量空间进行降维处理很显然识辨系统在一个低维空间要比在一个高维空间容易得多实例2 成绩数据 100

8、个学生的数学物理化学语文历史英语的成绩如下表部分从本例可能提出的问题目前的问题是能不能把这个数据的6个变量用一两个综合变量来表示呢这一两个综合变量包含有多少原来的信息呢能不能利用找到的综合变量来对学生排序呢这一类数据所涉及的问题可以推广到对企业对学校进行分析排序判别和分类等问题例中的的数据点是六维的也就是说每个观测值是6维空间中的一个点我们希望把6维空间用低维空间表示 3 1PCA 二维数据分析先假定数据只有二维即只有两个变量它们由横坐标和纵坐标所代表因此每个观测值都有相应于这两个坐标轴的两个坐标值如果这些数据形成一个椭圆形状的点阵这在变量的二

9、维正态的假定下是可能的 3 2主成分分析的几何解释平移旋转坐标轴主成分分析的几何解释平移旋转坐标轴主成分分析的几何解释平移旋转坐标轴主成分分析的几何解释平移旋转坐标轴 3 2 PCA 进一步解释椭圆有一个长轴和一个短轴在短轴方向上数据变化很少在极端的情况短轴如果退化成一点那只有在长轴的方向才能够解释这些点的变化了这样由二维到一维的降维就自然完成了二维数据进一步解释PCA 当坐标轴和椭圆的长短轴平行那么代表长轴的变量就描述了数据的主要变化而代表短轴的变量就描述了数据的次要变化但是坐标轴通常并不和椭圆的长短轴平行因此需要寻找椭圆的长短轴并进行

10、变换使得新变量和椭圆的长短轴平行如果长轴变量代表了数据包含的大部分信息就用该变量代替原先的两个变量舍去次要的一维降维就完成了椭圆球的长短轴相差得越大降维也越有道理进一步解释PCA 续对于多维变量的情况和二维类似也有高维的椭球只不过无法直观地看见罢了首先把高维椭球的主轴找出来再用代表大多数数据信息的最长的几个轴作为新变量这样主成分分析就基本完成了注意和二维情况类似高维椭球的主轴也是互相垂直的这些互相正交的新变量是原先变量的线性组合叫做主成分 principalcomponent 正如二维椭圆有两个主轴三维椭球有三个主轴一样有几个变量就有几个主成分

11、选择越少的主成分降维就越好什么是标准呢那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分有些文献建议所选的主轴总长度占所有主轴长度之和的大约85 即可其实这只是一个大体的说法具体选几个要看实际情况而定 3 3 均值和协方差特征值和特征向量设有n个样本每个样本观测p个指标变量 X1 X2 Xn 得到原始数据矩阵 1 样本均值显然样本均值是数据散列图的中心于是p n矩阵的列B具有零样本均值称为平均偏差形式 M 2 样本协方差协方差的大小在一定程度上反映了多变量之间的关系但它还受变量自身度量单位的影响注意协方差是对称矩阵且半正定 3 3特征

12、值与特征向量定义若则称为的特征值称为的特征向量注并不一定唯一阶方阵的特征值就是使齐次线性方程组特征向量特征值问题只针对与方阵有非零解的值即满足的都是方阵的特征值定义称以为未知数的一元次方程为的特征方程例1 从一个总体中随机抽取4个样本作三次测量每一个样本的观测向量为计算样本均值M和协方差矩阵S以及S的特征值和特征向量 SyntaxC cov X AlgorithmThealgorithmforcovis n p size X X X ones n 1 mean X Y X X n 1 SeeAlsocorrcoef mean std v

13、ar 平移旋转坐标轴 M 为了方便我们在二维空间中讨论主成分的几何意义设有n个样本每个样本有两个观测变量xl和x2 在由变量xl和x2所确定的二维平面中 n个样本点所散布的情况如椭圆状由图可以看出这n个样本点无论是沿着xl轴方向或x2轴方向都具有较大的离散性其离散的程度可以分别用观测变量xl的方差和x2的方差定量地表示显然如果只考虑xl和x2中的任何一个那么包含在原始数据中的信息将会有较大的损失如果我们将xl轴和x2轴先平移再同时按逆时针方向旋转角度得到新坐标轴Fl和F2 Fl和F2是两个新变量 Fl F2除了可以对包含在Xl X2中的信息起着浓缩作用之外还具有不相

14、关的性质这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性二维平面上的个点的方差大部分都归结在Fl轴上而F2轴上的方差很小 Fl和F2称为原始变量x1和x2的综合变量 F简化了系统结构抓住了主要矛盾稍事休息 3 4PCA的性质一两个线性代数的结论 1 若A是p阶实对称阵则一定可以找到正交阵U 使其中是A的特征根 2 若上述矩阵的特征根所对应的单位特征向量为则实对称阵属于不同特征根所对应的特征向量是正交的即有令 3 4PCA的性质续 3 均值 4 方差为所有特征根之和说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和协方差矩阵的对角线上

15、的元素之和等于特征根之和 3 4 精度分析 1 贡献率第i个主成分的方差在全部方差中所占比重称为贡献率反映了原来P个指标多大的信息有多大的综合能力 2 累积贡献率前k个主成分共有多大的综合能力用这k个主成分的方差和在全部方差中所占比重来描述称为累积贡献率 PCA常用统计量特征根 i 各成分贡献率前各成分累计贡献率特征向量各成分表达式中标准化原始变量的系数向量就是各成分的特征向量我们进行主成分分析的目的之一是希望用尽可能少的主成分F1 F2 Fk k p 代替原来的P个指标到底应该选择多少个主成分在实际工作中主成分个数的多少取决于能够反映原来变量80 以上的信息量为

16、依据即当累积贡献率 80 时的主成分的个数就足够了最常见的情况是主成分为2到3个例设的协方差矩阵为解得特征根为第一个主成分的贡献率为5 83 5 83 2 00 0 17 72 875 尽管第一个主成分的贡献率并不小但应该取两个主成分 97 88 4主成分分析的步骤第一步由X的协方差阵 x 求出其特征根即解方程可得特征根一基于协方差矩阵第二步求出分别所对应的特征向量U1 U2 Up 第三步计算累积贡献率给出恰当的主成分个数第四步计算所选出的k个主成分的得分将原始数据的中心化值代入前k个主成分的表达式分别计算出各单位k个主成分的得分并按得分值的大小排队例应收账款是指企业因对外销售产品材料提供劳务及其它原因应向购货单位或接受劳务的单位收取的款项包括应收销货款其它应收款和应收票据等出于扩大销售的竞争需要企业不得不以赊销或其它优惠的方式招揽顾客由于销售和收款的时间差于是产生了应收款项应收款赊销的效果的好坏不仅依赖于企业的信用政策还依赖于顾客的信用程度由此评价顾客的信用等级了解顾客的综合信用程度做到知己知彼百战不殆

展开阅读全文