模式识别特征的选择和提取综述

上传人:最**** 文档编号:117164094 上传时间:2019-11-18 格式:PPT 页数:62 大小:329.50KB
返回 下载 相关 举报
模式识别特征的选择和提取综述_第1页
第1页 / 共62页
模式识别特征的选择和提取综述_第2页
第2页 / 共62页
模式识别特征的选择和提取综述_第3页
第3页 / 共62页
模式识别特征的选择和提取综述_第4页
第4页 / 共62页
模式识别特征的选择和提取综述_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《模式识别特征的选择和提取综述》由会员分享,可在线阅读,更多相关《模式识别特征的选择和提取综述(62页珍藏版)》请在金锄头文库上搜索。

1、第七章 特征的选择和提取 7.1 引言 以前讨论分类器设计时,都假定模式的特征 向量已经提取出来了(有多少特征确定了)。 特征的多少(维数)、”好坏” 对分类器的 设计和性能有很大的影响。 好的特征容易把类分开,或表示时误差较小 。 1. 特征的维数和特征的“好坏” 特征选择和提取的任务是如何从许多特征中 找出那些最有效的特征,把高维特征空间压缩 到低维特征空间。 特征的种类有物理的、结构的、数学的。物 理的、结构的特征,人的感觉器官容易感受, 数学的特征,如均值、相关系数、协方差矩阵 的特征值和特征向量等。 物理和结构特征和所处理的具体问题有关, 在解决实际问题时可以依据具体问题而定。 这一

2、节研究一般的特征提取和选择的方法。 2. 几个术语的含义 在一些书籍和文献中,在不完全相同的 意义上使用“特征提取”和“特征选择”的术语 。例如“特征提取”,有的专指特征的形成过 程,有的指特征的形成、经选择或变换后得 到有效特征的过程。 为了方便以后的讨论,我们把特征提取 、特征选择的含义明确一下。 模式特征的产生过程一般包括以下步骤: 1原始特征的形成:用仪表或传感器测量 出来的一些特征量,或通过计算得到的一些 特征(对波形和图象),称为原始特征、原 始测量或一次特征。 2特征提取:原始特征的数量可能很 大,需要通过变换(映射)把高维特征空间 降到低维空间,这时的特征叫二次特征,它 们一般

3、是原始特征的某种组合。 通过变换A: X Y, 测量空间 特征空间 需要尽可能多地保留对分类和表示有利的信 息。 好处 :减少计算量; 在样本少时,便 于估计密度函数;提高分类器设计的性能。 3特征选择:从得到的一组特征中,挑 选最有效的特征以进一步减少特征空间的维 数,得到它的一个有效子集。 特征的提取和选择是人类的一项基本 智能活动,从相关和不相关信息中找出主要 因素。 例如在细胞识别中,用变换的方法较 少的特征,用选择的方法专家意见,或用 数学方法进行筛选,从n个m个。 但“提取”和“选择”不是截然分开的。 具体指什么要从上下文去理解。 特征选择时,前m个最好的不一定组合 后也是最好的。

4、 特征提取可以看作是在减少维数的同时, 又能代表、表示原观测向量。 模式识别的任务是判别、分类。维数减少 、一般错误率要增加,要限制在一定范围内。 7.2 基于特征向量分析的特征提取方法 这一节讨论基于相关矩阵或协方差矩阵 的特征向量的特征抽取方法。这一方法和统 计上的主因子分析以及随机过程中的K-L( Karhunen-Loeve)变换(展开)有密切关系 。 1. 模式最优表示特征的提取 假定有一n维向量x,希望能用m( m 问题是找一组基uj ,使得均方误差 = E|2= E|x - |2 最小。 这时的yi 就是从x导出的特征,而 y = umT x就表示特征变换(由n维m维)。 根据误

5、差公式和基是标准正交的条件, = ET = E( )( ) = 如果把yj2 写成 yj2 =(yj)(yj)=(ujTx)(xTuj) 则 Eyj2=ujT ExxTuj =ujTRuj , 其中R是自相关矩阵 (*) = 要找一组基,使最小,同时要满足: ujT uj = 1,j = m+1, , n. 把约束ujT uj = 1用拉格朗日乘子(法)写 入误差中,有 = + (*)式的误差化为: =2(Ruj uj)=0, j = m+1,,n 上式说明uj必须是R的特征向量。 (Re =e) 这样,= = = 为了使最小,特征向量 um+1,un 必须是对应最小特征值的,而近似x时所用的

6、 m个特征向量是对应m个最大特征值的。 使取极值的必要条件是: + 上面推导出的特征还有其它意义上的 最优性质。 一个分布的熵定义为 H = -Ep(y) 粗略地说,当分布很平、延伸很广时,熵最 大。如果x是零均值的高斯分布,那么可以 证明所选择的特征向量具有最大熵。 这些特征向量沿最大方差方向,这样 的方向是最随机的,最不确定的,这些方向 应保留下来作为特征。对最不确定的事,若 有信息(测量),最有用。 例 三维观测向量的特征提取 有一三维观测向量,其相关矩阵为 3 -1 0 R = -1 3 0 0 0 3 它的特征值和特征向量为 1 = 4, 2 = 3, 3 = 2 1/ 0 1/ e

7、1 = -1/ e2 = 0 e3 = 1/ 0 1 0 要选一个特征,应选e1方向,均方误差 是2 +3 = 5, 要选两个特征,应选e1 、e2方向,均方 误差是3 = 2. 表示模式的特征和用于分类的特征的不同 (1) 均值大小的影响 若均值较大,均值就会起大作用,特征在 均值方向。 当两类问题的均值相差较大时,可以分类 ;但若均值差不多,则不会有好的效果。 m R=+mmT (2)也可以使用协方差矩阵,以均值 为参考点,相对于均值。 (3)最好的表示特征不一定是最好的 分类特征。 (3)有时可将坐标系移到一个类的均 值处,这时相关矩阵的最大特征值的特征向 量将沿两个均值的方向排列。 *

8、7.3 多类问题的特征提取 下面介绍的方法是Fukunaga和Koontz在 1970年提出的。 出发点是要同时考虑所有的类。 1. 两类时的情况 令R1和R2分别是两类观测向量的相关矩 阵。即 Ri = EixxT ,i = 1,2 另 Q = R1 + R2 令S是一线性变换,使得 STQS = ST R1S + ST R2S = I (*) (R1 + R2 = I) 其中 1/ S = v1 v2 vn 1/ 1/ vi和ui分别为Q的特征向量和特征值。 一般地说,S并不把R1和R2对角化,但 通过S的线性变换,它把观测向量x变为: x = STx 变换后的相关矩阵为 Ri = STR

9、iS 由(*)式有 R1 + R2 = I (*) STQS = ST R1S + ST R2S = I 现在考虑在变换后新坐标系下的特征。 首先,注意到R1和R2的特征向量是相同的 。 假设e是R1的一个特征向量,相应的 特征值是, 由(*)式: R2 e = (IR1)e = e-e =(1-)e e也是R2的特征向量,相应的特征值 是(1) R1 + R2 = I 由于相关矩阵的R1 、R2是半正定的, 它们的特征值是非负的, 01 这样,R1的大特征值正好是R2的小特 征值, R1的小特征值正好是R2的大特征值, 这个关系如下图: R1 1 e1 11 R2 重 2 e2 12 要 性

10、 n-1 e n-1 1n-1 减 n en 1n 小 重要性减小 对类1是最好的表示方向,对类2是最坏 的,反之亦然。 如何来选特征呢?有两种可能的方法。 1每类各选m/2个最大特征值所对应的 特征向量,当m是奇数时,再选一个不管哪类 的最大特征值所对应的特征向量。 2从两类的特征值中,不管哪一类,选 最大的m个特征值所对应的特征向量。 一般地说,这两种方法谁好谁坏和具体 问题有关。 一旦特征向量选好后,则特征变换由 下式确定: ej1T y = Tx = ej2T STx, : ej1T 其中S是满足STQS = I的矩阵。 * 2. C类时的情况 现在考虑将模式分为C类时的特征提取问 题

11、。 模式原来是用n维测量空间的向量x来表 示的。每类的相关矩阵为Ri = EixxT 假定各个相关矩阵的最大特征值max1 ,这并不失一般性,可以通过调整线性空间 的比例来实现。 又由于相关矩阵是半正定的,各Ri的 特征值在01之间。 和前面一样,令uj,j = 1,2,n 是观测空间的标准正交基。另x是任一观测 向量,x是它的截尾表示形式, x = y1u1 + y2u2 + + ymum 对于第i类,我们选择一组uj,它能使 第i类的均方误差最小, i = Ei|x-x|2 = (* ) 而同时使其它类的均方误差最大。 k = Ek|x-x|2 = (k = 1,2,c,ki) (*) 单

12、独使i最小,而不管上式的条件已在 前面讨论过。 若同时也满足(*)式的条件,将使 得所选择的基能最优的表示第i类,但不能 最优的表示其它类。 由于一般不能同时使i最小,而k最大 ,下面引入另外一个相关的准则。 和7.2节一样,可以表示 k = ,k=1,2,c 由于Ri是半正定的,且max1, k的大小为下式限定: 0 kn-m, k =1,2,,c 这样,使(*)式最大等价于使下式 最小(ki) (nm)k = = k = Ek|x-x|2 = (k = 1,2,c ,ki) (*) 最大k(ki,k=1,2,,c)和最小 i的准则可以写成下面的组合形式,并用类 数标准化。 Ci= 把i =

13、 和(nm)k的表达 式代入,有 Ci = 式中,Gi= (*) 上式的准则在形式上和7.2节讨论的一 样。 为了选取m个特征向量ui来表示x,以 使Ci最小,这时的特征向量应是Gi 的最大的 m个特征值所对应的特征向量。 下面的分析说明确实是这样。假定e是 Gi的标准特征向量,那么相应特征值可以 表示为 = eTGie = 由于max1和相关矩阵的半正定性质 ,上式括号中每一个二次项的特征值在0 1之间, 01。 而且接近于1时要求eTRie1,而 eTRke(ki)却0, 这样,Gi的相应于特征值接近1的特征 向量对应着i类最重要的特征。 当e = 2 时,(*)式变为 G1 + G2 =

14、 I 这和两类时的情况相似,G1 和 G2 的特 征向量相同,其特征值间的关系和变换后的 矩阵R1 、R2时的一样。 当C2时,情况就复杂了。 上述的方法还可以进一步简化。 可以把相关矩阵进行变换,使它满足 = = I 线性变换S的推导和上节一样。当使用 变换后的相关矩阵时, Gi简化为 Gi= 1/c 2 Ri +(C2)I 当C = 2时,Gi= Ri,和前面的结果相 同。 7.4 图像特征抽取的奇异值分解法 一幅图像可以表示为按一定顺序排列的 像素的一个阵列(矩阵)。 假定阵列有N行N列,这时观测向量就 由N2个像素的灰度值组成。由于观测向量的 维数很大,我们希望用(抽取)图像的特征 来

15、表示图像。 图像特征抽取的方法有许多种。例如从 二维频率谱中抽取特征。 这一节我们讨论由一组基图像的加权和 表示图像的方法,这种方法和前面讨论过的 利用特征值的特征抽取的方法很相似。 假定图像是用一个NN的矩阵B表示的 ,B的元素表示像素的灰度值。考虑两个 NN的标准正交矩阵U和V,矩阵B可以变换 为另一矩阵A, A = UTBV 由于U和V是标准正交的,所以信息并 无损失。B可以通过下式(*) B = UAVT = 式中aij 是A的元素,Ui、Vj 是U和V的 列向量。 由于每一UiVjT都是一个NN矩阵,所以上 式可以看作B图像在一组基图像下的展开,而 aij是展开时的系数。 特征抽取的思路是找一组基(图像),从 而可以用少数n个系数

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号