特征提取和选择－金锄头文库

资源描述

《特征提取和选择》由会员分享，可在线阅读，更多相关《特征提取和选择（72页珍藏版）》请在金锄头文库上搜索。

1、第5章特征提取和选择,5.1 引言 5.2 基本概念 5.3 类别可分性判据 5.4 基于可分性判据的特征提取 5.5 主分量分析(PCA),在模式识别领域，特征的提取与选择是最关键的问题之一，同时也是最困难的问题之一。不同的模式识别应用，需要采用不同的特征提取与选择方法。对于实际的模式识别问题，以人脸识别为例，一开始的原始特征可能很多，如在人脸数据库中，每幅图像的分辨率为11292，即高达10304维。若把所有的原始特征都作为分类特征送到分类器，不仅使得分类器复杂，分类判别计算量大，而且分类错误概率也不一定小；原始特征的特征空间有很大的冗余，完全可以用很小的空间相当好地近似表示图像，这一

2、点与压缩的思想类似。因此有必要减少特征数目，以获取“少而精”的分类特征，即获取特征数目少且能使分类错误概率小的特征向量。模式识别中减少特征数目(或压缩特征空间)的方法有两种：一种是特征提取，另一种是特征选择。,5.1 引言,在模式识别系统中，确定分类和学习过程所使用的特征是非常重要的一个环节，获得对分类最有效的特征，同时尽最大可能减少特征维数，是特征选取的主要任务。特征选取可以分成原始特诊的采集和转换、有效特征的生成两个步骤。,原始特征：通过直接测量得到的特征称为原始特征。比如人体的各种生理指标（描述其健康状况）；数字图像中的每点灰度值（以描述图像内容），都是原始特征。特征提取：通过映射

3、(变换)的方法把高维的特征向量变换为低维的特征向量。通过特征提取获得的特征是原始特征集的某种组合，即A:XY，可见新的特征中包含有原有全体特征的信息。特征选择：从原始特征中挑选出一些最有代表性、分类性能好的特征以达到降低特征空间维数的目的。也就是说，特征选择就是从已有的D个原始特征中挑选出d个特征组成一个特征子集，同时将D-d个对类别可分离性无贡献的或贡献不大的特征简单地忽略掉。,特征提取与具体问题有很大关系，目前没有理论能给出对任何问题都有效的特征提取方法。如：用傅立叶变换或小波变换的系数作为图像的特征；用PCA方法作特征压缩；用LDA（线性判别分析，Linear Discrimina

4、nt Analysis）方法作特征压缩。,5.2 基本概念,1.特征的特点模式识别的主要功能在于利用计算机实现人的类识别能力, 它是一个与领域专门知识有关的问题。,研究领域不同，选择的特征也不同，但不论采用什么样的特征，都应该满足如下条件： (1)特征可以获取模式识别系统的主要处理设备是计算机，因此作为观察对象的数字化表达，观察对象应该是可以通过数据采集设备输入到计算机的。目前，市场上有各种传感设备和数字化设备，如采集图像信息的图像卡和采集语音信息的声卡等。作为特征，既可以是数字化表达的结果，也可以是在数字化表达基础上形成的参数性质的值，如图像分割后的子目标特征表达等。,(2) 类内稳定

5、选择的特征对同一类应具有稳定性。由于模式类是由具有相似特性的若干个模式构成的, 因此它们同属一类模式, 其首要前提是特性相似, 反映在取值上, 就应该有较好的稳定性。,(3) 类间差异选择的特征对不同的类应该有差异。若不同类的模式的特征值差异很小，则说明所选择的特征对于不同的类没有什么差异，作为分类的依据时，容易使不同的类产生混淆，使误识率增大。一般来讲，特征的类间差异应该大于类内差异。,(1) 具有很大的识别信息量。即应具有很好的可分性。 (2) 具有可靠性。模棱两可、似是而非、时是时非等不易判别的特征应丢掉。 (3) 尽可能强的独立性。重复的、相关性强的特征只选一个。 (4) 数量尽

6、量少，同时损失的信息尽量小。,2对特征的要求,3.特征的类别特征是用于描述模式性质的一种量，从形式上看可以分为三类： (1)物理特征物理特征是比较直接、人们容易感知的特征，一般在设计模式识别系统时容易被选用。如为了描述指定班级中的某个学生，可以用以下物理特征：性别、身高、胖瘦、肤色等外在特征。物理特征虽然容易感知, 却未必能非常有效地表征分类对象。,(2) 结构特征结构特征的表达能力一般要高于物理特征，如汉字识别的成功实现离不开结构特征的选择。结构特征的表达是先将观察对象分割成若干个基本构成要素，再确定基本要素间的相互连接关系。,通过要素和相互连接关系表达对象，可以较好地表达复杂的

7、图像信息，在实际中已经有较多的成功应用，如指纹的识别就是基于结构信息完成的。结构信息对对象的尺寸往往不太敏感，如汉字识别时，识别系统对汉字大小不敏感，只对笔划结构信息敏感。结构特征比物理特征要抽象一些，但仍属比较容易感知的特征，如人的指纹特征、人脸的五官结构信息等，是目前认定人的身份的重要参数。,(3) 数字特征一般来说，数字特征是为了表征观察对象而设立的特征，如给每个学生设立一个学号，作为标志每个学生的特征。由于学号是人为设定的，可保证唯一性，但这种特征是抽象的，不容易被人感知。数字特征有时和观察对象的固有特性没有任何联系，有时则是物理特征或结构特征的计算结果。,物理和结构特征：

8、易于为人的直觉感知，但有时难于定量描述，因而不易用于机器判别。数学特征：易于用机器定量描述和判别，如基于统计的特征。,4.特征的形成在设计一个具体的模式识别系统时，往往是先接触一些训练样本，由领域专家和系统工程师联合研究模式类所包含的特征信息，并给出相应的表述方法。这一阶段的主要目标是获取尽可能多的表述特征。在这些特征中，有些可能满足类内稳定、类间离散的要求，有的则可能不满足，不能作为分类的依据。根据样例分析得到一组表述观察对象的特征值，而不论特征是否实用，称这一步为特征形成，得到的特征称为原始特征。 ,在这些原始特征中，有的特征对分类有效，有的则不起什么作用。若在得到一组原始特

9、征后，不加筛选，全部用于分类函数确定，则有可能存在无效特征，这既增加了分类决策的复杂度，又不能明显改善分类器的性能。为此，需要对原始特征集进行处理，去除对分类作用不大的特征，从而可以在保证性能的前提下，通过降低特征空间的维数来减少分类方法的复杂度。,实现上述目的的方法有两种：特征提取和特征选择。特征提取和特征选择都不考虑针对具体应用需求的原始特征形成过程，而是假设原始特征形成工作已经完成。然而在实际工作中，原始特征的获得并不容易，因为人具有非常直观的识别能力，有时很难明确描述用于分类的特性依据。如人脸的判定，人识别脸部特征非常容易，若用计算机来识别人脸，则需要得到多达上千个特征，难

10、度很大。可以说, 特征形成是模式识别过程中的重点和难点之一。,4.特征提取和选择的作用特征选择是指从一组特征中挑选出对分类最有利的特征，达到降低特征空间维数的目的。特征提取是指通过映射(或变换)的方法获取最有效的特征，实现特征空间的维数从高维到低维的变换。经过映射后的特征称为二次特征，它们是原始特征的某种组合，最常用的是线性组合。 ,从定义可以知，实现特征选择的前提是确定特征是否有效的标准，在这种标准下，寻找最有效的特征子集。用于特征选择的特征既可以是原始特征，也可以是经数学变换后得到的二次特征。需要注意，特征提取一定要进行数学变换，但数学变换未必就是特征提取。,特征提取和特征选择的主

11、要目的都是在不降低或很少降低分类结果性能的情况下，降低特征空间的维数，其主要作用在于： (1) 简化计算。特征空间的维数越高，需占用的计算机资源越多，设计和计算也就越复杂。 (2) 简化特征空间结构。由于特征提取和选择是去除类间差别小的特征，保留类间差别大的特征，因此，在特征空间中，每类所占据的子空间结构可分离性更强，从而也简化了类间分界面形状的复杂度。,(c)是具有分类能力的特征，故选(c)，扔掉(a) 、 (b) 。,解：法1 特征抽取：测量三个结构特征(a) 周长 (b) 面积(c)两个互相垂直的内径比, 特征选择：一般根据物理特征或结构特征进行压缩。, 分析：,例：特征选择与特

12、征提取的区别：对一个条形和圆进行识别。,当模式在空间中发生移动、旋转、缩放时，特征值应保持不变，保证仍可得到同样的识别效果。,法2：特征抽取：测量物体向两个坐标轴的投影值，则A、B各有2个值域区间。可以看出，两个物体的投影有重叠，直接使用投影值无法将两者区分开。, 分析：将坐标系按逆时针方向做一旋转变化，或物体按顺时针方向变，并适当平移等。根据物体在轴上投影的坐标值的正负可区分两个物体。,特征提取，一般用数学的方法进行压缩。,5.3 类别可分性判据 (特征评判标准),特征评判标准主要是衡量各类别间的可分性，如使分类器错误概率(误差)最小的那组特征当然是最好的一组特征。从理论上说，

13、这是完全正确的，但在实际应用中存在极大的困难。因此，希望构造一些更实用、更具有可操作性的评判标准，这些标准应满足以下几点： (1) 与错误概率(或是错误概率的上、下界)有单调关系，使判据取极值时对应分类器错误概率较小。,(2)非负性，即：,其中, Jij表示i、 j两类间的可分性判据。 (3) 对称性, 即：,Jij = Jji,该特性表明有效性判据对类别号没有方向性，而只强调对区分两类的贡献。,(4) 特征独立时，判据满足可加性，即：,(5) 单调性，当加入新特征时，判据不减少。,下面介绍几种常见的特征评价标准，即类别可分性判据。,1.基于距离的可分性判据,基于距离的可分性判据直接依靠样本

14、计算，直观简洁，物理概念清晰，因此目前应用较为广泛。基于距离的可分性判据的出发点是：各类样本之间的距离越大、类内离散度越小，则类别的可分性越好。 (1) 两类之间的距离设两类为i、 j，分别有Ni、Nj个样本，即：,两类间的距离可由下式给出：,其中，D(xir, xjs)为向量xir、xjs间的距离。由点间距离的对称性可知，类间距离也具有对称性。常用的点间距离有：欧氏距离、马氏距离、绝对距离(城市距离、 Hamming距离)、 Minkowsky距离等。,其中，是先验概率P(i)的估计，即：,(2) 各类样本之间的平均距离设N个样本分别属于m类，i=xik, k=1, 2, , Ni,

15、 i=1, 2, , m，各类之间的平均距离定义为：,(5.3.1),为了使所使用的特征能够有效地进行分类，我们希望类间离散度尽量大，同时类内离散度尽量小，从直观上看可以构造下面各种判据：,为了有效地分类，它们的值越大越好。基于距离的可分性判据虽然简单直观，但只是对于类间无重叠的情况效果较好，若类间存在重叠，则效果会受到影响。基于概率的可分性判据能够较好地解决类间有重叠的问题。 ,2.基于概率密度函数的可分性判据,基于概率密度函数的可分性判据主要考虑的是两类的概率分布情况。考虑图5.1所示两种极端情况，容易看出，图5.1(a)中两类是完全可分的，图5.1(b)中两类是完全不可分的，两类概

16、率密度函数的重叠程度反映了两类的可分性。因此，可以利用类条件概率密度函数构造可分性判据。,p(x|1),p(x|2),p(x|1)= p(x|1),图5.1(a) 图5.1(b),基于类条件概率密度函数p(x|1)、 p(x|2)的可分性判据Jp满足下面四个条件： (1) 非负性,(2) 对称性：相对于两个概密具有对称性。,(3) 最大值：当两类完全可分时, Jp具有最大值。 (4) 最小值：当两类完全不可分时，Jp具有最小值，即Jp=0。,设两类1和2的概率密度函数分别为p(x|1)、 p(x|2)，x=(x1,x2,xn)T，下面构造基于三个基于概率密度距离度量函数的可分性判据。,(1)巴氏(Bhattacharyya)判据JBBhattacharyya判据计算式定义：,在最小错误概率判决准则下，最小错误概率Pe为：,

展开阅读全文

特征提取和选择

最新文档