特征提取与选择－金锄头文库

资源描述

《特征提取与选择》由会员分享，可在线阅读，更多相关《特征提取与选择（81页珍藏版）》请在金锄头文库上搜索。

1、第五章特征的选择与提取1 类别可分离性判据2 特征提取3 特征选择特征提取与选择的基本任务是研究如何从众多特征中求出那些对分类识别最有效的特征，从而实现特征空间维数的压缩,即获取一组“少而精” 且分类错误概率小的分类待征.可以把特征分为三类可以把特征分为三类 1 1 物理的；物理的；2 2 结构的；结构的；3 3 数学的。数学的。分类器x1 x2 x3 . . xd对象选择.提取模式的特征的有效性直接影响分类器的设计和性能模式的特征的有效性直接影响分类器的设计和性能. .由信息获由信息获取部分获得的原始数据量一般是相当大的取部分获得的原始数据量一般是相当大的. .为了有效地实现分为了

2、有效地实现分类识别，要对原始数据进行选择或变换，得到最能反应分类本类识别，要对原始数据进行选择或变换，得到最能反应分类本质的待征，构成特征向量质的待征，构成特征向量. .这就是特征抽取与选择的过程这就是特征抽取与选择的过程. .传感器y1 y2 y3 . . ym学习.训练在一个较完善的模式识别系统中，明显或隐含的要在一个较完善的模式识别系统中，明显或隐含的要有特征提取与选择技术环节，其通常处于对象特征有特征提取与选择技术环节，其通常处于对象特征数据采集和分类识别两个环节之间数据采集和分类识别两个环节之间. .基本概念特征选择：特征选择：从一组特征中挑选出一些最有效的特征以达到降从一

3、组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的，这个过程叫特征选择。低特征空间维数的目的，这个过程叫特征选择。特征提取：特征提取：将一组高维特征，通过变换的方法得到一组新的将一组高维特征，通过变换的方法得到一组新的低维特征，这个过程叫特征提取。低维特征，这个过程叫特征提取。特征形成：特征形成：根据被识别的对象产生出一组基本特征（也可称为根据被识别的对象产生出一组基本特征（也可称为原始特征），它可以是计算出来的，也可以是用仪原始特征），它可以是计算出来的，也可以是用仪表或传感器测量出来的。表或传感器测量出来的。特征提取：模式空间特征空间高维高维低维低维特征选择：特征选择

4、：特征集特征子集变换变换挑选挑选特征提取器特征提取器特征选择器特征选择器说明：有时特征提取和选择并不是截然分开的。例如，可以先将原始特征空间映射到维数较低的空间，在这个空间中再进行选择以进一步降低维数；也可以先经过选择去掉那些明显没有分类信息的特征，再进行映射以降低维数。即在模式识别中，特征提取与特征选择作为两个过程，它们即在模式识别中，特征提取与特征选择作为两个过程，它们的先后次序并不是固定不变的。在处理实际问题时，可以根的先后次序并不是固定不变的。在处理实际问题时，可以根据具体情况决定先进行哪一个过程。据具体情况决定先进行哪一个过程。本本章讨论特征的选择与提取方法章讨论特征的选择

5、与提取方法. .特征提取特征选择1类别可分离性判据1.准则函数-判据 2.基于类间距离的可分性判据 3.基于概率分布的可分性判据 4.基于熵函数的可分性判据1.准则函数特征选择与提取的任务是求出一组对分类最有效的特征，因此我们需要一个定量的准则（或称判据）来衡量特征对分类的有效性。由于直接用错误概率作为标准来分析特征的有效性由于直接用错误概率作为标准来分析特征的有效性比较困难我们希望找出另外一些更实用的准则来衡比较困难我们希望找出另外一些更实用的准则来衡量备类间的可分性，并希望可分性准则满足下列几量备类间的可分性，并希望可分性准则满足下列几条要求条要求1) 1) 与错误概率（或它的

6、上下界）有单调关系与错误概率（或它的上下界）有单调关系 2) 2) 当特征独立时有可加性当特征独立时有可加性 3) 3) 度量特性（非负性，互反性）度量特性（非负性，互反性） 4) 4) 单调性，即加入新的特征时，判据不减小单调性，即加入新的特征时，判据不减小2.类内类间距离各类样本可以分开是因为它们位于特征空间的不同区各类样本可以分开是因为它们位于特征空间的不同区域，显然这些区域之间距离越大，类别可分性就越大。域，显然这些区域之间距离越大，类别可分性就越大。基本思想：基本思想：考虑考虑最简单的两类情况，最简单的两类情况，11和和22，11中任一点与中任一点与 22中的每一点都有一个距离

7、，把所有这些距离相加中的每一点都有一个距离，把所有这些距离相加求平均，可用这个均值来代表这两类之间的距离求平均，可用这个均值来代表这两类之间的距离, ,多多类情况是基于它的推导。类情况是基于它的推导。如何表示两个类区之间的距离如何表示两个类区之间的距离? ?我们定义各类特征向量之间的平均距离为：我们定义各类特征向量之间的平均距离为：代入化简可得代入化简可得说明基于类内类间距离的可分离性判据是一种常用的判据，它实际上是各类向量之间的平均距离。2) 具体而言，即J（x）表示各类特征向量之间的平均距离，我们通常认为J（x）越大，可分离性越好。3) 这种判据优点是计算简单；缺点是当类间距

8、离较小，类内距离较大时，判据仍有可能取得较大的值，而此时的可分离性并不大。3.基于概率分布的可分性判据上面介绍的距离准则是直接从各类样本间的距离算出的,没有考虑各类的概率分布,不能确切表明各类交叠的情况，因此与错误概率没有直接联系,下面提出一些基于概率分布的可分性判据.两个分布密度函数之间的距离两个分布密度函数之间的距离任何函数任何函数J J，如果满足下述条件，都可用来作为类分，如果满足下述条件，都可用来作为类分离性的概率距离度量。离性的概率距离度量。1) J1) J具有非负性具有非负性 2 ) 2 ) 当两类完全不交叠时，当两类完全不交叠时，J J取最大值取最大值 3 ) 3 )

9、当两类分布密度相同时，当两类分布密度相同时，J J应为应为0 0如图所示，图如图所示，图1 1表示两类为完全可分的情况，而图表示两类为完全可分的情况，而图2 2则则表示两类完全不可分的。表示两类完全不可分的。P P（x x 11）=P=P（x x 22）图图2 2图图1 1P P（x x 11） P P（x x 22）=0=0(1) Bhattacharyya(1) Bhattacharyya距离距离注：注： s s是在是在00，11区间取值的一个参数，当区间取值的一个参数，当s=0.5s=0.5时，上述二者相等时，上述二者相等(2) (2) ChernoffChernoff距离距离定义散

10、度等于各类平均可分信息之和：定义散度等于各类平均可分信息之和：(3) (3) 散度散度对数似然比对数似然比可以提供可以提供11类对类对22类的可分性信息类的可分性信息11类对类对22类的平均可分性信息为类的平均可分性信息为4.基于熵函数的可分性判据最佳分类器由后验概率确定，所以可由特征的后最佳分类器由后验概率确定，所以可由特征的后验概率分布来衡量它对分类的有效性。验概率分布来衡量它对分类的有效性。两种特殊情形下最佳分类器的错误率两种特殊情形下最佳分类器的错误率: :1) 1) 各类后验概率是相等各类后验概率是相等错误率错误率错误率错误率可见后验概率越集中可见后验概率越集中, ,错误概率

11、就越小错误概率就越小. .后验概率分后验概率分布越平缓布越平缓( (接近均匀分布接近均匀分布) )，则分类错误概率就越大，则分类错误概率就越大. .设设为可能取值为为可能取值为 i i, ( i=1,2,c ), ( i=1,2,c )的一个随机变量的一个随机变量, , 它的取值它的取值依赖于分布密度为依赖于分布密度为p(p(x x) )的随机向量的随机向量x x( (特征特征向量向量) )，即给定，即给定x x后后的概率为的概率为p(p( / / x x). ).为了衡量后验概率分布的集中程度，需要规定一个为了衡量后验概率分布的集中程度，需要规定一个定量准则定量准则. .我们可以

12、借助于信息论中关于熵的概念我们可以借助于信息论中关于熵的概念. .我们想知道的是：我们想知道的是：给定某一给定某一x x后后，我们从观察，我们从观察得到得到的的结果中得到了多少信息结果中得到了多少信息? ?或者说或者说的不确定性减少了的不确定性减少了多少多少? ?从特征提取的角度看，显然用从特征提取的角度看，显然用具有最小不确定性具有最小不确定性的那的那些特征进行分类是有利的。在信息论中用些特征进行分类是有利的。在信息论中用“ “熵熵” ”作为不作为不确定性的度量确定性的度量. .iji j 重叠程度越大重叠程度越大熵函数值越大熵函数值越大1) 1) 广义熵广义熵为大于为大于1

13、1的正数的正数2) Shannon2) Shannon熵熵3) 3) 平方熵平方熵为了对所提取的特征进行评价，我们要计算空间每一为了对所提取的特征进行评价，我们要计算空间每一点的熵函数点的熵函数. .在熵函数取值较大的那一部分空间，不在熵函数取值较大的那一部分空间，不同类的样本必然在较大的程度上互相重叠同类的样本必然在较大的程度上互相重叠. .可以表征类别的分离程度，它可用来作为所提取特可以表征类别的分离程度，它可用来作为所提取特征的分类性能的准则函数征的分类性能的准则函数. .因此因此熵函数的期望值熵函数的期望值2 特征提取1 按欧氏距离度量的特征提取方法 2 基于判别熵最小化的特征提

14、取 3 两维显示 4 基于主成分变换的特征提取方法y y1 1y y2 2y ymmo o特征提取特征提取x x1 1x x2 2x x3 3x xd do od d mmX X空间空间 d d维维原始特征集原始特征集 Y Y空间空间 mm维维新特征集新特征集变换变换确定变换的依据确定变换的依据 : :类别可分性判类别可分性判据据目标目标: : 在新的特征空间中在新的特征空间中, ,各类之间容易区分各类之间容易区分. . s s阶阶MinkowskiMinkowski度量度量多维空间中两个向量之间有多种距离度量，下面是一多维空间中两个向量之间有多种距离度量，下面是一些最重要的例子：些最重要

15、的例子：1 1 按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法欧氏距离欧氏距离在在MinkowskiMinkowski度量中，令度量中，令s=2s=2，得到常用的欧氏距离：得到常用的欧氏距离： ChebychevChebychev距离距离: : 棋盘距离棋盘距离 MahalanobisMahalanobis距离距离: :式中式中QQ是给定的正定标尺矩阵是给定的正定标尺矩阵所有上面所有上面x x的下标的意义如下：当只有一个下标时的下标的意义如下：当只有一个下标时，此下标表示样本号；有两个下标时，第一个为，此下标表示样本号；有两个下标时，第一个为样本号，第二个表示该样本的特征序号。

16、样本号，第二个表示该样本的特征序号。以上的各种距离度量在实际应用中，在计算的复杂以上的各种距离度量在实际应用中，在计算的复杂性方面，在是否便于进行解析分析以及用它进行特性方面，在是否便于进行解析分析以及用它进行特征提取的效果方面都各不相同。由于欧氏距离在很征提取的效果方面都各不相同。由于欧氏距离在很多情况下便于分析和计算多情况下便于分析和计算. . 前面已经推导出了基于欧氏距离的一种度量函数，前面已经推导出了基于欧氏距离的一种度量函数，其中其中S Sb b为类间离散度矩阵为类间离散度矩阵, ,S Sw w为类内离散度矩阵为类内离散度矩阵. .同样的，我们还可以提出下面各种判据：同样的，我们还可以提出下面各种判据：以以J J2 2为例为例, , 特征提取的步骤如下特征提取的步骤如下作线性映射：作线性映射：其中其中X X为为d d维原始特征向量；维原始特征向量；Y Y为为mm维

展开阅读全文