模式识别pr6-2－金锄头文库

资源描述

《模式识别pr6-2》由会员分享，可在线阅读，更多相关《模式识别pr6-2（19页珍藏版）》请在金锄头文库上搜索。

1、第6章特征抽取和选择 1第第6 6章章特征选择和特征提取特征选择和特征提取6.16.1 类别可分离性判据类别可分离性判据6.2 6.2 特征提取特征提取6.36.3 特征的选择特征的选择6.4 6.4 Karhunen-LoeveKarhunen-Loeve（K-LK-L）变换）变换第6章特征抽取和选择 26.3 6.3 特征选择特征选择设在设在 D D 个可用作分类的特征中，为在不降低分类精度的个可用作分类的特征中，为在不降低分类精度的前提下，从中直接选出前提下，从中直接选出 d d 个作为分类特征。解决两个问个作为分类特征。解决两个问题题（1 1）选择的标准；）选择的标准；

2、（2 2）选择的算法；）选择的算法；选择的选择的标准标准（分两种情况进行讨论（分两种情况进行讨论）（1 1）对于独立特征的选择准则）对于独立特征的选择准则基于距离的可分性判据基于距离的可分性判据（2 2）一般特征的选择准则）一般特征的选择准则1 1 离散度矩阵判据离散度矩阵判据2 2 散度和变换散度判据散度和变换散度判据选择的算法选择的算法分支定界搜索法分支定界搜索法第6章特征抽取和选择 3对于独立特征的选择准则对于独立特征的选择准则基于距离的可分性判据基于距离的可分性判据类别可分性判据的一般性质：类别可分性判据的一般性质：对于基于距离的可分性判据来说对于基于距离的可分性判据

3、来说，不同模式特征的均值，不同模式特征的均值向量之间的距离应最大，而属于同一类的模式特征，其向量之间的距离应最大，而属于同一类的模式特征，其方差和应最小。定义可分性判别函数方差和应最小。定义可分性判别函数第6章特征抽取和选择 4均值向量均值向量在在 k k 维方向的分量维方向的分量在在 k k 维方向的方差维方向的方差按大小排列，选出开头最大的按大小排列，选出开头最大的d d个个作为特征向量，就达到了特征选择的目的。作为特征向量，就达到了特征选择的目的。上述的判据虽然简单，但其使用范围与模式特征的概率上述的判据虽然简单，但其使用范围与模式特征的概率分布有关，几种特殊的情况：分布有关，

4、几种特殊的情况：第6章特征抽取和选择 5第6章特征抽取和选择 6一般特征的选择准则一般特征的选择准则由于特征分量之间的相关性，各分量单独判别并不能获由于特征分量之间的相关性，各分量单独判别并不能获得最优的选择结果。这时可采用类内类间的离散度矩阵得最优的选择结果。这时可采用类内类间的离散度矩阵、散度等可分性判据。、散度等可分性判据。（1 1）离散度矩阵判据）离散度矩阵判据类内：类内：类间：类间：总体：总体：离散度矩阵可分离性判据：离散度矩阵可分离性判据：行列式迹第6章特征抽取和选择 7（2 2）散度和变换散度）散度和变换散度对于类概率密度为正态分布的两类问题，散度为对于类概率密

5、度为正态分布的两类问题，散度为使使最大的子集，就是最适于分离最大的子集，就是最适于分离和和两类模式的特两类模式的特征。推广到征。推广到 c c 类，可以计算平均散度类，可以计算平均散度选出平均散度为最大的子集作为选出平均散度为最大的子集作为 c c 类的分类特征，是合类的分类特征，是合理，但不是最优的。同时，若其中有一种理，但不是最优的。同时，若其中有一种类对类对的散度很的散度很大，就使平均散度显著偏离，因而掩盖了对散度小的那大，就使平均散度显著偏离，因而掩盖了对散度小的那些类对的判别，这里引入变换散度来改善这种情况。些类对的判别，这里引入变换散度来改善这种情况。第6章特征抽

6、取和选择 8变换散度变换散度平均变换散度平均变换散度从图可以看出，当类对的散度很大，其变换散度最大也只能趋于100% ；对于散度小的情况，变换散度却比较敏感。因此，变换平均散度比平均散度有更可靠的可分性判别能力。同时和是单调的，和并不一定是单调的。第6章特征抽取和选择 9前面讨论的特征选择是在一定的准则下前面讨论的特征选择是在一定的准则下从从n n个特征中选个特征中选出出mm个个来反映原来的模式，这种来反映原来的模式，这种简单的删掉某个特征简单的删掉某个特征总总是不十分理想的，因为一般来说，原来的是不十分理想的，因为一般来说，原来的n n个数据各自个数据各自在在不

7、同程度上不同程度上反映了识别对象的某些特性，简单的删掉反映了识别对象的某些特性，简单的删掉可能会丢失较多的信息。这时，若将原来的特征作可能会丢失较多的信息。这时，若将原来的特征作正交正交变换变换，获得的每个数据都是原来的，获得的每个数据都是原来的n n个数据的线性组合个数据的线性组合，然后从新的数据中，然后从新的数据中选出少数几个选出少数几个，使它们尽可能多地，使它们尽可能多地反映各类模式之间的差异，又尽可能的相互独立，这比反映各类模式之间的差异，又尽可能的相互独立，这比单纯的选择方法更灵活，效果更好，这就是将要介绍的单纯的选择方法更灵活，效果更好，这就是将要介绍的 KLKL变换，变

8、换，它适用于任何的概率密度函数。它适用于任何的概率密度函数。 KLKL变换变换实际上是一种最佳的特征压缩。实际上是一种最佳的特征压缩。第6章特征抽取和选择 106.4 6.4 离散的离散的Karhunen-LoeveKarhunen-Loeve（K-LK-L）变换）变换设设是一个是一个维的随机向量，则它可以用下式无误差的展维的随机向量，则它可以用下式无误差的展开：开：第6章特征抽取和选择 11是线性独立的，其构成了包含是线性独立的，其构成了包含的的维空维空间，这些向量就是这个空间的一个基组。进一步它还满间，这些向量就是这个空间的一个基组。进一步它还满足以下性质：足以下性质：

9、假定我们只保留假定我们只保留向量的分量的一个子集向量的分量的一个子集，就用这些分量估计出就用这些分量估计出。第6章特征抽取和选择 12下面讨论最佳子集的选取下面讨论最佳子集的选取若用若用的分量来恢复原始模式的分量来恢复原始模式，不应使模式产生明显，不应使模式产生明显的畸变。实际上我们的任务就是要的畸变。实际上我们的任务就是要选择一个最佳的变换选择一个最佳的变换使得模式向量的维数降低后仍能保留模式的最重要的特使得模式向量的维数降低后仍能保留模式的最重要的特征征。若保留。若保留，不保留的用预先选定的常数，不保留的用预先选定的常数来代替，这时对来代替，这时对的估计值为：的估

10、计值为：第6章特征抽取和选择 13注意到注意到和和都是随机向量，用的都是随机向量，用的均方误差作为选均方误差作为选取取个特征的子集的有效性的判据，则个特征的子集的有效性的判据，则是是和和的函数，要使的函数，要使最小，就是求使最小，就是求使取极小值取极小值的最佳的的最佳的和和的值。的值。对对的选择的选择第6章特征抽取和选择 14也就是说，对于省略掉的那些分量，应当用它们的期望也就是说，对于省略掉的那些分量，应当用它们的期望值来代替。值来代替。这时的均方误差这时的均方误差对对的最佳选择的最佳选择（）实际上要在实际上要在的条件下，找出使的条件下，找出使最小

11、的最小的，构，构造造LagrangeLagrange函数：函数：第6章特征抽取和选择 15L L极小的必要条件为极小的必要条件为该式表示，该式表示，是协方差矩阵是协方差矩阵的第的第 i i 个特征值，而个特征值，而是是与与对应的特征向量。这时，最小均方误差为：对应的特征向量。这时，最小均方误差为：式中所选的式中所选的愈小，误差愈小。愈小，误差愈小。从以上可以得出结论从以上可以得出结论：第6章特征抽取和选择 16（1 1）为使误差最小，不采用的特征向量，其对应的特征为使误差最小，不采用的特征向量，其对应的特征值应尽可能小。将特征值按大小次序标号，即值应尽可能小。将特征值按

12、大小次序标号，即应首先采用前面的特征向量应首先采用前面的特征向量。这时的变换矩阵为这时的变换矩阵为（2 2）KLKL变换是在均方误差最小的意义下获得的数据变换是在均方误差最小的意义下获得的数据压缩的最佳变换，它消除模式特征之间的相关性，突出压缩的最佳变换，它消除模式特征之间的相关性，突出其差异性，且不受模式分布的限制。其差异性，且不受模式分布的限制。第6章特征抽取和选择 17例题7-1 两组二维空间的数据（a）（b）如图所示，试用KL变换分别来做一维的特征提取。（a）（b）第6章特征抽取和选择 18解：这两种情况下的期望向量对于数据（a），有对于数据（b），有第6章特征抽取和选择 19计算协方差矩阵的本征值和本征向量：对于数据（a）: 对于数据（b）:

展开阅读全文