模式识别特征选择与提取

资源描述

《模式识别特征选择与提取》由会员分享，可在线阅读，更多相关《模式识别特征选择与提取（6页珍藏版）》请在金锄头文库上搜索。

1、. -教师评价优+良+中+及格+不及格+教师签名日期2021.优良中及格不及格优-良-中-及格-不及格-模式识别特征选择与提取中国矿业大学计算机科学与技术学院电子信息科学系班级：信科11-1班，*：08113545，*：褚钰博联系方法QQ或手机：390345438，:390345438qq.日期：2021 年 06月 10日摘要实际问题中常常需要维数约简，如人脸识别、图像检索等。而特征选择和特征提取是两种最常用的维数约简方法。特征选择是从*些事物中提取出本质性的功能、应用、优势等，而特征提取是对特征空间进展变换，将原始特征空间映射到低维空间中。本文是对主成分分析和线性判别分析。关键词：特征

2、选择，特征提取，主成分分析，线性判别分析1.引言模式识别的主要任务是利用从样本中提取的特征，并将样本划分为相应的模式类别，获得好的分类性能。而分类方法与分类器设计，都是在d变量统一用斜体维特征空间已经确定的前提下进展的。因此讨论的分类器设计问题是一个选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题。对分类器设计方法的研究固然重要，但如何确定适宜的特征空间是设计模式识别系统另一个十分重要，甚至更为关键的问题。如果所选用的特征空间能使同类物体分布具有紧致性，即各类样本能分布在该特征空间中彼此分割开的区域内，这就为分类器设计成功提供良好的根底。反之，如果不同类别的样本在该特征空

3、间中混杂在一起，再好的设计方法也无法提高分类器的准确性。本文要讨论的问题就是特征空间如何设计的问题。基于主成分分析的特征选择算法的思想是建立在这样的根底上的：主成分分析方法将原始特征通过线性变换映射到新的低维空间时，获得的主成分是去了新的物理意义，难以理解，并且主成分是所有原始特征的线性组合。所以将主成分分析与特征选择相结合，设计多种相似性度量准则，通过找到与主成分相关的关键特征或者删除冗余、不相关以及没有意义的特征，将主成分又重新映射到原始空间，来理解成主成分的实际意义。基于线性判别分析的高维特征选择将单个特征的Fisher准则与其他特征选择算法相结合，分层消除不相关特征与冗余特征。不相

4、关特征滤波器按照每个特征的Fisher评价值进展特征排序，来去除噪音和不相关特征。通过对高维数据特征关联性的分析，冗余特征滤波器选用冗余度量方法和基于相关性的快速过滤器算法。分别在不同情境下进展数据分类实验，验证其性能。2.原理分析对一原始特征来说，特征选择的方案很多，从维特征种选择出个特征共有中选法，其中哪一种方案最正确，则需要有一个原则来进展指导。我们进展特征选择和特征提取的最终目的还是要进展识别，因此应该是以对识别最有利原则，这样的原则我们称为是类别的可分性判据。用这样的可分性判据可以度量当前特征维数下类别样本的可分性。可分性越大，对识别越有利，可分性越小，对识别越不利。人们对的特征的可

5、分性判据研究很多下面几种常用的判据，我们需要根据实际问题，从中选择出一种。一般来说，我们希望可分性判据满足以下几个条件：1. 与识别的错误率由直接的联系，当判据取最大值时，识别的错误率最小；2. 当特征独立时有可加性，即：是第类和第类的可分性判据，越大，两类的可分程度越大，为维特征；3. 应具有*种距离的特点：，当时；，当时；4. 单调性，参加新的特征后，判据不减小：。但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件，只能满足一个或几个条件。特征提取又称为特征变换，最常采用的特征变换是线性变换，即假设是D维原始特征，变换后的d维新特征为，其中，W是维矩阵，称作变换阵。特征提取就是根

6、据训练样本求适当的W，使得*种特征变换准则最优。主成分分析方法的出发点是从一组特征中计算出一组按重要性从大到小排序的新特征，他们是原有特征的线性组合，并且相互之间是不相关的。记为p个原始特征，设新特征，i=1,，p是这些原始特征的线性组合，为了统一的尺度，要求线性组合的模为1，即，写成矩阵形式是，其中，是由新特征组成的向量，A是特征变换矩阵。要求解的是最优的正交变换A，它使新特征的方差到达极值。3.理论证明或说明特征选择的根本框图为:子集产生子集产生原始特征集子集终止条件否子集产生是一个典型的特征选择算法通常包括四个人根本步骤:1. 子集产生，这是一个搜索过程，通过一定的搜索策略产

7、生候选的特征子集。2. 子集评价，每一个候选的特征子集都根据一定的评价准则得到，并与先前的最优特征子集进展比拟。3. 终止条件，算法完毕所需要满足的条件，它与子集的产生过程和评价准则的选用有关。4. 结果验证，就是根据一定的先验知识或通过合成现实数据集的测试来证明所选择的特征子集的性能。基于特征提取主成分分析变换矩阵的一般过程：训练数据全集PCA处理变换矩阵分析生成变换矩阵输出特征子集4.实现方法或步骤流程特征选择顺序前进法每次从未入选的特征中选择一个特征，使得它与已入选的特征组合到一起所得到的可分性判据最大，直到特征数增加到为止。用表示在第步时的特征集合，搜索算法如下：1) 开场时，从个

8、特征中选择一个最大的特征，参加已选特征集，；2) 在第步，中包含已经选择的个特征，对未入选的个特征计算，其中，并且按照由大到小排序，将可分性判据最大的特征参加，；3) 直到所选的特征数等于为止。特征抽取的方法基于离散K-L变换(DKLT)的特征抽取：设原始特征为为矢量，均值矢量，相关矩阵，协方差矩阵。我们可以对作如下的标准正交变换，将其变为矢量:的每个分量：，其中为一个的标准正交矩阵，为其第个列矢量，。也就是说的每个分量是每一个分量的线性组合。同样可以表示为：我们要进展特征提取，也就是要用的项来代替，这种代替必然带来误差，下面我们来对这个误差进展估计：令：，引入的均方误差为：这又变成一个优化问

9、题，我们希望寻找到一个标准正交矩阵，使得最小，因此可以去这样的准则函数：第一项保证均方误差最小，第二项保证为标准正交矩阵，为一待定常数。，即：，很明显为相关矩阵的特征值，为对应于的特征矢量，由于是一个实对称矩阵，所以相互正交，为一个正交矩阵。均方无差：根据矩阵论，有这样的结论：一个的正定实对称矩阵有个特征值和特征矢量，这些特征矢量之间是正交的。相关矩阵就是一个实对称矩阵，当训练样本足够多时，也可以满足正定性，根据上式我们知道，当要从维特征中提取出维特征时，我们只需要统计出特征相关矩阵，然后计算其特征值和特征矢量，选择对应特征值最大的前个特征矢量作成一个特征变换矩阵，就可以完成特征提取。步骤如下

10、：1、利用训练样本集合估计出相关矩阵；2、计算的特征值，并由大到小排序：，以及相应的特征矢量：；3、选择前个特征矢量作成一个变换矩阵；4、在训练和识别时，每一个输入的维特征矢量可以转换为维的新特征矢量：。这种方法是利用相关矩阵进展变换，同样也可以利用协方差矩阵进展变换，还可以利用样本的散度矩阵，或者进展变换。过程都是一样的，需要计算特征值和特征向量，选择最大的个特征值对应的特征矢量作出变换矩阵。5.实验设计和结果分析基于特征相关性的特征选择算法选择c均值聚类算法来去除冗余。 C均值算法的根本思想即是通过迭代寻找c个聚类的一种划分方案，使得用这c个聚类的均值来代表相应各类样本时所得到的

11、总体误差最小。 C均值算法的根底是最小误差平方和准则。假设是第i聚类中的样本数目，是这些样本的均值，即把中的各样本y与均值间的误差平方和对所有类相加后为是误差平方和聚类准则，它是样本集和类别集的函数。 C均值算法的步骤：1.选择初始划分，并计算每个聚类的均值以及误差平方和；2.选择一个备选样本y，设y；3.假设样本数目为1，则转2，否则继续；4.计算：ji时，； j=i时，；5. 考察中的最小者，假设，则把y从移到中；6.重新计算聚类i和k的均值，并修改误差平方和；7.假设屡次迭代后误差平方和不变，则停顿，否则转到步骤2。1.无论在聚类时，初始均值如何选取，在程序结果中总能得到一样的分类结

12、果，同时的结果相差很小。2当各聚类设定的初始均值不同时，程序结果经过的步骤不同。3.是随着聚类数目的增加而单调的减少的，当聚类数目等于样本数时=0，即每个样本自己成一类。4.此算法是个局部搜索算法，并不能保证收敛到全局最优解，即不能保证找到所有可能的聚类划分中误差平方和最小的解。算法的结果受到初始划分和样本调整顺序的影响。6. 结论模式识别技术是人工智能的根底技术，21世纪是智能化、信息化、计算花、网络化的世纪，在这个以数字计算为特征的世纪里，模式识别技术将会获得巨大的开展空间。特征选择作为数据预处理的一个必要步骤，是模式识别中的一个关键问题。一个模式识别系统的成败，首先取决于所利用的特征是否

13、较好的反映了将要研究的分类问题。而且高维数据是特征选择的一个挑战，研究人员总是努力的寻找着各种方法来尽量提高特征选择的性能。对于特征选择与特征提取，还有许多问题期待解决：高维数据的特征选择，特别是训练样本较少而特征维数极高的数据集；在样本的类别数未知的情况下，设计时间复杂度较低的非监视的特征选择；如何在进展特征选择时，选择有意义的训练样本；将维数约简与距离度量学习相结合；随着特征选择的应用领域不断扩大，当出现新的非线性相关的数据类型时，如何设计新的特征选择算法；将特征选择算法应用于人脸识别与人脸检测中，消除传统人脸识别方法如PCA和LDA固有的局限性。模式识别是一门理论与实践严密结合的学科，教

14、与学的方式值得我们研究和探索。还可以看出模式识别具有相当大的前景，而且模式识别的应用得到越来越多的人的支持，而且它的成效也十分显著。因此它也得到各国的重视，正因各个单位集体对人工智能的模式识别给予相关的重视，模式识别技术在现今社会也能快速开展。当然，现在的模式识别还不算真正完整，不过人类科技的技术是不断开展的，相信总有一天人工智能中的模式识别会真正融入我们的社会，成为我们人类不可或缺的一局部。而设计具体的、专业的、高效的特征选择算法是一个值得重视值得探索的研究方向。7.参考文献：1*学工.模式识别第三版).：清华大学，20212朱明，王俊普，蔡庆生3L.Yu,H.Lu,Efficient feature selection via analysis of relevance and redundancy,Machine Learning Research,vol.5,pp.1205-1224,20044 M.Dash,K.Choi,P.Scheuermann and H.Liu,Feature selection for clustering-A filter solution,IEEE Intl Conf.on Data Mini

展开阅读全文