有关特征选择内容－金锄头文库

资源描述

《有关特征选择内容》由会员分享，可在线阅读，更多相关《有关特征选择内容（17页珍藏版）》请在金锄头文库上搜索。

1、特征选择和集成学习是当前机器学习中的两大研究热点,其研究成果己被广泛地应用于提高单个学习器的泛化能力。特征选择是指从原始特征集中选择使某种评估标准最优的特征子集。其目的是根据一些准则选出最小的特征子集,使得任务如分类、回归等达到和特征选择前近似甚至更好的效果。通过特征选择,一些和任务无关或者冗余的特征被删除,简化的数据集常常会得到更精确的模型,也更容易理解。滤波式(filter)方法的特征评估标准直接由数据集求得，而无需学习算法进行反馈，其优点是运行效率高，因此非常适用于集成学习. 假设用于集成的特征选择算法有k种,抽取产生 m 个子训练集，在每个训练集上利用其中一种特征选择算法选出满足条件的

2、属性作为个体svm训练的输入空间，并训练得到 m个 svm个体，然后对其他的特征选择算法重复执行上述过程，最后将得到的k*m 个子svm的预测结果集成.特征选择是从一组数量为 D 的原始特征中选出数量为d(Dd)的一组最优特征采用遗传退火算法进行特征选择. 随机生成长度为 D 的二进制串个体其中1 的个数为d 。连续产生这样的个体M 个M 为种群规模其大小影响着遗传算法的最终结果及其执行效率M。特征选择的目的是找出分类能力最强的特征组合需要一个定量准则来度量特征组合的分类能力。度量特征选择算法优劣的判据很多各样本之所以能分开是因为它们位于特征空间的不同区域如果类间距离越大类内各样本间的距离越

3、小则分类效果越好。各种新搜索算法和评估标准都应用到特征选择算法中。如粗糙集算法,神经网络剪枝法,支持向量机的评估标准,特征集的模糊嫡评价,马尔可夫算法等入侵检测系统的数据含有大量的冗余与噪音特征,使得系统耗用的计算资源很大,导致系统训练时间长,实时性差,检测效果不好,引入特征选择算法能够去除高维数据中无用和冗余的信息,保留对分类效果起关键作用的信息,在不影响分类效果的同时减少数据量,降低了数据存储复杂度,减轻系统负荷,提高入侵检测系统的检测速度,增强入侵检测系统的健壮性。入侵检测问题从机器学习的角度看实际上是一个分类问题,分类器的性能不仅与分类器设计算法有关,而且与选择的特征子集有关。一个高度

4、相关的特征子集可有效改进分类器的性能,因而特征选择(属性约简)具有重要的理论意义和应用价值。集成学习(Ensemble Learning)是通过将一组学习器以某种方式组合在一起可以显著提高学习系统的泛化能力（有监督的分类器集成和半监督的分类器集成）。神经网络集成可以显著地提高神经网络系统的泛化能力,被视为一种非常有效的工程化神经计算方法。然而,实际应用中集成系统的个体弱学习器成员可以是任何学习算法,如最近邻法、贝叶斯方法、神经网络及支持向量机等。从这点上讲,可以说集成学习只是提供了一个广义的框架,针对具体的机器学习问题需要设计具体的集成学习模型。基于遗传算法的特征选择算法中一般选择适配值最高的

5、个体作为特征选择的结果,而抛弃了其他个体。我们设想,是否其他个体也会提供有用的信息,如果在不同的个体(即特征子集)上训练得到不同的个体分类器,然后将这些分类器组合起来,是否会得到很好的集成分类结果。机器学习中的特征选择可定义为:己知一个特征集,从中选择一个子集可以使得评价标准最优。从特征选择的定义可见,在给定学习算法、数据集及特征集的前提下,各种评价准则的定义和优化技术的应用将构成特征选择的重要内容。特征选择作为应用于数据挖掘中消除数据噪声的一种技术,也作为根据某一准则从原有的特征中选择出最优的特征组合实现对数据进行预处理的一种常用手段。选出与结果最相关的特征,排除不相关或者冗余的特征,从而提

6、高判断的准确率。本文运用以具有良好泛化能力的支持向量机的特征选择和集成分类器新技术,在支持向量机分类的基础上,以特征选择和基于特征选择的集成学习方法为主要研究内容,以影响支持向量机性能的主要因素为研究对象,对正则化参数C和核函数参数的选择进行了较深入的研究,并通过对多个成员分类器结果的集成,以进一步提高对数据挖掘的学习泛化能力。在遗传算法优化特征子集的同时,把支持向量机参数混编入遗传算法的遗传假设中,从而实现同步优化特征子集和支持向量机参数。集成学习就是利用有限个学习器对同一个问题进行学习,某样本的输入的输出值是由构成集成的各学习器共同决定的。集成学习方法是通过训练大量的基学习器,然后按照一定

7、的标准选择一部分基分类器进行集成,最终能获得较好的分类效果。使用特征选择对数据进行预处理。采用主成分分析法先对数据进行预处理。由于特征子集大小变化幅度很大,我们可以根据特征子集大小使用不同的搜索策略来搜索特征空间。目前，搜索策略大致分为3种: 完全搜索,启发性搜索和随机搜索。完全搜索就是在事先知道特征子集大小的情况下,能够找到相对较好的特征子集。启发性搜索在搜索特征空间的时候根据启发性信息沿着一条特殊的路径处理数据,最后能够得到近似最优解。随机搜索:该方法首先随机产生一个待评价的子集,然后要求新产生的子集要在维度、准确性方面都要比当前的子集有所提高Relief算法借用了最近邻学习算法的思想,其

8、是根据特征对近距离样本的区分能力来评估特征,其核心思想为:一个好的特征应该使同类的样本接近,而使不同类的样本之间远离。可以对每个特征进行排序,好的特征赋予较大的权值,表示该特征的分类能力较强,反之,表示分类能力较弱。Relief特征选择支持向量机Bagging集成学习和基于预报风险的特征选择支持向量机Bagging集成学习。它们均采用同时对输入特征空间和支持向量机的模型参数进行扰动的方式来产生个体分类器,并利用多数投票方法对它们进行组合。基于多个数据集的数值实验结果表明,这两种算法均能够显著提升SVM的泛化性能,均显著地优于Bagging、Boostin只等集成学习算法。因Relief仅局限于

9、解决两类的分类问题。ReliefF则可以解决多类问题以及回归问题,并补充了对缺失数据的处理办法。当有数据缺失时,如果缺失的属性为连续型夕则用该特征的平均值代替。如果缺失的属性为离散型,则用该特征中出现频率最高的值代替。Relief法是一种特征权重算法(Feature weighting algorithms),根据各个特征和类别相关性赋给每个特征不同的权重,权重小于某个闭值的特征将被删去。Relief算法特征和类别的相关性是基于特征对近距离样本的区分能力。根据样本是否含有类别信息,特征选择可分为非监督的特征选择和有监督的特征选择。非监督的特征选择:指在数据集中,通过数据集中特征自身之间的关系进

10、行特征选择的方式。有监督的特征选择:指在给定类别的前提下,利用特征之间和特征与类别之间的关系对特征集进行选择的过程。当使用支持向量机作为分类器时,就必须考虑支持向量机的参数问题。核函数间接的描述了支持向量机的高维特征空间,参数C用来平衡模型复杂度和经验风险值。本章通过把支持向量机参数引入到遗传算法中,构造出了基于遗传算法的模型参数自适应优化算法。本文把参数的选择和特征选择同时进行,即在选择特征的同时找出与其对应的参数最优点。如在支持向量分类机中,可以通过改变核函数或者核函数参数建立不同的成员分类器。提出了一种对样本先进行优化特征子集预处理,再加入支持向量机参数进行优化分类。数据挖掘中的特征选择

11、不仅可以去除特征集合中冗余的无关的特征信息，提高原始数据的质量，使得数据挖掘可以从数据中得到更有价值的信息，同时大大降低了数据挖掘的计算成本和获取冗余信息所耗费的成本。SVM作为基学习器。利用主成份分析法减少冗余特征，并在此基础上结合集成方法进行学习。支持向量机是在统计学习理论基础上提出的，利用结构风险最小化的原则建立目标函数，通过二次凸规划来解决，得到最优解，具有良好的泛化能力。它本质上是求解一个凸优化问题其中bagging 和boosting 是目前比较流行的两种集成学习方法。提高个体分类器的精度,增加个体分类器间的差异,可以有效的提高集成学习的泛化性能。特征选择可以提高分类器精度并增加个

12、体分类器差异,扰动支持向量机的模型参数,也可以增加个体分类器的差异性。Relief过滤式特征选择算法和基于预报风险的嵌入式特征选择算法两种特征选择方法参与集成学习的研究,并在支持向量机的低偏差区域内随机的选取支持向量机的模型参数,提出了两种基于特征选择的低偏差的支持向量机Bagging集成学习算法。机器学习的目的是设计某种方法,通过对己知数据的学习,找到数据内在的相互依赖关系,从而对未知数据预测和对其性能进行判断.机器学习的目的是根据给定的训练样本来估计某系统的输入和输出之间的依赖关系,使它能够对未知输入尽可能准确的预测。统计学习理论(STL)。集成后的学习器比任何一个个体学习器有更高的精度的

13、充要条件是:个体学习器有较高的精度并且个体学习器是互不相同的。其中,个体学习器有较高精度是指对一个新的数据进行函数逼近或分类,它的误差比随机猜测要好。两个个体学习器互不相同是指对于新的样本点进行预测或分类时,它们的错误是不相关。Bagging方法中,各学习器的训练集由从原始训练集中随机选取若干样本组成,训练集的规模通常与原始训练集相当,训练样本允许重复选取。Bagging方法通过重新选取训练集增加了集成学习的差异度,从而提高了系统的泛化能力。Boosting方法特别是其中的Adaboost(ad叩tiveboosting)算法,通过迭代生成多个训练集,每次迭代都增加一个新的分类器到集成中,该分

14、类器使用的训练样本根据一个分布或权值有放回地原数据集中选择,然后修改样本的分布或权值,使得前一次分类器错分的样本获得更大的权值,这样后来的基分类器可更关注难于分类的样本。对基分类器的输出通常采用加权投票组合。Adaboost算法随着迭代增进训练误差下降。Adaboost算法后来有很多变种,如Adaboosting.MI、Adaboosting.MZ和Adaboosting.R。Boosting方法能够增强集成学习的泛化能力,但是同时也有可能使算法过分偏向于某几个特别困难的示例,该算法对噪声比较敏感。交叉验证法将训练集分成若干个不相交的子集,每次去掉一个子集,而将其余子集组合成为一个新的训练集。

15、这样,新的训练集之间是部分重叠的。纠错输出编码(error correcting output coding , Ecoc)并指出了两个方向:利用支持向量机的偏差特性,采用低偏差支持向量机作为基分类器;或者,利用偏差与方差对核参数的依赖性,通过偏差与方差分析构建低偏差异类分类器集成.支持向量机的模型参数一般有两个:核参数和惩罚参数C.Relief特征选择是指从原始特征集中选择按照一定评估标准最优的特征子集,一方面它可以去除无关特征、冗余特征、甚至噪声特征,得到一个较小的特征子集,提高学习算法的性能和运行效率,提高个体学习器的泛化能力,另一方面可以增强个体学习器的差异度,从而提高集成学习的效果。

16、在低偏差区域内随机选择支持向量机的核参数和惩罚参数从另一方面增加了个体学习器的差异度,从而也可以提高集成学习的性能。集成学习一般包含两个阶段,即个体分类器的生成阶段和个体分类器的结合阶段。本文方法在个体分类器的生成阶段采用的策略是:先在训练集上产生多个分类器,再在验证集上测试,并从中选择部分分类器。集成学习通过训练多个个体学习器并将其结果进行合成,显著地提高了学习系统的泛化能力。选择性集成方法从集成系统中选择出部分个体参与集成。集成学习的根本目的是为了提升学习算法的性能。它是将多个不同的基模型组合成一个模型的学习方法,利用多个基模型间的差异来提高模型的泛化性能。支持向量机作为一种相对“稳定”和“高精度”的学习机,对集成学习技术提出了新的挑战。1.个体生成方法如何产生有差异的个体是集成学习的关键问题,

展开阅读全文