基于单类分类器的半监督学习

上传人:ji****72 文档编号:45957412 上传时间:2018-06-20 格式:PDF 页数:7 大小:306.55KB
返回 下载 相关 举报
基于单类分类器的半监督学习_第1页
第1页 / 共7页
基于单类分类器的半监督学习_第2页
第2页 / 共7页
基于单类分类器的半监督学习_第3页
第3页 / 共7页
基于单类分类器的半监督学习_第4页
第4页 / 共7页
基于单类分类器的半监督学习_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《基于单类分类器的半监督学习》由会员分享,可在线阅读,更多相关《基于单类分类器的半监督学习(7页珍藏版)》请在金锄头文库上搜索。

1、 * 国家自然科学基金 (No . 60603029)、 中国博士后基金 (No . 20080441320)资助项目 收稿日期: 2008- 12- 22;修回日期: 2009- 07- 27 作者简介 缪志敏, 女, 1978年生, 博士, 工程师, 主要研究方向为网络安全、 模式识别. E2mai: loliver miao 126. co m. 赵陆 文, 男, 1977年生, 博士研究生, 主要研究方向为认知无线电、 通信信号处理. 胡谷雨, 男, 1963年生, 教授, 博士生导师, 主要 研究方向为网络管理、 网络安全. 王琼, 女, 1979年生, 博士研究生, 主要研究方向为

2、网络安全, 模式识别.基于单类分类器的半监督学习*缪志敏1赵陆文1胡谷雨2王 琼21(解放军理工大学 通信工程学院 南京 210007)2(解放军理工大学 指挥自动化学院 南京 210007)摘 要 提出一种结合单类学习器和集成学习优点的 Ensemble one2class半监督学习算法. 该算法首先为少量有标识数据中的两类数据分别建立两个单类分类器. 然后用建立好的两个单类分类器共同对无标识样本进行识别, 利用已识别的无标识样本对已建立的两个分类面进行调整、 优化. 最终被识别出来的无标识数据和有标识数据集合在一起训练一个基分类器, 多个基分类器集成在一起对测试样本的测试结果进行投票. 在

3、 5个 UCI数据集上进行实验表明, 该算法与 tri2training算法相比平均识别精度提高 4. 5%, 与仅采用纯有标识数据的单类分类器相比, 平均识别精度提高 8. 9%. 从实验结果可以看出, 该算法在解决半监督问题上是有效的.关键词 单类分类器, 半监督学习, 集成学习, 协同训练中图法分类号 TP 181Sem i2Supervised Learning Based on One2 ClassClassificationMIAO Zhi2 Min1, Z HAO Lu2 W en1, HU Gu2 Yu2, WANG Q iong21(Institute of Co mmuni

4、ca tion Engineering, PLA University of Science and Technology, Nanjing 210007)2(Institute of Co mmand Auto mation, PL A University o f Science and Technology, Nanjing 210007)ABSTRACTAsemi2supervisedlearning algorithmis proposed based on one2class classification .Firstly , one2class classifications a

5、re built respectively for each class of data on labeled datase. tThen ,so meunlabeled data are tested by these one2class classifications .The classification results are used to adjustand opti mize two classification surfaces. All labeled data and so me recognized unlabeled data are used totrain a ba

6、se classifier .According to the classifying results of the base classifiers,the label of the test sample is deter mined . Experi mental results onUCI datasets illustrate that the average detection precisionof the proposed algorith m is 4 . 5 % higher than that of the tri2training algorithm and 8 . 9

7、 % higher thanthat of the classifier trained by pure labeled data .K eyW ords One2 ClassClassification ,Se m i2Supervised Learning , Ense mble Learning ,Co2 Training第 22卷 第 6期 模式识别与人工智能 Vo. l 22 No . 62009年 12月 PR 后者指目标类被分为非目标类. 两分类算法选择分类边界的原则是使这两种错误都较小. 由于单类分类器只需通过一类目标实例来确定分类边界, 所以单分类不能确定训练实例中的错误接受

8、, 只能最小化错误拒绝. 在各个单类分类器的设计中, 都是以最小化错误拒绝率为设计目标的.单类分类器中度量 (d(x) ) 和度量阈值 ( Hf) 这两个关键的要素权衡错误接受和错误拒绝这两种误 差. 单分类学习器经验误差定义为EM=Q10E2(E1)dE1=Q10QZI(d(z) Hf) dzdHf.在进行野值点的错误接受假设时, 单类分类器在根据目标类建立二类分类边界, 通常假定野值点是均匀分布在目标样本周围. 而这个假设与实际野值点样本分布存在差异. 在采用单类分类器解决两 类问题时, 很容易理解到正类为目标类时单类分类器的错误拒绝可近似为反类为目标类时单类分类器的错误接受. 这正是本文

9、采用单类分类器来解决半监督学习问题的出发点. 我们期望用训练数据集中的正类和反类数据分别学习两个同一性质的单类学9256期 缪志敏 等:基于单类分类器的半监督学习习器来获得对真实数据分布的近似解.对于单类分类问题, 已有许多解决方法9, 大致分为三类. 1) 密度估计法. 代表的方法有高斯模型、 混和高斯模型和 Parzen窗密度估计等. 这些方 法出发点是假设目标类的数据分布同这些模型是吻合的. 如果不符合, 则效果较差. 2) 边界法. 代表方法有 K2centers 、 最近邻和支持向量数据描述 9等. 此类方法是根据目标类数据确定目标类分布的区域, 同密度估计不同的是此类方法无需进行密

10、度估计. 3) 重建法. 代表方法有K 值聚类、 学习向量量化(LearningVectorQuantization,LVQ)、 自组织映射 ( Self2 OrganizingMap ,SOM)、 PCA、 多线性主成分分析 (Multilinear PCA,MPCA) 等 10. 还有基于SVM的单类分类器, 如 Sch lkopf等人将 SVM扩展 到一类问题 11- 12, 称为 SVM one2class . 这些模型已广泛应用于文本分类、 手写体识别、 图像处理等领域 13- 15. 本文在三类单类分类器中选用 4个有代表性的分类器进行研究, 这 4个分类器分别是: 混合高 斯 (

11、M ixture ofGaussians , MOG)、 K 近邻 (K2nearestNeighbor , Knn)、 支持向量数据描述 (SupportVectorData Description , SVDD)、 K 均 值 聚 类 (K2 means Clustering , K2 means).3 基于单类分类器的半监督学习 算法通常的 co2training算法中, 每个分类器都利用 其他分类器提供的信息来帮助自己. co2training算法在实际应用中会出现迭代若干次后, 如果再继续训练, 学习性能不但没有改善, 有时候还会下降15.这是由于迭代若干次后, 两个分类器越来越相近

12、, 最终变成两个相同的分类器, 从而导致学习性能没有提高, 甚至在一些测试样本上出现性能下降16. 这与 co2training系列算法通常要求所建立的学习器是 基于充分冗余的视图 ( view)17分不开. tri2training算法作为 co2training算法的扩展, 通过两个分类器对无标识数据学习的结果比较来减少噪声和野值的 错分, 将经过过滤的结果提供给第三个分类器以提高其学习性能. 本文在 co2training算法和 tri2training算法的基础上提出基于单类分类器的 Ensembleone2class半监督学习算法. 我们利用单类分类器的 特点, 采用两个分类器实现对

13、无标识样本中野值点的过滤, 达到与 tri2training算法同样的效果.在 Ensemble one2class算法中, 利用单类分类器仅使用一类样本进行训练的特点, 通过对有标识样本中的少量正类样本训练一个单类学习器, 同时对反类样本训练另一个单类分类器, 这两个单类分类器间通过协同训练, 不断更新其分类面, 最终通过集 成实现半监督学习. 在该算法中由于这两个单类分类器训练样本完全不同, 克服 co2training算法在多次迭代后分类器差异变小、 学习性能不能提高的缺 陷. co2training算法在对无标识样本进行识别后没有通过检验就直接提交给另一个分类器充实其训练数据, 混杂有

14、噪声的数据通过迭代累积后将影响分类器的性能. Ensemble one2class算法利用两个单类 分类器的识别结果进行比较来挑选置信度高的样本, 这些样本再根据标识加入到相应单类分类器的训练集中来改善该单类分类器的性能, 而置信度低 的样本保留在无标识数据集中, 减少噪声的影响, 有助于提高被正确识别样本 的置信度.Ensembleone2class算法最后采用集成学习 bagging算法18,进一步保证该算法的泛化能力.图 1 Ense mble one2class算法示意图F ig . 1 Sketchmap for ensemble one2class algorithm以具有代表性的

15、单类分类器算法 SVDD为例.首先采用有标识样本中的正类样本和反类样本建立如图 1( /# 0为正类样本, / + 0为反类样本, /* 0为无标志样本 ) 所示的两个 SVDD分类器. 然后随机采样一些无标识数据分别对两个超球进行测试, 将 仅在一个超球内的无标识样本赋予该超球内有标识样本的标识, 并与原超球内的有标识样本重新学习SVDD分类器, 即重新建立 Lagrange函数, 用标准的二次规划算法来求得新的支持向量, 建立新的超球.以上过程多次循环直到剩下的无标识数据同在两球 内或同在两球外, 两个 SVDD分类器的分类面不变,循环结束. 将原始有标识数据和被两超球区分的无标识数据组成

16、新的数据集, 在同一核空间下再次学习, 建立一新的带两类数据的 SVDD分类器, 并将其作为集成学习中的基分类器. 在多个基分类器被训 练好后, 采用投票准则进行样本测试.Ensemble one2class算法流程如下.输入 N: labeled exa mple set ;N+: positive example subset ofN;926模式识别与人工智能 22卷N-: negative exa mple subset ofN;U: unlabeled example set ;L: sigle2class learning algorithm;输出 h( z) zarg maxEpj= 1fj( z)for jI( 1 . . . p) doNc+zBootstrapSample(N+)Nc-zBootstrapSample(N-)for iI

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号