类别不平衡数据的集成学习研究

资源描述

《类别不平衡数据的集成学习研究》由会员分享，可在线阅读，更多相关《类别不平衡数据的集成学习研究（56页珍藏版）》请在金锄头文库上搜索。

1、学号：2007021053 研究生姓名：王晓芹联系电话：13789818392 Email:piao_123qin 所在学院：信息科学与工程学院硕硕士士学学位位论论文文论文题目: 类别不平衡数据的集成学习研究学科专业名称: 计算机软件与理论申请人姓名: 王晓芹指导教师: 张化祥教授论文提交时间: 2010 年 6 月 6 日单位代码 10445 学号 2007021053 分类号 TP391 独独创创声声明明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不

2、包含其他人已经发表或撰写过的研究成果，也不包含为获得（注：如没有其它需要特别声明的，本栏可空）或其它教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名：导师签字：学位论文版权使用授权书学位论文版权使用授权书本学位论文作者完全了解学校学校有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权学校学校可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。（保密的学位论文在解密后适用本授

3、权书）学位论文作者签名：导师签字：签字日期：2010 年月日签字日期：2010 年月日山东师范大学硕士学位论文 I 目录摘要 . i Abstract . iii 第一章绪论 1 1.1 研究的背景和意义 . 1 1.2 本文的组织结构 . 2 1.3 本文的研究内容及主要创新点 3 第二章类别不平衡数据的分类学习 4 2.1 分类技术和典型的分类算法 . 4 2.1.1 分类技术 4 2.1.2 典型的分类方法 4 2.2 不平衡数据集的分类问题 . 6 2.2.1 不平衡数据集分类困难的原因 . 6 2.2.2 解决类别不平衡问题的主要方法 8 2.3 本章小

4、结 . 10 第三章基于重采样技术的不平衡数据集集成学习 12 3.1 集成学习技术 . 12 3.1.1 集成学习技术与分而治之技术的差异 12 3.1.2 集成学习的关键因素 12 3.2 重采样技术的相关理论知识 . 13 3.2.1 重采样方法的思想来源27 13 3.2.2 著名的重采样方法27 13 3.2.3 解决类别不平衡问题中用到的重采样方法 14 3.3 基于级联结构的不平衡数据集分类研究（CasBagging 算法）42 . 14 3.3.1 经典 Bagging 算法 14 3.3.2 基于级联结构的分类器 . 15 3.3.3 CasBagging 算法思想 15

5、3.4 本章小结 . 17 第四章神经网络在类别不平衡问题中的应用 18 4.1 人工神经网络（ANN）概述 . 18 4.2 反向传播（BP）算法相关理论 19 4.2.1 梯度下降法则4 . 19 4.2.2 经典 BP 算法 . 20 4.3 用加权 BP 算法(WNN)解决类别不平衡问题43 . 21 4.4 用神经网络优化的 SMOTE 方法 . 23 4.4.1 有放回过取样的缺点 . 23 山东师范大学硕士学位论文 II 4.4.2 经典 SMOTE 24 4.4.3 用神经网络优化的 SMOTE 算法(NNSMOTE)思想 . 26 4.5 本章小结 . 28 第五章评价标

6、准和实验 29 5.1 评估标准 . 29 5.1.1 分类器的性能评估方法 . 29 5.1.2 不平衡数据集分类评价标准 . 30 5.2 实验环境 32 5.3 实验数据及预处理 . 32 5.4 CasBagging 实验 34 5.4.1 CasBagging 实验数据 . 34 5.4.2 CasBagging 实验结果分析 . 35 5.4.3 CasBagging 算法结论 . 36 5.5 WNN 算法实验 36 5.5.1 WNN 算法实验设计 . 36 5.5.2 WNN 实验结果及分析 . 37 5.6 NNSOMTE 算法实验 39 第六章总结与展望 41 6.1

7、本文研究内容总结 41 6.2 进一步的工作 41 参考文献 42 攻读学位期间发表的学术论文和参与的项目 45 致谢 46 山东师范大学硕士学位论文 i 类别不平类别不平衡数据的集成学习研究衡数据的集成学习研究摘要分类是机器学习的重要任务之一，传统的分类方法有一个默认的假设，就是数据集中各类别所包含的样本是均衡的，故传统的分类方法都是以提高数据集的总体准确率为目标的。但是在现实生活中，经常会存在这样的数据，即某一类别所包含的样本的数量远远小于其他类别所包含的样本数量，我们称这样的数据为类别不平衡数据。在这些数据集中，人们主要关注的是小类样本的信息（少数类），但是传统的

8、分类方法由于追求总体的准确率，很容易将全部样本判别为多数类，使得分类器在少数类样本上的效果变得很差。这样误分的代价是巨大的。类别不平衡问题由于其广泛的存在和自身的特殊性，已经成为机器学习和模式识别领域的焦点，是对传统分类方法的重大挑战。目前国际上对类别不平衡数据的研究主要集中在两个个层面：对数据集的处理和对分类算法的改进。对数据集的处理主要是用重采样的方法对数据集重构，改变原始数据集的分布，缩减其不平衡程度，主要方法有欠取样和过取样；对分类算法的改进主要是修改传统分类算法，使之适应类别不平衡数据分类，如代价敏感学习及基于 Boosting 的方法等。近几年也有学者提出

9、将重构数据集和改进分类算法结合起来使用。对上述诸方法的研究已经取得瞩目的成就，在很大程度上改善了不平衡数据的分类现状，但是依然存在过度拟合、信息丢失等问题，影响了分类结果的可靠性和稳定性。因此，在不影响多数类分类精度的前提下提高少数类的识别率是一个很重要的研究课题。本文针对类别不平衡数据这一课题，从对数据集的处理以及分类算法的改进两方面展开研究，提出几种适合处理类别不平衡问题的新方法。本文的主要创新成果有： 1.对数据集的处理：受级联结构的启示，提出了一种针对不平衡数据集分类的新方法，基于级联结构的 Bagging 分类方法(CasBagging)。该方法通过在每一级剔

10、除一部分多数类样本的方式使数据集逐步趋于平衡，并应用欠取样技术得到训练集，用 Bagging 算法训练分类器, 最后把每一级训练到的分类器集成为一个新的分类器。在 weka 平台上实现该算法，在 10 个 UCI 数据集上的实验结果表明，该方法优于原始 Bagging 和 AdaBoost。 2.对分类算法的改进：当用神经网络处理类别不平衡问题时，存在一个既定的事实，即少数类对误差函数的贡献要远远小于多数类的贡献，故训练出来的网络更倾向于识别多数类样本。针对这个问题，提出一种改进的反向传播算法 WNN，在该算法中，首先根据样本所属的类别对其加权，少数类赋予较大权重，多数类赋予较小

11、权重，然后重新定义了误差函数，使其在计算样本误差时考虑该样本的权重。在 20 个 UCI 数据集上的实验结果表明，该算法提高了少数类样本的识别率。 3.提出一种不同于 SMOTE 方法的新型过取样算法 NNSMOTE。采用非线性插值的思想，用神经网络为少数类合成新样本：对于每个少数类，首先找到它的 k 个近邻，然后用山东师范大学硕士学位论文 ii 这些近邻作为神经网络的输入，训练出一个最大拟合这些近邻的新样本，作为人工合成样本参与到分类器的训练中。关键词：不平衡数据集；集成学习；重采样技术；神经网络；BP 算法分类号：TP391 山东师范大学硕士学位论文 iii Resea

12、rch on Ensemble Learning Approaches to Imbalanced Data Sets Abstract Classification is one of the most important tasks of machine learning. There exits a default assumption in the classification field that the number of instances in each class is balanced and the goal of the traditional classificati

13、on methods is to enhance the overall classification accuracy of the whole dataset. However, in many practical problems, the number of data belonging to different classes is imbalanced, and improving the classification accuracy of the data in the minority class becomes important. When facing such dat

14、asets, traditional learning algorithms tend to produce high predictive accuracy for majority class but poor predictive accuracy for minority class. The cost of wrong classification is tremendous. As this kind of problems is very common, classifying imbalance data sets has become the focal point of m

15、achine learning and pattern recognition research, which is also a large challenge to traditional classifiers. At present, researches on class imbalance problems mainly focus on two aspects: dataset processing and classification method improving. Dataset processing reconstructs a dataset via resampli

16、ng: reducing its imbalance degree by changing the distribution of the original data. Over-sampling and under-sampling are the most extensively used methods. Novel algorithms are proposed to improve the performance of the existent classification approaches, such as cost sensitivity learning, Boosting methods and so on. Some experts also advise to combine these two kinds of method. Researches alon

展开阅读全文