不平衡数据集的代价敏感学习方法 外文翻译

上传人:mg****85 文档编号:34441850 上传时间:2018-02-24 格式:DOC 页数:15 大小:765.67KB
返回 下载 相关 举报
不平衡数据集的代价敏感学习方法 外文翻译_第1页
第1页 / 共15页
不平衡数据集的代价敏感学习方法 外文翻译_第2页
第2页 / 共15页
不平衡数据集的代价敏感学习方法 外文翻译_第3页
第3页 / 共15页
不平衡数据集的代价敏感学习方法 外文翻译_第4页
第4页 / 共15页
不平衡数据集的代价敏感学习方法 外文翻译_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《不平衡数据集的代价敏感学习方法 外文翻译》由会员分享,可在线阅读,更多相关《不平衡数据集的代价敏感学习方法 外文翻译(15页珍藏版)》请在金锄头文库上搜索。

1、978-1-4244-8126-2/10/$26.00 2010 IEEE不平衡数据集的代价敏感学习方法Nguyen Thai-Nghe, Zeno Gantner, and Lars Schmidt-Thieme, Member, IEEE摘要:类不平衡对于机器学习算法是一个挑战性的问题。当从高度不平衡的数据中学习,大多数分类将被多数类的例子所压倒,所以漏报率总是很高。尽管研究人员已经介绍了很多的方法来处理这个问题,包括重采样技术和成本敏感的学习(CSL) ,其中大多数是集中在这些技术的一种。这项研究提出了两种实证方法处理 同时使用重采样和 CSL 的类不平衡。第一种方法将几种采样技术与使用

2、支持向量机(SVM)的 CSL 进行结合、比较。第二种方法建议通过本地优化的成本比率(成本矩阵)使用 CSL。我们的实验结果关于来自于 UCI 资料库的 18 不平衡数据集表明,第一种方法可以减少误分类成本,而第二种方法可以提高分类器的性能。一、绪论二元分类问题中,类不平衡可描述为多数类通过一个重要因素在数量上超过了少数类。这种现象出现在许多机器学习和数据挖掘应用,如信用卡欺诈检测,入侵检测,溢油检测,疾病诊断和许多其他领域。多数分类器在监督机器学习中被设计以最大限度地提高他们的模型的准确性。因此,当从不平衡数据中学习,它们通常被多数类的例子所压倒。降低这样的分类(1, 2)的性能是最主要的问

3、题。它也被认为是数据挖掘研究3 中的 10 个具有挑战性的问题之一。研究人员已经推出了许多技术来处理类不平衡,如总结1和2 。他们大多集中在数据层面对操纵 (重采样的方法) ,数据层如4,5,6 ,7 ,8,9,10 中和分类层(内部改变分类器) ,例如在11,12,13 ,14,15,16 ,17 ,18中。一个相关的问题是成本敏感型的学习(CSL) 。过去,有不少出版物已将 CSL 应用于决策树 (19, 20,21 , 22)或朴素贝叶斯(23,24 ) 。此外,为了理解类失衡如何影响 CSL,一些作者 CSL( 21,25)申请时,分析分类器的行为(例如 C4.5 算法) 。以前的作品

4、还将在数据层的操作与分类层的修改(26, 27,28)结合起来。虽然许多论文已经写了类不平衡问题,他们大多集中于两种重采样技术或 CSL。我们的贡献包括同时利用重采样技术和 CSL 两种方法。第一种方法中将几种采样技术与使用 SVM 作为基础分类 CSL 进行了结合与比较。具体而言,在组合的第一步骤中,我们通过使用一些重采样技术,如TLINK, RUS,ROS,SMOTE (我们将在下一节中解释这些方法)重新平衡数据集,下一步,我们训练有素的 SVM 模型对这些数据集重新平衡。一步,我们训练 SVM 模型在数据集重新平衡。SVM 的产出由 S 型函数进行拟合,依赖于由普拉特29得到的概率的方法

5、。最后,使用贝叶斯风险(有条件的风险)标准得到最低预期成本的最终的模型。CSL 的第二种方法不是假设,我们知道在第一方法中学习前的成本比(或成本矩阵)和以往其他工作(30,21,25 )或设置的成本比通过对以往类分类的反转,我们把这978-1-4244-8126-2/10/$26.00 2010 IEEE个数字视为一个超参数,优化本地,然后训练的最终模型。我们的实验关于来自 UCI 的 18不平衡数据集表明这些方法是有用的。第一种方法有助于减少误分类成本而第二个方法有助于改善分类器的性能(例如 GMean 度量) 。剩下的纸张安排如下:第二部分介绍了一些相关的工作;在第三部分中,我们总结了一些

6、通常是用来处理类失衡问题常见的技术;第四部分介绍了所提出的方法; 第五部分介绍了数据集;第六节显示了实验结果 ;最后,第七节是结论。2、相关工作已被引入许多采样技术包括启发式或非启发式过采样(4,5 ) , 欠采样(6,7 ) ,和数据清洗规则,如消除“噪音”和“边缘”的例子(8910) 。这些工作重点在于数据层技术。其他研究人员集中于改变内部的分类,例如支持向量机,来处理类的不平衡,例如11,12,13;14 采用集成学习来处理类的不平衡,而15 欠采样与集成方法结合起来;16着重于将不同的再平衡启发式算法合并进 SVM 来解决不平衡类问题,而17和18 ,将SVM 纳入增升的方法。在 CS

7、L,20介绍一个实例-用加权的方法诱发成本敏感的树;另外两种方法调查带有决定树的 CSL (22, 23),而24介绍了朴素贝叶斯的 CSL。这些研究引入了确定未知属性如何选择进行测试的测试方案,为了尽量减少误分类成本和测试成本的总和。此外,第一26应用少数合成过采样技术(SMOTE4 )以平衡数据集,然后使用不同成本的 SVM 建立的模型被提出13;2728应用一些常见的分类器(例如 C4.5,logistic回归,贝氏机率)与采样技术,如随机欠采样,随机过采样, 简明最近邻规则8,威尔逊的编辑最近邻规则10,特梅克的链接9,和 SMOTE。不同与文献,不是只专注于数据采样或 CSL, 我们

8、建议使用这两种技术。此外,我们不承担固定成本比,既没有通过反转先验分布的少数和多数类之间比例设置成本比,相反,我们在本地优化成本比。3、处理类失衡为了处理不平衡数据集,研究人员常常集中于数据层和分类层(1,2 ) 。在数据层,共同的任务是类别分配的修改。在分类级别许多技术被引入,如内部操纵分类器,一个类的学习,集成学习,和 CSL。A.修改类的分类随机过采样(ROS)是一个 用于平衡类分配非启发式的方法1,通过随机复制少数类的例子,而随机欠采样(RUS )随机地省去了多数类的例子。简明最近邻规则(CNN)8是用来寻找一致的例子的子集。如果使用 1 近邻分类一个子集 与 是一致的, 在 E 中正

9、确分类的例子。E978-1-4244-8126-2/10/$26.00 2010 IEEE威尔逊的编辑最近邻规则(ENN)10 删除任何一类标签实例不同于三个最近邻中的至少两个类。特梅克链接(TLINK)9是一种用于清洗数据的方法。给出两个属于不同类的两个例子 , 是 和 的距离。若没有例子 如iej)( jie,dij le一对 被称作 TLINK。如果),(ji有一个 2 个例子之间的 TLINK,然后其中之一是噪声或它们两者都是边界线的例子。我们要使用 TLINK 作为欠采样方法,那么仅有的大部分例子都被删除。单面选择(OSS)33 是一个首先套用 CNN 找到一个相一致的子集的欠采样的

10、方法,然后 TLINK 去除噪声和边缘的例子。人造少数过采样技术(SMOTE)是一个通过 4产生一个新的人造少数例子来介绍过采样的方法,通过在少数例子之间插值。此方法首先在近邻各少数民族的例子中查找 k;接下来,它会随机选择一个最近的邻居。然后创建一个新的少数类样本沿着线段加入少数类样本和其最近的邻居。B、成本敏感性学习 (CSL)大多数分类器假定的误分类成本(假阴性和假阳性的成本)是相同的。在大多数现实世界的应用中,这种假设是不正确的。例如, 在客户关系管理, 邮寄给买家的费用低于成本不邮寄给购房者19; 或误判非恐怖恐怖的成本远远低于实际恐怖分子携带炸弹飞行误判的成本。另一个例子是癌症诊断

11、:比误判误报严重得多,因为由于晚的诊断和治疗34癌症患者可能会失去他们的生命。成本不一定是金钱,例如它可以是一个时间的浪费或严重程度的病症30 。本研究着重于二元分类问题;我们将表示阳性类(+或+1)作为少数, 和阴性类(或1)作为大多数。设 是成本预测的例子属于 i 类的时候,其实它属于 j 类;成本矩),(jic阵被定义于表。给定的成本矩阵,如示例 x 可以被分类为类别 i 的预期成本最小,通过使用贝叶斯风险准则:(有条件的风险):978-1-4244-8126-2/10/$26.00 2010 IEEE其中,P(j|x)是 x 作为 j 类分类例子的后验概率。假设我们没有正确分类的成本,

12、所以说成本矩阵可由成本比描述:CSL 的目的是建立一个模型,具有最小的误分类成本(总成本):FN 和 FP数量分别为假阴性和假阳性的例子。4、推荐的方法建议的方法在 4 小节中描述:我们使用支持向量机(SVM)作为基础分类。使用网格搜索,以确定最佳的超 SVM 和的 esampling 技术。方法 1: 采样技术与 CSL 的组合,称为 S-CSL。方法 2:通过优化本地成本比 使用 CSL,称作 CSL-OCRL。A、支持向量机(SVM)由 n 个例子(xi; yi )给定的数据集 ,其中 是输入功能和、 是目标类、Xxiiy。SVM 预测一个新的例子 x 通过1,iy其中 是一个核心函数,

13、b 是偏置,i 被确定用来解决拉格朗日优化问题,),(ixk这里 是一个差额变数, 是拉格朗日乘数, 是用户指定的超参数来表示误分类训iiC练例子的惩罚。对于非线形问题,核 k 用来最大限度地提高利润率分类超平面。两种常用的核函数有多项式核978-1-4244-8126-2/10/$26.00 2010 IEEE和径向基函数的内核B.超参数搜索我们已搜索的最佳超参数 C,指数 p,在方程(5) , (6) , (7) 。首先, “原始搜索”两个权力是用来识别一个很好的区域,然后“顺利搜索”围绕该地区进行35。图 1 描述了该方法的细节。此外,每个数据集有其自身的结构,所以欠采样和过采样的百分比

14、也不同。这些百分比也被视为超参数。对于过采样,我们搜索的百分比从 50,100,150两个类之间的均衡分布。 同样,对于欠采样,我们还可以搜索的百分比从 10,20,30均衡分布。图 1 超参数搜索优化度量 E 的一步是 C 值和一步是 RBF 内核价值C.方法 1:结合采样与 CSL( S-CSL)我们将 4 种重采样技术与使用标准的 的 CSL 结合起来。这些技术包括非启发1sSVM978-1-4244-8126-2/10/$26.00 2010 IEEE式(RUS ,ROS)和启发式欠 -过采样(TLINK,SMOTE) 。在第一步骤中, 我们把原始数据集分为两个独立的训练集和测试集;然

15、后,不同的采样百分比 的 4 种采样技术被应用在训练上产生新的分布;接下来,我们进行新的培训集超参数搜索(见图 1) ,就总成本(TC )而言,以确定最佳的参数;在下一步,支持向量机是基于最佳超参数发现的。支持向量机的输出均设有了 S 型函数 以得到后验概率;最2后,我们在测试集使用贝叶斯风险标准来预测新的例子。详细描述在图 2 中,平均 5 倍交叉验证结果。大多数数据集不具有的成本比, 所以我们假设成本比率来自于集合 ,报告的最终结果的平均值为这些比率的误分类成本。这也可以在其他许多研究(30,21 ,25) 。1、我们已经使用 Weka 中的 SMO,http:/www.cs.waikato.ac.nz/ml/weka/2、S 型函数有 2 个参数: 和 这些值可以是通过使用最大似然法29,但对于直接的确定,我们将它们设置为 1图 2、抽样与 CSL(CSL )的组合D.方法 2:CSL 通过优化本地成本比在 S-CSL 方法中,我们假设未知的成本比率。我们尝试了不同的成本比率和平均的结果。在本节中,我们将介绍一种方法,为分类提供最佳的成本比。在以前的作品中,成本978-1-4244-8126-2/10/$26.00 2010 IEEE比率由先验分布(7,31 )反相,例如,成本比= 大多数例子 =少数例子。这种选择导致柯尔莫哥洛夫

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 教育/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号