bp神经网络的代价敏感学习算法研究

资源描述

《bp神经网络的代价敏感学习算法研究》由会员分享，可在线阅读，更多相关《bp神经网络的代价敏感学习算法研究（51页珍藏版）》请在金锄头文库上搜索。

1、华中科技大学硕士学位论文 BP神经网络的代价敏感学习算法研究姓名：李祖定申请学位级别：硕士专业：计算机应用技术指导教师：马光志 20090528 华中科技大学硕士学位论文华中科技大学硕士学位论文 I 摘摘要要误差反向传播神经网络(BPNN)具有很强的鲁棒性和容错性，作为分类模型在医学辅助诊断中得到广泛的应用。但是，BPNN是一种代价不敏感的分类模型。一种类别误分为另一种类别的代价可能极其不同，若直接将传统BPNN应用到医学辅助诊断等代价敏感的领域，当误分类或误诊时有可能付出惨重的治疗代价。将传统的BPNN改造为代价敏感的有多

2、种途径，最吸引人的途径是把其分类误差函数改变为代价敏感的，使其通过原始样本集和代价敏感矩阵能够学习误分类代价。分析了先前提出的代价敏感的BPNN构造方法，指出此前提出的基于最小误分类代的方法在分类精度方面的不足。考虑到当网络正确分类时，如果向BPNN反馈分类代价，会降低BPNN对当前事例的分类精度。针对上述不足，提出了以期望误分类代价函数作为代价敏感BPNN的分类误差函数，并推导了误分类代价反向传播调整学习参数公式，得到一个新的代价敏感BP神经网络学习算法。为了验证算法，开发了基于.NET的实验平台。以交互式方式实现了异构数据的获取、数据预处理和数据降维等操作，可视化地显

3、示代价敏感的BPNN的学习过程和学习结果。使用美国加州大学欧文分校(UCI)的8个公共数据集和2个真实医学数据集，与前人的代价敏感BPNN学习算法进行了比较。实验证明提出的新算法在期望误分类代价、反馈率、准确度、F-测度和代价曲线等评价指标下都有较好的表现。关键词：关键词：反向传播神经网络，代价敏感，期望误分类代价华中科技大学硕士学位论文华中科技大学硕士学位论文 II Abstract For good robustness and error-tolerance of error back-propagation neural net

4、work (BPNN), it has been used widely as classification model in medical diagnosis. However, BPNN is cost-insensitive classifier model, and if the classifier has been used in cost-sensitive fields, such as medical diagnosis, the classifier shall generate mass misclassification cost. One of the most a

5、ttractive approaches to make standard BPNN cost-sensitive is revising its error function so that it can learn misclassification cost through training samples and cost-matrix. We analyze the limitation of Kukars cost-sensitive BPNN algorithm which is based on minimum misclassification cost error func

6、tion. If BPNN correctly make a classification, and any cost except the distance between the real value of case and the output value of neuron have been back-propagated into network, the classifying ability for the class of the BPNN shall be decreased. To overcome the limitation, we propose a new cos

7、t-sensitive BPNN learning algorithm which is based on expected misclassification cost error function. To verify the new algorithm, we design and develop an experimental platform based on .net. The software can interactively read different format data, pre-process data set and decrease the dimension

8、of data set. At the same time, the system can graphically display the learning process of cost-sensitive BP neural network and the results of the network. With eight UCI (University of California Irvine) data sets and two real medical data sets, we do an experiment to compare the new algorithm and t

9、he Kakurs cost sensitive BPNN algorithm. And the experimental results show that the new algorithm have good performance over the Kukars algorithms in following cost-sensitive algorithm evaluators: expectation of misclassification cost, recall, precision, F-measure and cost curve. Keywords: Back Prop

10、agation Neural Network, Cost Sensitive, Expected Misclassification Cost Error 独创性声明独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名：日期：年月日学位论文版权使用授权书学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定

11、，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本论文属于保密，在_年解密后适用本授权书。不保密。 (请在以上方框内打“”) 学位论文作者签名：指导教师签名：日期：年月日日期：年月日华中科技大学硕士学位论文华中科技大学硕士学位论文 1 1 绪绪论论 1.1 本课题背景、目的及意义本课题背景、目的及意义机器学习作为众多学科和应用的支撑技术，得到

12、深入地研究和广泛地应用，取得了令人注目的成就，解决了大量现实的问题。但随着对机器学习研究的深入和其应用领域的不断扩展，大量新问题不断出现，如代价敏感问题。不同于传统的分类模型所追求的低错误率,建立与训练集类分布一致的分类器，代价敏感学习算法的目标是取得最小的分类代价。传统的分类模型，如决策树，BP 神经网络和朴素贝叶斯等，都建立在类与类之间的误分类代价相等这一假设之上。但在很多实际应用中，类与类之间的误分类代价是不相等。如对癌症诊断，将癌症患者诊断为非癌症患者的代价显然要高于将非癌症患者诊断为癌症患者的代价1。显然，传统的分类器无法解决代价敏感的分类问题。从上世纪 90 年代

13、开始学者们对这一问题进行了研究，取得了初步的成就。但很多解决策略广受争议，同时大量的问题还有待研究。如解决类分布不平衡问题中的采样策略，对代价敏感学习算法的评价策略，对多类数据的代价敏感学习等。对上述这些问题进行研究是本课题的目的之一。 BP 神经网络作为机器学习中连接主义的主要代表和重要成就，得到了广泛深入地研究，取得了辉煌的成就。且在很多领域得到了广泛的应用，解决了大量棘手的问题，取得了良好的效果2, 3。但以往的研究主要集中在神经网络的收敛速度，泛化性，可解释性等问题上面，对神经网络的代价敏感问题的研究不多4, 5。而神经网络在以往应用中的优异表现使对其在代价敏感领域的应用

14、也期望颇高。对神经网络的代价敏感学习算法的研究是课题的又一目的。本课题来源于国家高新技术研究计划(863)项目：基于网格的数字化医疗决策支持系统，编号 2006AA02Z347。 1.2 国内外研究概况国内外研究概况代价敏感学习是考虑错分类代价(或者其他代价)的机器学习算法。代价敏感学习与非代价敏感学习的主要差别是它们处理错分类代价的方式和目的不同。前者要考华中科技大学硕士学位论文华中科技大学硕士学位论文 2 虑分类代价，目的是取得较小的分类代价。而后者在学习过程中不考虑错分类代价，其目的是取得分类的高精度。代价敏感学习的目的是为

15、了得到最小期望代价的分类器，其依据是最小条件风险公式： ( | )( | ) ( , ) j R i xP j x C j i (1.1) 其中( | )P j x是事例x属于类j的概率，( , )C j i是把属于类i的事例错分到类j的代价。从统计学的角度来看，代价敏感学习就是要训练能逼近事例代价分布的分类器。传统分类器逼近的分布是事例的类分布，不是代价分布。因此代价敏感学习的任务是：或是设计新的学习算法，使其训练的分类器能够逼近代价分布，或是对传统的分类器学习算法加以改造，使其最终在结果上逼近代价分布。下面从代价敏感学习的基本策略，代价敏感学习的评估方法和BP神经网络的代价敏感学习算法三个方面对课题的研究状况进行综述。 1.2.1 代价敏感学习的基本策略代价敏感学习的基本策略代价敏感算法的主要策略有直接法和元学习法。下面分别叙述。直接法抛开已有的非代价敏感学习算法，重新开发代价敏感的学习算法。其思想是直接把误分类代价引入学习算法并加以利用。典型的代表有：Turney于1995年在其博士论文中提出了ICET算法6，Drummond等7与凌晓峰等8分别于2000年和 2004年提出了代价敏感决策树算法。 ICET算法是遗传算

展开阅读全文