一种基于boosting的集成学习算法在银行个人信用评级中的应用

资源描述

《一种基于boosting的集成学习算法在银行个人信用评级中的应用》由会员分享，可在线阅读，更多相关《一种基于boosting的集成学习算法在银行个人信用评级中的应用（6页珍藏版）》请在金锄头文库上搜索。

1、一种基于 Boosting 的集成学习算法在银行个人信用评级中的应用陈力黄艳莹游德创广东工业大学管理学院摘要：本文针对银行个人信用数据的分类预测问题, 从数据集的特征选择和集成学习两个角度出发, 提出了 PCA-AdaboostLogistic 集成学习算法。在采用Accuracy 和 AUC 作为分类模型评价指标的前提下, 本文选取了源于澳大利亚某银行的个人信贷数据集进行测试。测试结果表明本算法在有效提取关键特征后提高了 Adaboost 的稳定性, 并且在分类准确度上相比单纯使用 Logistic 分类器有不同程度的提高。关键词：信用评级; 主成分分析; Adaboost;

2、逻辑回归; 作者简介：陈力 (1992-) , 男, 湖北孝感人, 广东工业大学管理学院, 硕士研究生, 研究方向为数据分析;作者简介：黄艳莹 (通讯作者) (1994-) , 女, 广东普宁人, 广东工业大学管理学院, 硕士研究生, 研究方向为数据分析;作者简介：游德创 (1992-) , 男, 广东汕头人, 广东工业大学管理学院, 硕士研究生, 研究方向为数据分析。Application on Individual Credit Score for Bank of a Boosting-based Ensemble Learning AlgorithmCHEN Li HUANG Yan-

3、ying YOU De-chuang School of Management, Guangdong University of Technology; Abstract： This paper focused on classification prediction problem of the bank personal credit data, proposed a PCA-Adaboost-Logistic ensemble learning algorithm based on feature selection and ensemble learning. Accuracy and

4、 AUC were used as the classification model evaluation metric under the premise, this paper used the credit data sets from Australian banks to test the proposed algorithm. The results show that the proposed algorithm improves the stability of the Adaboost after extract the key features, and the class

5、ification accuracy is higher than the Logistic classifier.Keyword： credit score; PCA; Adaboost; Logistic Regression; 0 引言1936 年, 费舍尔1提出了统计判别分析的概念, 这是信用评级领域的基础。后来, 大卫杜兰德2在 1941 年运用了几种算法来区分好的贷款和坏的贷款。1980 年, 银行业专家鼓励对信用卡使用信用评级, 这也是首次将信用评级应用到其他产品。托马斯3定义信用评级为认识银行客户的过程, 为了根据一系列预定的标准给他们发放贷款。现在, 许多关于信用评级的研究集

6、中到人工智能技术上, 比如人工神经网络、遗传算法和支持向量机, 这些算法比统计优化方法更能区分客户的好坏。此外, 基于集成学习算法的信用评分模型已经被广大的研究人员所使用, 他们的研究成果已经证实这种模型比单纯的分类算法模型拥有更好的性能。基于以上的研究背景, 本文采取了融合特征选择和集成算法的 PCA-Adaboost-Logistic 集成学习算法来评估银行客户信用等级。本算法首先利用 PCA 对数据集进行特征选择, 然后采用 Adaboost 集成学习框架, 提出基于 Logistic 分类器的 Adaboost 算法, 该算法有效提升了分类模型的学习能力, 在预测银行客户信用等级方面具

7、有良好的性能。1 PCA-Adaboost-Logistic 集成学习算法1.1 PCAPCA, 即 Principal Components Analysis, 也就是主成分分析。PCA 是一种常用的数据分析方法, 它通过线性变换将原始数据变换为一组各维度线性无关的表示, 可用于提取数据的主要特征分量, 常用于高维数据的降维。1.2 Adaboost-Logistic 分类算法1.2.1 Adaboost 算法Boosting, 也称为增强学习或提升法, 是一种重要的集成学习技术, 能够将预测精度仅比随机猜测度略高的弱分类器增强为预测精度高的强分类器。Adaboost 正是其中最成功的代表,

8、其被评为数据挖掘十大算法之一4。该算法是一种迭代算法, 是由 Schapire 和 Freund 在 1995 年共同提出的567。Adaboost 算法的基本思想是:开始时, 每个样本对应的权重是相同的, 即其中m 为样本个数, 那么每个训练样本的初始权重都是 1/m, 在此样本分布下训练出一弱分类器。基本规则是对训练失败的样本赋予较大的权重, 这样下次迭代时分类器将重点学习那些失败的样本, 而对于分类正确的样本, 降低其权重, 从而得到一个新的样本分布。在新的样本分布下, 再次对样本进行训练, 得到弱分类器。依次类推, 经过 T 次循环, 得到 T 个弱分类器, 把这 T 个弱分类器按一

9、定的权重叠加起来, 得到最终想要的强分类器。1.2.2 Logistic 回归Logistic 回归, 即 Logistic Rregression。Logistic 回归是概率型非线性回归模型, 是研究二分类观察结果 y 与一些影响因素 (x 1, x2, , xn) 之间关系的一种多变量分析方法。通常的问题是, 研究某些因素条件下某个结果是否发生, 比如本文中根据银行客户的数据信息来评价该客户是“Good (好客户) ”或者“Bad (坏客户) ”。1.3 PCA-Adaboost-Logistic 集成学习算法PCA-Adaboost-Logistic 集成学习算法首先采取 PCA 进行

10、特征选择, 之后用经特征选择的数据来训练模型, 然后通过模型对测试数据集进行分类, 得到分类结果, 并且计算出模型预测的精度和 AUC 值。PCA-Adaboost-Logistic 集成学习算法的具体流程如表 1 所示。表 1 PCA-Adaboost-Logistic 集成学习算法流程表下载原表 2 数据准备和模型评估指标2.1 数据集的描述一些来源于现实世界的公共数据集已经非常有名, 而且在学者的文章中都有广泛采用, 这些数据集很容易地可以从 UCI 数据库中获得。本文所使用的个人信贷数据集 Australian 采集于 UCI 数据库、源于澳大利亚某银行。这个数据集的详细特征信息如表

11、 2 所述。表 2 Australian 数据集详细特征信息下载原表 2.2 数据预处理数据集 Australian 共有 690 条记录, 每一条记录有 15 个字段组成。这其中前面 14 个字段是有关银行客户信贷信息的描述, 最后一个字段是银行对客户信用级别的定义, 该字段分为两类, 分别是:“Good (好客户) ”、“Bad (坏客户) ”。以上部分对 Australian 数据集进行了简单的总结分析, 明显发现每个数据集的特征属性都比较多。然而, 这些特征属性对目标属性的影响程度大不相同, 因此使用 PCA 对数据集进行特征选择从而达到降低数据维度的步骤不可或缺。另外, 数据集中的

12、属性的类型各不相同, 有数值型、字符型等, 因此我们将字符型属性对应转换成数值型属性, 这样有利于后文实验的开展。2.3 模型评价指标在传统的分类方法中, 常用准确度 (Accuracy) 作为评价指标。然而, 很多情况下, 仅仅依靠准确度不足以区分分类模型的优劣。所以, 为了让所提出的模型的预测结论可靠, 本文在模型准确度的基础上, 新增 AUC (area under the curve) 作为评估分类模型性能的指标。AUC 就是 ROC (receiver operating characteristic) 曲线下方的面积, 取值在 0.5 到 1 之间。ROC 曲线是一种使用率很高的分

13、类器评价指标, 它是基于混淆矩阵得来的, 表 3 就是一个分类问题的混淆矩阵。表 3 混淆矩阵下载原表根据上面的混淆矩阵, 有以下概念:, 表示预测结果的准确度, 即预测正确的样本数除以总样本数。该指标评价分类器对整个样本的判定能力, 即将正的判定为正, 负的判定为负。ROC 曲线描述分类器的之间的变化关系, 由于 ROC 曲线不能定量评价分类器, 因此人们通常采用 AUC 作为评价指标, AUC 的值越大越好。3 实验设计及结果分析3.1 实验设计为了同时验证本文提出的 PCA-Adaboost-Logistic 算法中 Adaboost 的性能和特征选择的有效性, 实验分别测试了不经

14、过特征提取也不使用 Adaboost 的单纯Logistic 算法、不经过特征提取使用 Adaboost-Logistic 算法、采用特征提取的 PCA-Logistic 算法、采用特征提取的 PCA-Adaboost-Logistic 算法四种算法所得出的 Accuracy 和 AUC。在实验中, 我们采用十字交叉验证 (10-fold crossvalidation) 的测试方法。这种方法的基本思想是把原始数据分成十份, 轮流将其中 9 份作为训练集, 1 份作为测试集。首先用训练集对分类器进行训练, 然后利用测试集来测试训练得到的模型, 最后评价模型的分类性能。在使用十字交叉验证方法时,

15、会得到 10 次模型评价结果, 将这 10 次结果的平均值作为模型最终的评价指标。另外, 试验中集成学习算法 Adaboost 的迭代次数取值 100。表 4 为以上四种算法的 Accuracy 和 AUC 对比情况。表 4 Logistic、Adaboost-Logistic、PCA-Logistic 和 PCA-Adaboost-Logistic 的对比情况下载原表 3.2 结果分析从表 4 可以看出, 单纯使用 Logistic 回归的分类模型在 Accuracy 和 AUC 值上都比其他三种模型低, 这说明单纯的 Logistic 算法的预测精度和稳定性都有很大的改善空间。在使用

16、Logistic 回归的前提下, 加入集成学习算法 Adaboost使得模型的分类精度和稳定性有了显著的提升, 同理, 对数据集进行特征选择后 Logistic 回归算法预测的精度也有了极大的提升, 同时也更加稳定, 这说明数据集的质量对分类模型的影响十分大, 从某种程度上决定了分类模型的性能。而且, 可以很容易地看出, PCA-AdaboostLogistic 算法较前三种算法的性能更加优秀, 这种模型的预测精度和稳定性都表现地很出色。因此基于数据处理的集成学习算法较单纯的分类算法具有更好的性能。4 结论本文提出了 PCA-Adaboost-Logistic 集成学习算法, 该算法首先利用 PCA 对数据进行特征选择, 选取最优特征子集后采用 Adaboost-Logistic 分类算法进行分类。在使用相同组数据集的前提下, 实验使用Logistic、AdaboostLogistic、PCA-Logistic 和 PCA-Adaboost-Logistic 四种分类算法分别

展开阅读全文