基于决策树与logistic回归的p2p网贷平台信用风险评价比较分析

上传人:小** 文档编号:34121222 上传时间:2018-02-21 格式:DOC 页数:7 大小:99.50KB
返回 下载 相关 举报
基于决策树与logistic回归的p2p网贷平台信用风险评价比较分析_第1页
第1页 / 共7页
基于决策树与logistic回归的p2p网贷平台信用风险评价比较分析_第2页
第2页 / 共7页
基于决策树与logistic回归的p2p网贷平台信用风险评价比较分析_第3页
第3页 / 共7页
基于决策树与logistic回归的p2p网贷平台信用风险评价比较分析_第4页
第4页 / 共7页
基于决策树与logistic回归的p2p网贷平台信用风险评价比较分析_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《基于决策树与logistic回归的p2p网贷平台信用风险评价比较分析》由会员分享,可在线阅读,更多相关《基于决策树与logistic回归的p2p网贷平台信用风险评价比较分析(7页珍藏版)》请在金锄头文库上搜索。

1、基于决策树与 Logistic 回归的 P2P 网贷平台信用风险评价比较分析 余华银 雷雅慧 安徽财经大学统计与数学学院 摘 要: P2P 网贷行业在中国发展迅速, 其背后的风险不容忽视。文章旨在研究 P2P 网贷平台存在的信用风险, 参考银行对中小企业的信用风险评价方法以及国内相关文献的评价指标, 构建了 P2P 网贷平台信用风险评价指标体系。运用两种决策树模型和 Logistic 回归对 529 家网贷平台进行了实证分析, 建立了网贷平台的信用风险评价模型。结果表明, 3 种模型都具有较好的信用风险预测能力, 其中决策树的预测能力更优, 具有更好的应用前景。关键词: P2P 网贷平台; 决

2、策树; Logistic; 信用风险; 作者简介:余华银 (1962-) , 男, 安徽全椒人, 教授, 主要从事金融与投资统计研究。收稿日期:2017-07-11基金:安徽省哲学社会科学规划项目 (AHSKY2015D53) Comparative Analysis on Credit Risk Evaluation of P2P Network Loan Platform Based on Decision Tree and Logistic RegressionYU Huayin LEI Yahui Institute of Statistics and Applied Mathemat

3、ics, Anhui Finance and Economics University; Abstract: P2P network loan industry grows rapidly in China, and the credit risk problems of the platform are increasingly apparent. This paper aims to explore the credit risk problems of P2 P network loan platform, and constructs an evaluation index syste

4、m by drawing references from banks credit risk evaluation on small and middlesized enterprises and evaluation indexes in domestic related literature. Empirical analysis on 529 network loan platforms is made by using the two decision tree models and Logistic regression and the credit risk model is es

5、tablished.The results show that the three models have strong ability to predict credit risks, and among which the effect of decision tree is superior, having better application prospect.Keyword: P2P network loan platform; decision tree; Logistic; credit risk; Received: 2017-07-11长期以来, 我国中小企业和个人贷款难度高

6、、大众小额理财的需求量大, 在这种背景下, 近年来 P2P 网贷的优势日益突出, 在国内得到了迅速发展。P2P 网贷融入互联网技术, 给民间借贷带来了新思维, 受到了借贷双方的普遍欢迎, 成为互联网金融领域的代表模式之一。然而, 我国投资者普遍风险意识较弱、投资缺乏理性, 很容易被网贷华丽的“包装”所迷惑。近些年, P2P 在国内日益蓬勃发展, 看似欣欣向荣的表象下, 其潜在的风险也日益显现。2016 年, 全年出现因经营不善、携款跑路、黑客攻击等原因使网站无法正常运营而停业的平台就有一千余家。可见, 平台的信用风险是投资者甄选平台的重要依据, 因此, 选用恰当的方法对平台进行信用风险评价是网

7、贷领域研究的焦点。国内外学者以网贷平台真实数据为基础, 对信用风险领域展开了研究。孙同阳和谢朝阳从网贷个人信用风险角度, 运用决策树模型进行实证分析, 发现网贷平台对个人信用风险评级方面存在严重问题1。王丹和张洪潮参考了传统金融机构对小微企业信用评价方法, 运用 AHP 和模糊数学综合评价法对网贷平台进行了信用评级2。严复雷和李浩然利用 Logit 模型对 87 家网贷平台进行回归分析, 得出了对网贷平台信用风险有着重要影响的指标3。潘爽和魏建国运用信号传递模型探索了分散网贷平台信用风险的有效方式4。董梁和胡明雅对新进的借款人进行研究, 以借款人年龄、借款用途、收入等指标为依据, 运用Logi

8、stic 回归模型建立了信用风险评价模型。实证分析结果表明, 扩大评价指标类型和加大对平台的审核力度是防范借款人信用风险的有效方法5。Laura等人对 P2P 借款者在贷款时的描述性语言展开了研究, 并使用 LI-WC 软件对 20万余个借款请求进行了分析。借款请求中, 借款者使用具体的描述性语言和定量的词汇更容易借到贷款;而借款请求中使用个性化描述语言的借款者较难借到贷款。Chen 和 Han 认为, 中国和美国两个国家信贷结果的影响因素存在差异, 美国影响因素侧重于“硬”信息, 而“软”信息在中国更为可靠。本文以 P2P网贷平台信用风险评价为出发点, 比较不同的分类模型在信用风险评价应用中

9、的优劣, 以期为评价我国 P2P 网贷平台信用风险提供理论支持。1 理论基础1.1 决策树模型决策树的外形呈树状结构, 是利用样本数据的属性进行分类的方法。决策树算法有众多思想来源, 其中, Quinlan 于 1986 年率先发明了 ID3 算法, 之后在ID3 算法的基础上分别于 1984 年和 1993 年衍生出 C4.5 算法和 CART 算法。文章选取 C4.5 算法和 CART 算法对样本数据进行分类。CART 的基本算法如下:(1) 输入训练样本集 T, 根据样本节点对 B=b 的判断为“yes”或“no”, 将训练样本集分为 T1和 T2, 运用 Gini 系数的定义式, 计算

10、 B=b 时的 Gini 系数。(2) 选取 Gini 系数最小的特征和其对应的分割点, 分别作为最优特征和最优分割点。根据样本数据集中的最优属性特征与最优分割点, 在现有的结点中生成两个子节点, 将训练样本数据集依照属性特征分配到两个新的子节点中。(3) 对于上述两个新的子节点, 递归调用 1, 2 两个步骤, 满足条件后停止计算, 最终生成 CART 决策树。其中, 基尼指数定义为: , k 为输出样本的类别, p k是样本输出变量属于第 k 类的概率。从上式可以看出, 当样本的输出变量都属于同一类别时, 基尼指数的值最小。C4.5 的基本算法如下:(1) 输入训练样本数据集 T、阈值 和

11、特征集 B。若训练样本数据 T 中所有样本都属于同一个类别, 则决策树 F 生成为单个节点的决策树, 返回决策树 F。(2) 若 B 为空集, 则 F 为单个节点的决策树, 返回 F;若 B 为非空集, 则计算特征集 B 中的特征对 T 的信息增益比 , 选择 最大的特征 Bg。(3) 若 Bg 的信息增益比比 小, 那么 F 为单个节点的树, 把 T 中样本数最多的类作为节点的类。否则, 对与 Bg 的所有可能值 bi, 根据 Bg=bi 的原则将 F分成若干个非空子集 Ti, 对 Ti 中样本数最多的类做标记, 生成子节点, 构建决策树 F, 返回 F。(4) 递归调用 (1) (3) 步

12、骤, 对于第 i 个节点, 特征集为 B-Bg, 训练集为 Ti, 生成子树 Fi, 返回 Fi。1.2 Logistic 回归模型当解释变量的取值只有 0 或 1 时, 回归分析时常常选用二项 logistic 回归模型, 二项 logistic 是一种广义线性模型的具体形式。用 logit 函数表示一个事件发生的概率与不发生概率之间的比值, 也称事件发生的几率。假设事件发生的概率是 p, 则事件发生的几率可表示为 , 则 logit 函数为:。对于logistic 回归而言, , 从上式可以看出, 输出变量 Y=1 的对数几率是输入变量 x 的线性函数。可以将线性函数 ax 转换为概率:

13、。此时, 线性函数的值越趋近于负无穷, 概率的值就越趋近于 0;反之, 线性函数的值越趋近于正无穷, 概率的值就越趋近于 1。2 P2P 网贷平台信用风险评价实证分析2.1 数据来源与处理本文用于实证分析的数据来源于国泰安数据库, 选取 2015 年 12 月至 2016 年12 月数据相对完整的 529 家网贷平台数据。将获得的样本数据分为两个类别, 分别为高风险平台和低风险平台。将出现跑路、停业、提现困难等问题的平台归为一类, 即高风险平台;将截至 2017 年 1 月尚未出现问题的平台归为一类, 即低风险平台。若评价结果将高风险平台归为低风险平台, 则认为结果存在第一类错误;若评价结果将

14、低风险平台归为高风险平台, 则认为结果存在第二类错误。样本数据中有 55 家网贷平台被定义为高风险平台, 474 家网贷平台被定义为低风险平台。其中, 高风险平台仅占样本总数的 10%, 存在严重的样本不平衡的问题。因此, 在将样本数据代入模型运算前, 使用 SMOTE 算法平衡样本数据, 经过平衡的样本数据总数为 886, 高风险平台与低风险平台占总平台数量的比例大致相同。2.2 指标体系现阶段, 网贷平台的信用评价没有统一的指标体系, 相关文献不全, 评级难度较大。因此, 笔者借鉴了银行对中小企业的信用风险评价方法以及国内相关文献的评价指标, 基于前人的研究经验, 从经营能力、发展前景、平

15、台素质、盈利能力 4 个方面构建了 P2P 网贷平台信用风险评级指标体系。(1) 经营能力指标。判断平台的各类资产是否能够快速变现的能力, 运营能力越好, 平台资金的流动性越强, 风险越低。平台若不能快速得到足够的资金以支付投资者的本息, 资金链一旦断裂, 会出现严重的“挤兑”现象。选择未来60 日待还金额 (X1) 、日均投资人数 (X2) 、日均借款人数 (X3) 对网贷平台的经营能力进行衡量。(2) 发展前景指标。平台的发展能力值得关注, 该项指标越大, 说明平台的潜力越大, 发展前景越广, 在未来的同类行业竞争中优势会更多, 相应的信用风险也更小。衡量平台发展前景的指标有日均成交量 (

16、X4) 、平均借款期限 (X5) 、平均利率 (X6) 。(3) 偿债能力指标。平台的偿债能力是平台信用的保障, 平台的偿债能力通常是直接反映平台资信的依据, 偿债能力也是平台实力的体现。选择注册资金 (X7) 、保障方式 (X8) 、债权转让 (X9) 来衡量平台的偿债能力。(4) 盈利能力指标。该项指标主要衡量平台的获利情况, 获利能力是平台信用的基础。由于平台具体的获利数据很难获得, 可以用平台近 30 日资金净流入 (X10) 、累计待还金额 (X11) 、营业时间 (X12) 来衡量网贷平台的盈利能力。2.3 模型构建将样本数据经过预处理后, 代入到 3 个模型中分别进行运算。同时, 使用 10 折交叉验证的方法, 分别计算决策树模型和 logistic 回归在训练集和测试集上的第一类错误率、第二类错误率和平均分类错误率。其中, 生成的决策树如图 1所示。图 1 基于 CART 算法的决策树模型 下载原图CP 值为 0.011 的 CART 算法的决策树如图 1 所示, 其中,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号