银行客户分类问题

上传人:ji****72 文档编号:35822509 上传时间:2018-03-21 格式:DOCX 页数:17 大小:553.09KB
返回 下载 相关 举报
银行客户分类问题_第1页
第1页 / 共17页
银行客户分类问题_第2页
第2页 / 共17页
银行客户分类问题_第3页
第3页 / 共17页
银行客户分类问题_第4页
第4页 / 共17页
银行客户分类问题_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《银行客户分类问题》由会员分享,可在线阅读,更多相关《银行客户分类问题(17页珍藏版)》请在金锄头文库上搜索。

1、西北大学研究生数学建模竞赛西北大学研究生数学建模竞赛承承 诺诺 书书我们仔细阅读了西北大学研究生数学建模竞赛的竞赛规则与赛场纪律。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们参赛的题目是(从 A、B、C、D 中选择一项填写): B 参赛队编号为:

2、 1069732 所属院系(请填写完整的全名): 数学学院 参赛队员 (打印并签名) :1. 2. 3. 日期: 2015 年 5 月 4 日评阅编号(由校组委会评阅前进行编号):西北大学研究生数学建模竞赛西北大学研究生数学建模竞赛编号专用页编号专用页评阅编号(由校组委会评阅前进行编号):评阅记录:评 阅 人评分备注评奖结果:1银行信贷业务问题摘要随着经济的快速发展,银行越来越重视客户的分类,对于银行来说,一个 新客户的到来,银行应该针对该客户的信息,判断客户可能的类别,然后采用 针对性较强的销售策略,以获得最高的效益。 本文就是一个典型的银行客户分类问题,第一问我们运用支持向量机模型 把银行

3、客户分成有贷款和无贷款的,把附件 bank1 中的数据作为训练集,将其 中的客户资料进行量化,构造出分类函数,把)sgn()(sgn()(bwxxgxfy数据带进去当时此客户为有贷款的,当时此客户是无贷款的,运用1y1y 支持向量机计算出参数和,再从附件 bank-full 中随机抽取 10%的数据作为wb 检测集进行检验得到准确率为 97.1688%。 第二问我们构造决策树模型对有贷款和无贷款的客户进行细分,我们把附 件 bank1 中数据分为有贷款和无贷款的,分别建立决策树。我们只选取年龄、工 作、婚姻状况、教育程度、信贷违约、年平均余额这六个属性,把是否信贷违 约看做分类标识,先对数据进

4、行量化分类,再分别算出它们的信息增益,根据 算出的信息增益值的大小,对属性进行排序确定叶节点画出决策树,把决策树 的每一个从根到叶节点的路径作为一个分类,由此我们把有贷款的无贷款的都 细分为六类。 第三问分为两小问来解答:(1)判断此客户是否可能购买贷款产品,我们 任意给出一个客户资料,把客户资料量化后代入第一问中的模型得出1y,因 此我们判断此客户有可能购买贷款产品。 (2)建议其购买哪种贷款产品,我们 再把客户资料代入第二问中的模型判断出此客户属于有贷款中的第二类,由每 类客户的购买建议,我们推荐他购买短期的担保贷款。关键词:分类问题 支持向量机 决策树 信息增益2一、问题的重述近年来以来

5、,我国经济获得了快速增长,银行的信贷资本在其中发挥了极其 重要的作用,银行信贷业务的发展是当前扩大我国国内需求与促进经济增长的 重要途径之一。银行信贷业务是银行最基本、最重要的资产业务,通过发放银 行贷款收回本金和利息,扣除成本后获得利润。一般来说,银行信贷业务是银 行赢利的重要手段,所以很多银行都推出了很多新的业务来满足更多人士的贷 款需求。从银行信贷业务的分类来说,可以分为法人信贷业务、个人信贷业务。 其中法人信贷业务包括项目贷款、流动资金贷款、小企业贷款、房地产企业贷 款等;个人信贷业务包括个人住房贷款、个人消费贷款、个人经营贷款等。 银行信贷业务同时也是风险性较大的一种业务。按照贷款期

6、限来说,银行 信贷业务分为短期贷款,即一年以内;中期贷款,即一年以上五年以下;长期 贷款,五年以上等三种类型。按保障条件来分,银行信贷业务可以分为信用贷 款、担保贷款和票据贴现等三个类别。 某银行为了对客户提供更好的信贷服务,对信用卡客户进行了详细的分析 和调查。调查主题是对某种家庭和个人背景的用户成为银行信贷的潜在客户的 可能性进行分析与判断。请考虑以下问题:(1)建立能够描述有贷款和无贷款的客户的基本背景数据模型;(2)对有贷款和无贷款的客户群进行细分建模;(3)给定一个客户的背景,判断其是否可能购买贷款产品,如果可能的话 建议其购买哪种贷款产品。二、 问题的分析本题是一个比较典型的分类问

7、题。 问题一是建立能够描述有贷款和无贷款的客户的基本背景数据模型。对于 这个问题,我们要先建立一个二分类模型,把有贷款和无贷款的客户资料分开, 在这里我们用支持向量机来解决这个二分类问题,建立一个基于支持向量机的 银行客户分类模型,由于不能确定它是否是线性可分的,而线性可分是线性不 可分的一种特殊情况,因此我们把它看做是线性不可分的来处理,即把它看做 是非线性的来处理。用附件 bank1 中的数据作成的训练集来求解模型,再从 bank-full 中随机选取 10%的数据作为检测集来验证模型是否合理。 问题二是在问题一的基础上对有贷款和无贷款的客户再进行细分建模,这 不在是一个二分类问题,而是一

8、个多分类问题,因此我们在此问中采取决策树 模型,先根据信息增益分别对有贷款和无贷款的客户资料做出决策树,在对决 策树进行调整,得到一个合理的决策树,将每一个决策树的路径作为一个分类, 从而达到对有贷款和无贷款的客户群进行细分的目的。 问题三是给定一个客户的背景,判断其是否可能购买贷款产品,如果可能 的话建议其购买哪种贷款产品。在这一问中我们把它分成两小问来处理:(1) 给定一个客户的背景,判断其是否可能购买贷款产品,给定一个客户资料把它 带入第一问建立的模型中得出它是否会购买贷款。 (2)我们先把第二问中得到3的有贷款的客户细分类进行贷款产品的配对,再把此客户的背景资料带入第二 问建立的模型中

9、看他是出于哪一类的,给出相应的产品推荐。3、符号的说明: 附件 bank1 中的数据作成的训练集,T :由年龄、工作、婚姻状况、教育程度、信贷违约、年平均余额 6 个属性组ix成的向量, :分类标记,iy:原训练集转化为 Hilbert 空间 H 中的新训练集,TT :由映射到 Hilbert 空间 H 中的向量,ixix :Hilbert 空间 H 中超平面,( )g x :样本点,iD :分类函数,( )f x:样本点到超平面的间隔,i,iiiDx y( )g x: 样本点到超平面的距离,即几何间隔,i :松弛变量,iC:惩罚参数, :拉格朗日乘子,i:分类后的训练集,S :样本分类所需的

10、期望信息,),.,(21nsssI :的信息熵,)(AEA :A的信息增益。)(AGain四、模型假设1、本模型只考虑年龄、工作、婚姻状况、受教育程度、信贷违约、年平均余额, 不考虑其他因素。 2、只要有房贷或个人贷款中的一样,我们就认为他是有贷款的。 3、不考虑经济波动对本数据的影响。 4、不考虑属性间的相互影响。五、模型的建立与求解5.1 问题一 5.1.1 模型的建立本问题采用支持向量机1来进行二分类,由于这个二分类问题究竟是否是 线性可分的尚不能定论,因此不能简单的认为它是线性可分的而作简单化处理, 而线性可分是线性不可分的一种特殊情况,故在得出结论前,我们把它看做是 线性不可分的来处

11、理,即非线性的情况。我们解决线性不可分问题的基本思路向高维空间转化,使其变得线性 可分。因此我们先把低维的线性不可分的情况转化为高维线性可分的情况,再4来建立线性可分的支持向量机模型67。 我们把附件 bank1 中的数据作为训练集,则训练集 T 为, 1122,.,m mmTx yxyxyXY其中=(年龄,工作,婚姻状况,教育程度,信贷违约,年平均余额),称为ix6XRX输入空间,输入空间中的每一个点由 6 个属性特征组成,ix1,1iyY 为分类标记,为训练集的数据的个数。iy1,2.imm我们在解决非线性的情况时引入从输入空间到另一个高维的 Hilbert 空间X H 的变化,将原输入空

12、间的训练集( )xxX 1122,.,m mmTx yxyxyXY转化为 Hilbert 空间 H 中的新的训练集, 11221122,.,( ),(),.,(),mmmmTx yxyxyxyxyxy它在 Hilbert 空间 H 中线性可分。 下面我们在 Hilbert 空间 H 中建立线性可分的支持向量机模型4。 我们的目的是要找到一个超平面,能把数据分到超平面的两( )g xwxb 边,其中是一个向量, 是一个实数,构造分类函数wb ,( )sgn( ( )yf xg x 将任意一个模式带进去即可得到分类。下面我们只需要求得参数和,满xwb 足 当=1 时,;iy1iwxb当=-1 时,

13、iy1iwxb 但实际上只需要求,求得以后找某些样本点代入就可以求得。wb我们定义一个样本点到超平面的间隔为,将,iiiDx y()1iiiy wxb和归一化可得wb,1( )iig xw这是样本点到超平面的距离,称为几何间隔。而误差次数,其中是样本集合到分类面的几何间隔,22()r ,即 r 是所有样本中向量长度最长的值,是一个定值。由max,1,2.irxim此可以看出误差次数是由决定的,越大误差越小。要寻找最大的,我们 固定间隔为 1,寻找最小的,我们把它转化为一个二次规划问题最小iw化。21( )2J ww即,最小化21( )2J wws.t ()1,1,2,.iiy wxbim我们将

14、原训练集映射到更高维的训练集时,样本点有可能以下三种情况:iD5(1) 各样本点分类正确。 (2) 落在分离段内,且正确分类即满足不等式。0()1iiy wxb(3) 错误分类,即满足不等式。()0iiy wxb为此,我们将引进一个新的变量,将上述三种情况归为同一约束条件,0i即 ,()1iiiy wxb 第一种对应=0,第二种对应 01,变量称为松弛变量。iiii则原来的优化问题就变成了211min ( )2mi iJ wwCs.t ,()1,1,2,.iiiy wxbim ,0,1,2,.iim其中 C0 为惩罚参数是一个常量,C 决定了你有多重视离群点带来的损失,C 定 的值越大,对目标函数的损失也越大。可以给每一个离群点都使用不同的 C, 这时就意味着你对每个样本的重视程度都不一样。 这就变成了凸规划问题,引入拉格朗日函数表示为,21111( , , , , )() 12mmmiiiiiii iiiL w bwCy wxb 对应的 KKT 条件为10miii iLwy xw100mii iLyb00ii iLC () 10iiiiy wxb 0ii0,0,1,2,.,iiim将上述的条件带入拉格朗日函数成为 wolfe 双重优化任务得1111max(,)2mmmiijijij iij

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号