基于ERFM及二元logistic商业银行零售客户流失模型探究

资源描述

《基于ERFM及二元logistic商业银行零售客户流失模型探究》由会员分享，可在线阅读，更多相关《基于ERFM及二元logistic商业银行零售客户流失模型探究（11页珍藏版）》请在金锄头文库上搜索。

1、基于ERFM及二元logistic商业银行零售客户流失模型探究摘要：本文利用RFM模型和人口统计变量建立了多维商业银行客户流失预测指标，利用二元logistic模型构建商业银行零售客户流失预警模型，结合案例银行进行了实证研究。结果表明：交易频率、最近交易时间、性别、以及年龄对商业银行零售客户流失具有统计学意义，其中交易频率、最近交易时间影响最为显著。关键词：客户流失扩展RFM模型人口统计变量二元 logistic 模型一、引言随着外资银行的进入以及网上银行和电子金融的发展，银行面临着来自国内外同行业以及非同行业更加激烈的竞争，客户忠诚度越来越低，进而导致客户流失率越来越高。客户

2、流失直接关系到银行的发展前景和市场竞争力的强弱。因此，综合相关因素来分析如何减少客户流失对于银行来说有着重大的意义，直接关系到商业银行在本行业中竞争的优势地位。当前，众多学者对客户流失进行了研究。徐草、李敏(2010)针对移动用户的情况，在传统的贝叶斯分类器的基础上通过模糊算子法，将用户满意度转换成模糊数，再通过相关计算化为精确数，提高了模型预测的正确性。翟顺平、朱美林(2008)利用神经网络错误率低对数据的噪音有很强的承受能力等特点建立起SOM客户流失预测模型，为客户保持提供决策支持。钱苏丽、何建敏、王纯麟(2007)在建立支持向量机模型的客户流失预测模型的时候由于考虑到

3、代价敏感学习理论，并对模型进行改进，改进之后的模型与原来的相比预测的正确性以及稳定性都得到了提高；蒋国瑞、司学峰(2009)通过与传统的SVM和ANN对比分析，最终得出基于代价敏感SVM的电信客户流失预测研究在精确度、命中率、覆盖率上均有所改善，并且解决了数据集的非平衡性的问题，是有效的预测方法。Chih-Fong Tsai, Yu-Hsin Lu(2009)通过合并比较两种不同的神经网络混合模式，对所测试的数据集进行筛选并对模型验证，得出人工神经网络和人工神经网络模型与其他混合模型相比表现出明显的优势。 Cataldo Zuccaro (2010)通过人口统计学特征，比较二元

4、 logistic回归分析、人工神经网络、决策树等方法，分析结构性特征对各种模型的分类以及正确率的影响。本文的目的在于通过分析现有的客户的历史数据，对客户的交易特征和人口统计特征进行分析，并利用数据挖掘技术中logistic 回归分析的方法，通过相关软件预测出流失的群体，从大量的客户数据中找出内在规律性，预测出将来流失的客户，从而根据分析得出的结论，采用针对性的措施针对目标客户进行挽留。二、研究设计（一）变量选取传统的RFM指标体系主要是依据客户的最近交易日、交易频率、交易金额来判断该客户是企业的黄金客户还是潜在客户或是即将流失的客户。RFM模型由于其思想比较简单，又能刻画客

5、户的交易行为，因此很早就在许多公司中获得了应用。但是，理论界对此的关注却大大晚于实务界，直到信息技术的发展使得数据库营销技术得到大力发展的时候，该模型才开始得到广泛的研究和应用。考虑到RFM模型较为简单，本文采用RFM模型并结合人口统计变量作为商业银行客户流失预测指标。样本数据中的因素包括离上次购买的时间间隔、每月的消费金额、购买的次数、是否有小孩、性别、年龄。在模型建立前因变量与各个自变量之间的关系还不确定，所以首先将各个变量都看成是因变量的影响因素，通过软件计算出各变量的偏回归系数，以及显著性检验水平检验剔除那些不符合模型的变量。剔除那些没有统计学意义的变量之后再用逐

6、步回归的方法，得出自变量与因变量之间的关系。例如根据常识，客户去某一银行的频率越多那么他流失的可能性较小；再如客户是否有小孩对客户流失有何影响，假设有小孩的客户他们一般不会轻易地改变，选择某一家银行服务之后长时间内不会改变他们的选择，那他们流失的可能性就比较小。假设的自变量和因变量之间的关系如图（1）所示。其中” +”表示自变量和因变量之间是正相关的关系，“一”则表示因变量和自变量之间是负相关的关系。在上文中，只是各个自变量于因变量之间关系的一种假设，所以相互间的关系仍然存在疑问，其间的关系还有待模型的检验。（二）预测模型构建根据上述原理建立基于ERFM和二元logist

7、ic客户流失预警模型如下根据上文建模的原理，P为客户是否流失的概率的大小，？茁i是各自变量对因变量的回归参数，可以用来判断自变量和因变量之间是正相关还是负相关的关系。Recency：最近购买时间间隔；Amount:交易的金额总数；Frequency：交易频率；Has_Child：是否有小孩，有几个小孩；Gender：性别；Age：年龄。（三）样本选取和数据来源模型建立以及检验中所涉及的数据来自基于多元统计和DM的商业银行客户价值管理体系研究（项目编号：09SJD630006）,客户数据主要包含如下信息：客户身份证号、上次购买的时间间隔、购买的次数、消费总额、性别、年龄、客户

8、的反应。客户的反应（流失）是一个二分类的变量，分别为0和1, 1代表客户未流失，0表示客户流失。样本数据中包括的其他因素用于构建模型，通过模型确定它们各自对客户流失的影响。数据集中一共包括4500个样本数据，删除年龄有缺失的客户数据。符合要求的共有3334个数据，用于模型的建立和检验。其中有2000份数据将用于构建logistic模型，其余的约1334 份数据则会用来检验模型的正确率。三、实证检验（一）描述性统计具体数据描述性统计如表（1）所示。样本中包括3334个数据，其中包括最大值、均值、标准差、偏度等分析。以购买次数（频率）为例：在观察期间内，极差、最小值、最大值分别

9、为99, 2, 101,均值为11. 10,标准差为9. 387,偏度系数和峰度系数分别为11.265, 0. 085, 由此可以得到，所有客户购买次数的平均值为11.10,购买的次数范围在2次至101次之间变动，标准差为9. 387o由于性别只分为男性和女性，它不同于其他的变量因为它不是连续的，在这里将它和客户是否流失一样视为二分类变量。表（2）为每个性别在总样本中的数据所占的比例，观察可得男性人数为2394人占总数比例的71.8%,女性占其余的 940为女性。（二）回归分析将数据输入在SPSS软件中，进行初步分析其结果如表（3）所示。可以发现：（1）检验各个自变量有无统计学

10、意义。由表中可得到在0. 05检验水准下，Recency、Frequency、Gender、Age 具有统计学意义，而Amoun t （其偏回归系数为0）、Has_Child （0. 6710. 05）则无统计学意义。也就是说离上次购买的时间间隔、去银行的频率、性别、年龄具有统计学意义；每月的消费金额和是否有小孩则无统计学意义。（2）根据每个自变量对应的exp (z)以及OR的意义，可以计算各个自变量的变动对模型的结果的影响程度。例如，是否有小孩的OR 估计值二exp (b) =0. 997,也就是说，也就是在其他自变量值固定的情况下，客户有小孩时，相应的客户流失优势比的自然对

11、数值为0. 998O但是经检验的P=0.6710.05,说明这种统计趋势无统计学意义。再如Frequency对应的0R估计值 exp (b) =1. 051, 95%置信区(1.046, 1. 055),也就是说在其他因变量的值固定时，Frequency不频繁的客户流失率约是频繁客户优势的1倍。通过以上的分析得到了每个变量和因变量之间的关系，前文假设离上次购买的时间间隔(Recency) 性别(男)(Gender (1)以及年龄(Age)与客户流失呈负相关的关系，购买的频率(Frequency)、是否有小孩(Has-Child)和购买的金额(Amount)与客户流失呈正相关的关

12、系。根据所建立的模型，由于每月的消费金额(Amount)的回归系数为零，同时模型在0. 05显著性水平检验下是否有小孩(Has-Child)与客户流失之间并不存在着对应的逻辑关联，即无统计学意义。同时，结合exp (z) 优势比这一列可以粗略地观察出每个自变量的变动对客户流失的影响大小。最后，将购买金额(Amount)和是否有小孩(Has-Child)排除在模型之外，并且对回归方法进行选择，即采用逐步回归方法进行分析，具体操作就是将原来的回归方法由进入改为向前：LR,将Recency、Frequency、Gender、Age选入模型，从而简化最终的模型。逐步二元logistic回

13、归分析分析结果如表(4)所示。根据表(5)中分析可得，逐步回归模型的拟合优度比较。在第四个模型中即将Recency Frequency、Gender (1) (女性)、年龄考虑在内的模型检验的卡方值为234.510最小，说明模型的拟合优度比较好，实际的观察值与预测值之间误差较小，正确率较高。根据逐步回归过程最终分析和模型检验的结果，将有统计学意义的变量纳入模型，无统计学意义的变量排除在模型之外，最终得到的一次模型为：在本文中，模型检验的具体原理为：将抽取的数据在 excel进行转化运算，其运算的公式就是在统计软件中计算所得的logistic回归模型。计算所得的概率P与0. 6024

14、相比较，若P0. 6024则为客户为流失；反之则是客户流失的。其检验的结果如表(6)所示。一共1334个数据被用于检验模型预测的正确率。预测未流失的客户的总数是437个，其余的897个则为流失的客户。按照P0. 6024为标准，则有 315个预测的概率值大于目标值，而有100个预测值和实际的结果不同。在预测1019个流失的客户中有222个预测的情况和实际情况相反。最终计算预测模型的概率为 X 100%二95. 11%。由此可见该模型预测正确率比较好，能够用于未知的客户资料分析客户的行为特征。四、结论与建议（一）结论本文主要是通过对客户的历史信息进行分析，对客户流失数据进行挖掘，

15、分析隐藏在这些数据后，各种因素与客户行为之间的关系。根据logistic模型，输入客户的历史资料就可以据此预测将来流失的客户。本文的分析主要是针对人口统计特征的客户资料对于客户流失影响的研究与预测。性别、年龄、教育程度等都对客户是否选择转换银行起到不同程度的影响。根据建立的模型以及对模型验证的结果来看，logistic流失预测模型能够很好地利用客户的历史数据信息对客户行为进行预测。从最后得到的模型总结出自变量和因变量的相互关系。前文的一些假设也得以成立，例如购买的时间间隔、男性以及年龄这些自变量的偏回归系数均为负值，也就意味着它们与因变量之间呈负相关的关系。购买频率的偏回

16、归系数为正值，与因变量之间呈现正相关的关系。其他的变量是否有小孩和每月消费的总额在模型显著性水平的检验下，与因变量之间不存在统计学意义而被剔除在模型之外。同时，也可以计算出各个变量对因变量的影响程度的大小。由于回归模型中的自变量是以不同的尺度测量的，比如：购买的次数单位是次，年龄的单位是岁。因此某个自变量中的一个单位的变化并不等于另一个自变量上一个单位的变化的影响程度，可以通过采用标准化系数比较各个自变量的影响程度。交易频率、最近交易时间、年龄、性别标准化后的系数分别为：1.85, 0. 032, 0. 00088,0. 00076o即频率、购买的时间间隔、年龄、性别对客户流失的影响程度呈现递减的趋势。本文所建立的logistic回归模型，得出了自变量与因变量之间的相互关系，通过这种方法能够预测出那些易流失的客户，从而为客户流失管理工作提供有参考价值的指导意见。（二）建议上文根据模型得到了最终各个变量之间的关系，对于更深一步地了

展开阅读全文

基于ERFM及二元logistic商业银行零售客户流失模型探究

最新文档