信用评分模型在(化妆品)客户挖掘中应用研究_

资源描述

《信用评分模型在(化妆品)客户挖掘中应用研究_》由会员分享，可在线阅读，更多相关《信用评分模型在(化妆品)客户挖掘中应用研究_（10页珍藏版）》请在金锄头文库上搜索。

1、-信用评分模型在客户挖掘中的应用研究摘要：文章基于国内某家化妆品公司的客户数据库的数据，采用不同的信用评分模型进行建模，这些模型包括线性判别分析方法、Logistic回归方法、k阶近邻分类方法（KNN）、Kernel估计法和支持向量机（SVMs）等，并对它们的应用进行了比较分析,挖掘影响客户购买行为的关键行为属性，按照既定的评价标准，对客户给予量化评价，发现购买倾向高的新客户群，以便进行高针对性的市场营销和推广。关键词：信用评分判别分析 Logistic回归 k阶近邻分类支持向量机一信用评分的简要介绍信用评分的目的在于尽量将能够预测借款人未来行为的指标加以整合，并统一成可以比较的单一

2、指标，以显示借款人在未来一特定时间内违约的可能性。所有的信用评分模型，无论采用什么理论或方法，其最终目的都是将贷款申请者的信用级别分类。为达到分类目的，依据某种理论，在历史数据基础上构造信用评分系统，然后输入申请者的相关指标数据，其信用水平将被评分系统估算出来并归属为相应的信用级别，为信贷决策提供依据。作者简介：杨梅（1982），女，汉族，山东菏泽人，中国科学技术大学统计与金融系硕士研究生；张曙光，（195?），男，汉族，安徽淮北人，中国科学技术大学统计与金融系教授。信用评分实质上是将一个总体按照不同的特征分成若干个不同组的一种方法。这种将总体划分成不同的组的思想在统计学中最早是由Fishe

3、r（1936）提出的。David Durand(1941)第一个意识到可以用同样的方法区分“好”的客户和“坏”的客户，从而对贷款的信用风险进行评估。20世纪50年代初Bill Fair 和 Earl Isaac在旧金山成立对信用风险进行评估咨询机构，其客户大多数是金融机构及直销公司。20世纪60年代后期，随着信用卡的出现和发展，银行及其他信用卡发卡机构认识到了信用评分的作用及重要性。当这些金融机构利用评分系统时，他们还同时发现信用评分系统有着比人工主观判断更好的预测能力利用评分系统后贷款的违约率降低了50以上（Myers and Forgy,1963）。信用评分于1975年及1976年在美国得

4、到了平等机会法案的认可。 20世纪80年代随着信用评分方法在信用卡领域应用的成功，银行开始将信用评分方法应用到其他金融产品（如个人贷款等），近几年信用评分已开始在住房贷款及中小企业贷款中使用。同样地，在20世纪90年代直销市场的快速增长也使得许多直销公司利用评分方法改进广告销售中的反应率。实际上在商业领域，西尔斯公司在20世纪50年代就开始用评分模型来决定将其商品目录寄给哪些客户从而提高回复率。二评分模型在商业领域的适用性随着经济发展，直销市场在20世纪90年代得到快速的增长，信用评分模型的应用也扩大到这个领域：主要是以电话或直接邮寄为手段的数据库营销中的决策问题。很多化妆品公司、汽车生产商等

5、都开始通过电话、邮寄等方式直销的方式来销售，利用信用评分技术提高广告的回复率。在众多的目标客户群中，厂商或公司往往不会给所有的目标客户电话或寄信，因为有的目标客户的消费能力可能达不到要求的消费标准，有的客户对该产品不感兴趣或消费此商品的概率过低而导致成本过高。在市场营销预算一定，资源有限的情况下，化妆品或汽车公司等必须有所侧重，有所取舍。如果有一个响应模型，能够从电话或邮寄名单中去除不太可能响应的人，从而降低成本，但不会降低邮寄的效率，事实上，这种做法带来的是更高的响应率。本文针对就如何利用信用评分技术改进广告的回复率作了实证研究，并由此得出哪种信用评分模型更适合选定的客户数据。在许多决策环境

6、下信贷仅是其中一个例子大体上有两种可能的选择：或者提供产品服务，或者不提供。当然，在实际中，由于可以从一系列产品服务中进行选择，可能会存在更多的决策选项，而评分可以帮助决定选择。通过评分，可以预测谁更可能做出答复，而谁不会；评分还可以预测谁更为忠诚，而谁会在其他机构出现更好的产品时立即改换门庭；评分还可以预测哪些顾客愿意转而购买更好的产品。显然，对以上三种情况需要运用不同的评分，即不同的模型。通过建立模型，用评分来预测使用哪种销售渠道更好。例如，按照是否对顾客采用直接邮寄直销，或者对现有顾客通过对账单插页、电话甚至电子邮件等方式进行销售，把目标人群分成几个子群（多项Logit模型是解决该问题的

7、一种有效模型）。显然，在制定大规模业务决策时，评分模型的重要性就体现出来了，例如当有几十万位预期顾客时，对他们寄信将会比打电话更加切实可行，尤其是考虑到需要对那些第一次没联系到的顾客进行再次联系时。如果顾客名单或邮寄名单或会员名单上的预期顾客进行评分，那么将会受到一些明确的限制。例如，受限于所获得的信息。这一点是显而易见的。在真正接收到一份贷款申请之前，不可能把贷款目的或贷款期限作为评分的特征变量（尽管可能仅仅提供的是特定的产品，例如期限为15年的购房贷款）。此外，对于信用参考信息中哪一部分是可以得到的以及如何让使用都有严格的标准和准则。如果所做的决定是：是否选中某些特定人并向他们提供产品服务

8、，那么，那些没被选中的人将不会意识到自己曾被考察过。事实上，当试图预测人们做某些事情的倾向时，一般来说都可以运用模型和评分方法。例如，可能会向一些顾客提供参观分时度假的机会，并且希望在一系列可能用户中，预测谁最可能参观并购买。类似地，可能会对一些顾客提供试驾一款新车的机会。在这里，感兴趣的是那些可能进行购买的顾客是否会利用这个机会。这里要强调的是，没有理由怀疑评分方法的作用。不管是在信贷领域，还是在其他商品或服务的直销中运用评分方法，通常的目标都是利润最大化。一般营销部门的目标是提高顾客答复率或者降低答复成本。但是，从整体企业运作的角度来看，利润才是最关键的衡量标准。本文的结构如下：首先对使用

9、的数据进行简单的说明，然后就当今信用评分领域最常用的费希尔线性判别分析方法、Logistic回归方法、k阶近邻分类方法和支持向量机利用某化妆品公司免费寄出商品的试用装及宣传单的客户历史信息数据及其购买情况分别建立评分模型，并对它们进行比较分析，最后给出相关结论。三数据描述本文使用的数据是来自国内一家化妆品公司的客户数据库，选取2005年9月1号2007年5月索取产品试用装的客户资料，观察他们在索取产品后的交易行为，按照购买产品与否把他们分为“好”的客户和“坏”的客户。这样共得到“好”的客户56309个，“坏”的客户861578个。按照通行的建立信用评分模型的方法，从“坏”的客户中随机的筛选出5

10、6309个样本，于56309个“好”的客户一起组成建模样本。根据AIC准则，筛选出6个特征变量，并将各特征变量根据其交易行为表现相似的原则进行分组，并用虚拟变量来表示：表格1：解释变量列表性别SEX月收入INCOME1=INCOME2INCOME3=年龄AGE1=AGE2=AGE3=婚姻状况MARITAL=使用化妆品情况LAMBLE1=LAMBLE2=教育程度GRADE1GRADE2这样评分模型中就有12个虚拟变量作为解释变量。另外，模型的因变量表示为：STATUS=。有很多方法验证统计模型（e.g.,见Dillon and Goldstein,1984,或Hair et al.,1992）

11、这里选择经常用的方法，即多次随机的把数据分为训练样本和检验样本。数据样本被分为两部分，的观测值用来建模，的观测值作为检验样本对模型的精度进行检验。观测值被随机的分配在训练样本集或检验样本集，建造五对这样的数据集。采用较常用的对样本分层的方法以确保“好”的客户和“坏”的客户的比例在所有的数据集都是一样的。四信用评分模型分析1.线性判别分析方法考虑两个总体的情况G1和G2，且假定其服从正态分布，两个协方差相同，它们的分布分别是和。现在对于一个新的样品，要判断它来自哪个总体。最直观的方法就是计算到两个总体的距离和，并按下述规则判断：如果，则；如果，则。这里选用统计分析中最著名的由马哈拉诺比斯（Mah

12、alanbis）提出的，习惯上称为马氏距离。即到母体距离定义为那么，若令，上述判别规则可写成当时，；当时，。若、和已知时，则是的线性函数，称为线性判别函数。线性判别分析的优点是：适用于二元性或多元性目标变量，而逻辑回归只能预测二元性的目标变量。缺点是：假设特征变量的分布为正态分布，而实践中的数据往往不是完全的正态分布；多维相关性可能导致模型的不稳定性和不可靠性。利用SAS系统里的 PROC DISCRIM程序可以得到待估计的参数。2.Logistic回归方法此方法适合用来预测一个二分的或次序变量的值。其统计理论基础是Logistic回归分析，这个分析所用的参数估计法是最大可能率法。二分的因

13、变量不论其定义如何，Logistic分析的目的都是为了找出这个因变量值与一组自变量之间的线性关系。这个线性关系的表示可用因变量的对数奇数比单位（Logit），常态数单位（Normit）或双对数单位（Log-L og）等。其优点是：预测结果是介于0和1之间的概率；可以适用于连续性或类别性特征变量；容易使用，容易解释。缺点是：对模型中特征变量的多维相关性（multicollinearity）较为敏感,需要利用因子分析或变量聚类分析等手段来选择代表性的特征变量，以减少候选变量之间的相关性。利用SAS系统里的PROC LOGISTIC程序，可以得到每个自变量的估计权重。3.非参数判别法K阶近邻分类K阶

14、近邻技术评估了投入形态x与来自观测样本的参照形态之间的相似性，把一种形态归到观测样本中k阶近邻占大多数得一类中。这种分类基于达萨拉思Dasarathy(1991)提出的基本思想：“判断一个人要依据他所在的公司。”判别近邻所选择的距离对估计结果来说十分重要。人们提出了一些可供选择的方法，距离矩阵选择是提高k阶近邻分类方法优良特性的研究途径之一。最为常用的是欧式（Euclidean）距离。K（近邻的数量）的选择也是至关重要的。这里经过多次试验，选定K101，选为奇数是防止形态x周围的观测形态好坏各半从而程序无法判断的情况发生。其优点是：容易更新训练样本中的客户数据，对训练样本进行动态更新。缺点是:

15、好的度量距离不易得到；不能对申请人的特征变量给出一个分数，使得该方法的使用者不能真正了解评分系统是如何运作的。此方法可以利用SAS系统里的PROC DISCRIM程序，选定方法（method）为非参（npar）就可实现。Kernel估计方法Kernel估计法：利用一个定值的半径（r）以及选定的kernel函数来估计在观察体x点上的概率密度。Kernel函数以及半径r的选择目前还没有好的方法，只有进行多次试验，来选定较好的Kernel函数以及半径r。4.支持向量机（Support Vector Machines,SVMs）Cortes和Vapnik(1995)引入了支持向量机。由于支持向量机的良好表现和所估计的参数较少，它们引起了人们的广泛兴趣。支持向量机的主要思想是采用一个“最好”的超平面，将不同类别的数据分割。支持向量机的关键一点是：通过对原始预测变量进行变换和合并到一个很高维的空间，在这个空间中支持向量机能找到一个最佳分割超平面来对这些变量进行分类。支持向量机实现是通过某种事先选择的非线性映射（核函数）将输入向量映射到一个高维特征空间，在这个空间中构造最优分类超平面。使用SVM进行数据集分类工作的过程首先是通过预先选定的一些非线性映射将输入空间映射到高维特征空间（如下图）使得在高维属性空间中有可能对训练数据实现超平面的分割，避免了在原输入空间中进行非线

展开阅读全文

信用评分模型在(化妆品)客户挖掘中应用研究_

最新文档