ID3算法在电信客户流失中的应用

资源描述

《ID3算法在电信客户流失中的应用》由会员分享，可在线阅读，更多相关《ID3算法在电信客户流失中的应用（8页珍藏版）》请在金锄头文库上搜索。

1、ID3算法在电信客户流失中的应用伍玉秀【摘要】目前电信运营商面临着激烈的市场竞争。对电信运营商来说，客户即生命，如何保有客户是企业客户管理的重中之重。本文运用ID3算法对电信客户的属性特征进行分析，得出流失客户的基本特征，以帮助企业管理者对该类客户的行为特征进行分析，采取针对性的措施挽留客户，达到亡羊补牢的效果。【关键词】客户流失数据挖掘决策树 ID3算法【作者简介】伍玉秀，女，柳州运输职业技术学院信息工程系副教授。广西柳州，545007一、引言随着2002年中国电信系统的分拆，中国电信行业一家垄断、一统天下的局面被打破，电信行业进入战国纷争时代，呈现出激烈的竞争态势。相对于其他产业来说

2、，电信行业是一个典型的前期固定投资巨大且在一定范围内投资资金多少不受用户量影响的行业。因此，电信运营商拥有的客户越多，作为主要成本的前期投资就会摊得越薄，企业的利润就越大。客户资源对电信运营商来说其意义不言而喻，电信运营商之间的竞争实际上就是对客户资源的竞争。可以说，未来的电信行业，得客户者得天下。数据挖掘在电信领域有着广泛的应用：计费分析、客户细分、电话欺诈、客户流失预警分析等等。客户流失预警分析是通过数据挖掘，发现和分析出客户的许多属性特征和行为特征，从而找到流失客户的特征，为企业挽留这类客户提供决策参考。本文主要通过决策树算法中的ID3算法来实现客户流失的预警分析，找出了客户流失的特征，

3、可帮助电信公司有针对性地改善客户关系，避免客户流失。二、数据挖掘和决策树数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程【3】；数据挖掘分析方法大致包括关联规则、分类、聚类、序列模式等。关联规则的目的是希望在事务数据库中发现经常共同出现的项目，推断隐藏在项目之间的相互关联的规则。分类是按照一组数据对象的特征给出其划分的过程，要求有已知分类的样本数据作为训练集，经过对训练集的学习得到关于分类的规律，从而对新数据进行分类。聚类是利用聚类技术识别一组数据对象的内在规则，将对象聚合成相似的类，以导出数据的分布规律。聚类与

4、分类的差别在于它不需要训练样本，是一种无监督的学习。序列模式的目的也是为了挖掘数据之间的联系，但它主要关注于分析挖掘和时间顺序相关的模式。决策树(decision tree)是运用于分类的一种树结构。决策树是用样本的属性作为结点，用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样本中信息量最大的属性。树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。【3】利用决策树方法进行数据挖掘，一般有如下步骤：数据预处理、决策树挖掘操作，模式评估和应用。三、客户数据预处理1. 定义业务问题业务问题

5、定义要明确数据挖掘技术解决的是何种问题，对客户流失管理来说就是要定义何为流失。电信运营商的客户流失有三方面的含义：一是指客户从一个电信运营商转网到其他电信运营商，这是流失分析的重点。二是指客户ARPU(指每用户月平均消费量)降低，从高价值客户成为低价值客户。三、指客户自然流失和被动流失。在客户流失分析中有两个核心变量：财务原因非财务原因、主动流失被动流失。客户流失可以相应分为四种类型：其中非财务原因主动流失的客户往往是高价值的客户。他们会正常支付服务费用，并容易对市场活动有所响应。这种客户是电信企业真正需要保住的客户。2. 数据预处理数据挖掘的处理对象是大量的数据，这些数据一般存储在数据库系统

6、中，是长期积累的结果。但往往不适合直接挖掘，需要做数据的预处理工作，一般包括数据的选择(选择相关的数据)、净化(消除冗余数据)、转换、归约等。数据预处理工作准备是否充分，对于挖掘算法的效率乃至正确性都有关键性的影响。A公司经过多年的电脑化管理，已有大量的客户个人基本信息(文中简称为客户信息表)。在客户信息表中，有很多属性，如姓名、用户号码、用户标识、用户身份证号码(转化为年龄)、在网时间（竣工时间）、地址、职业、用户类别、客户流失（用户状态）等等，数据准备时必须除掉表中一些不必要的属性，我采用面向属性的归纳等方法去掉不相关或弱相关属性。（1）属性删除：将有大量不同取值且无概化操作符的属性或者可

7、用其它属性来代替它的较高层概念的那些属性删除。比如客户信息表中的用户标识、身份证号码等，它们的取值太多且无法在该取值域内找到概化操作符，应将其删除，得到表1。表1 客户信息表年龄学历职业缴费方式在网时长费用变化率客户流失58大学公务员托收1310%NO47高中工人营业厅缴费942%NO26研究生公务员充值卡263%YES28大学公务员营业厅缴费52.91%NO32初中工人营业厅缴费32.3%NO42高中无业人员充值卡2100%YES68初中无业人员营业厅缴费92.3%NO（2）属性概化：用属性概化阈值控制技术沿属性概念分层上卷或下钻进行概化。文化程度分为3类：W1初中以下(含初中)，W2高中(

8、含中专)，W3大学(专科、本科及以上)；职业类别：按工作性质来分，共分3类：Z1一Z3；缴费方式：托收：T1,营业厅缴费：T2,充值卡：T3。(3)连续型属性概化为区间值：表中年龄、费用变化率和在网时间为连续型数据，由于建立决策树时，用离散型数据进行处理速度最快，因此对连续型数据进行离散化处理，根据专家经验和实际计算信息增益【3】，在“在网时长”属性中，通过检测每个划分，得到在阈值为5年时信息增益最大，从而确定最好的划分是在5年处，则这个属性的范围就变为5：H1,H2。而在“年龄”属性中，信息增益有两个锋值，分别在40和50处，因而该属性的范围变为40-50即变为青年，中年，老年：N1,N2,

9、N3；费用变化率：指（当月话费近3个月的平均话费）/近3个月的平均话费）0，F1:30%，F2：30%-99%, F3:100%变为F1,F2,F3。（4）客户流失类别：客户流失/客户不流失：YES/NO。对表1各个属性进行以上数据预处理后，得表2。表2 转化后的客户信息表年龄学历职业缴费方式开户时间费用变化率客户流失N3W3Z1T1H2F1NON2W2Z2T2H2F2NON1W3Z1T3H1F2YESN1W3Z1T2H1F1NON1W1Z2T2H1F1NON2W2Z3T3H1F3YESN3W1Z3T1H2F1NO四、用ID3算法构建客户流失决策树（一）用ID3算法构建决策树基于信息论的ID3

10、算法中，使用信息增益(Information Gain)作为衡量节点分裂质量的指标来选择分裂属性。信息增益最高的split将被作为分裂方案。1948年，香农(C. E. Shannon)提出了信息论，其中对信息量(Information)和熵(Entropy)的定义如下:【2】信息量Information =-log2Pi熵Entropy=一Pilog2(Pi)熵实际上是系统信息量的加权平均，也就是系统的平均信息量。信息增益(Informtion Gain)，表示系统由于分类获得的信息量。由系统熵的减少值定量描述。熵是一个衡量系统混乱程度的统计量。熵越大，表示系统越混乱。分类的目的是提取系统信

11、息，使系统向更加有序、有规则、有组织的方向发展。所以自然而然的，最佳的分裂方案是使熵减少量最大(即信息增益最大)的分裂方案。在数据预处理后，进行归纳决策树。因为ID3算法是一个递归的过程，所以仅仅讨论一个个特定节点的分裂。信息熵的计算信息熵：类别ui出现概率：表示例子集S的总数，表示类别ui例子数。条件熵计算条件熵：属性X取值vj时，vj出现的概率：；类别ui的条件概率：信息增益计算信息增益值：Gain(X，S)I（U）I（U|V）【2】即信息增益的定义是两个信息量之间的差值，其中一个信息量是需确定S的一个元素的信息量，另一个信息量是在已得到的属性X的值后需确定的S的一个元素的信息量，即信息

12、增益与属性X相关。利用函数Gain的定义将属性进行排列，具有最高信息增益的属性选作给定集合S的测试属性。创建一个根节点，并以该属性标记，对属性的每个值创建分枝，然后递归建树，可构造一棵决策树。其中每一个节点都是属性中具有最大增益的属性。生成决策树如下：费用变化率YESNO年龄职业YES缴费方式YESYESNOYSESNONO在网时长NOF1F2F3N1N2N3T1T2T3Z1Z2Z3H1H2图1 客户流失决策树在图1中，NO表示客户不流失，YES表示客户流失。从图1可以看出，客户费用变化率为100%的客户肯定已经流失；而费用变化率低于30%的客户；即每月资费相对稳定的客户一般不会流失，费用

13、变化率在30%99%的客户有可能流失，其中年龄在4050岁之间的客户流失的可能性非常大，而年龄低于40岁的客户，用充值卡缴费的客户和在网时间较短的客户容易流失；年龄较大的客户，则工人容易流失。（二）决策树修剪构造过程中，需要对决策树进行修剪，采用两种方法，预先修剪和事后修剪：预先修剪在构造节点时，若该节点的信息增益小于0.1%时舍弃该节点；在构造节点时，若该节点下的记录数在所有记录数中的比例小于0.2时，则停止该子树的生长；在构造节点时，没有属性可以再用于对数据进行分割, 则停止该子树的生长；当所有递归子集的运行状态均为流失或不流失时，则停止树的生长。事后修剪用期望错误率最小原则：对树中的

14、内部节点计算其剪枝/不剪枝可能出现的期望错误率，若错误率小于0.2%，则剪掉该树枝。用ID3算法对客户流失问题进行建模时可以区分不同的流失客户的群组及每一群组的潜在流失因素。（三）关于训练集、测试集的选取和准确性的评估训练集和测试集的选取一直是数据挖掘中有待研究的问题，至今尚未找到完全令人满意的解决方案。根据我们的实验和相关的数据挖掘实践，我们知道，对训练集轻微的扰动，都可能造成生成的决策树有较大的差异。训练集的合理选择一直是决策树挖掘中的一大难题。同时，测试集的选取又涉及分类准确性的评估问题。1、用于挖掘的数据集的选取随着业务的进行和时间的推移，数据源中的业务数据总是在不断地增加。如何从业务数据源中选取合适的数据集进行挖掘将成为一个难题。如果选择全部的、不断增涨中的数据源，则会造成:1)由于在不同的时间存在不同的训练集，从而生成不同的分类器。即不同的训练集生成不同的决策树。同时，由于测试集的不同，就会产生不同的评估结果。2)随着数据源中数据的快速增涨，决策树的生成速度和准确性的评估过程将会明显变慢，并最终可能超过现有硬件的承载能力，使人无法容忍。因而，通常的做法是对业务数据源进行抽样，选取出一个大小适中的数据集。保证选取出的数据集样本尽可能地包含有全部业务数

展开阅读全文