客户流失中数据挖掘常用算法

资源描述

《客户流失中数据挖掘常用算法》由会员分享，可在线阅读，更多相关《客户流失中数据挖掘常用算法（9页珍藏版）》请在金锄头文库上搜索。

1、实用文档 . 客户流失分析中的常用数据挖掘算法摘要：数据挖掘技术为商业企业辨析客户价值提供了重要支撑，本文首先对客户流失的问题进行阐述，然后列出了客户流失分析中几种常用数据挖掘算法。关键字：数据挖掘；客户流失；算法在当今的商业环境中，竞争对手的增加、业务的多样化和经济的全球化使企业之间的竞争日益激烈。新经济时代的到来，使得客户成为企业至关重要的成功因素和利润来源，谁把握了客户，谁就拥有了市场。企业的战略正从“以产品为中心”向“以客户为中心”转变。他们已经意识到，只有不断通过各种渠道加强与客户之间的交流，并且不失时机地从中获取有用信息，才能改善客户关系，提高客户满意

2、度，从而增强自身的核心竞争力，在竞争中立于不败之地。随着数据挖掘技术的发展，数据挖掘在很多领域中所起的重要作用己经被越来越多的人认可，它是利用己知的数据通过建立数学模型的方法找出隐含的业务规则。在国外很多行业己经具有成功的应用。例如，电信行业的应用领域主要有客户关系管理，客户欺诈分析，客户流失分析，客户消费模式分析，市场推广分析等。在国内随着对数据挖掘技术的重视，数据挖掘技术的应用研究也越来越广，其中对电信行业的客户流失分析就是一大热点。客户流失分析是通过对以往流失客户的历史数据进行分析，找出可能开用户的特征，及时采取相应措施，减少客户流失的发生。这对企业降低运营成

3、本，提高经营业绩有着极为重要的意义。 1 客户流失分析 (Customer Churn Analysis) 国外调查机构的分析表明：每年有高达 1/3 左右的客户流失到竞争对手那里，而争取、吸引一个新客户的费用是保住现有客户费用的515倍。客户流失已经成为商业企业最关注的问题之一。经过客户流失分析得出了一些结论： 15% 的客户选择离开是为了更低的价格， 15% 是因为更好的产品，而高达 70% 的客户离开是源于糟糕的服务。对于国内某些行业如电信行业，由于近年来国内电信行业的分割、电信体制的激烈变革，竞争的急速加剧使得各电信企业忙于开拓市场、发展客户，而对己有客户的流失管理

4、似乎大部分都重视不够；或者是注意到了又找不到好的方法，显得有点无能为力。一方面企业投入大量时间、人力、财力去发展新客户，另一方面因客户流失管理的不完善导致现有客户由于不满意而流失。所以，忽视现有客户的保持，只注重发展新客户，长此以往，电信企业将会出现“增量不增收”的局面，即每月用户人数不断增加，但用户每月人均话费收入值却在下降。 1.1 客户流失的原因客户流失的原因主要有以下4种类型 : (1) 自然流失这种类型的客户流失不是人为因素造成的，比如客户的搬迁和死亡等。自然流失所占的比例很小。企业可以通过广泛建立连锁服务网点和经营分公司，或者提供网上服务等方式，让客

5、户在任何地方、任何时候都能方便快捷地使用企业的产品和服务，减少自然流失的发生。 (2) 恶意流失实用文档 . 恶意流失是指一些客户为了满足自己的某些私利而离开企业，比如很多电信运营商的用户在拖欠了大额通信费用后离开这家电信运营商，选择其他电信运营商提供的服务，从而达到不交费用的目的。恶意流失在客户流失中所占的比例也不大。企业可以通过客户信誉管理制度和欺诈监测来防止客户的恶意流失行为。 (3) 竞争流失由于企业竞争对手的影响而造成的流失称为竞争流失。市场上的竞争突出表现在价格战和服务战上。在当前日益激烈的市场竞争中，企业首先要考虑的是保留住自己现有的客户，在此基础上再去吸引

6、和争取新的客户。通过市场竞争分析，包括市场占有率分析、竞争对手发展情况分析、供应商行为分析、合作商行为分析等，可以防止部分流失的发生。市场占有率分析使市场人员能够了解不同时间段内、不同业务品牌的产品或服务的市场占有率情况，了解市场中最有价值产品或服务，了解不同产品的主要竞争对手是谁，从而为市场经营提供指导。从竞争对手客户发展情况、竞争对手客户话费收入情况、竞争对手客户呼叫行为、竞争对手营销策略、竞争对手服务质量五个方面，对竞争对手发展情况进行分析预测。 (4) 过失流失上述3种情况之外的客户流失称为过失流失。这些流失都是由于企业自身工作中的过失引起客户的不满意

7、而造成的，比如企业形象不佳、产品性能不好、服务态度恶劣等。过失流失在客户流失总量中所占的比例最高，但同时也是企业可以通过采取一些有效手段来防止的。 1.2 客户流失预测客户流失预测的任务是 : (1) 将客户流失的基本模型与客户描述中的客户生命期价值结合，发现现有客户中流失可能性大并且价值高的群体，作为下一步预防和控制流失策略的目标客户群体； (2) 根据客户流失的行为模型，跟踪和发现客户的流失趋势，及早采取预防措施。 1.3 客户流失模型一般客户流失模型的建立和应用过程如下: (1) 从企业的业务数据库中收集整理原始数据，组建企业客户的数据仓库系统；在客户数据仓库中抽取

8、适当的字段组成客户分析数据库，为客户描述和客户流失模型提供数据源； (2) 将客户分析数据库分离为当前客户数据库和流失客户数据库； (3) 对流失客户数据库实施数据挖掘技术，发现客户流失模型，包括基本特征模型和行为模式。 (4) 运用客户流失基本特征模型在当前客户数据库中发现预测流失的群体; 运用客户流失行为模型对当前客户数据库中客户的行为进行分析，预测流失趋势； (5) 从客户流失模型中分析可能的流失原因，并结合 (5),(6)中发现的预测流实用文档 . 失群体和流失趋势采取有效措施，来防止和减少客户的流失。其分析过程如图所示: 客户流失的分析流程图 2 常用数据挖掘算法数据挖

9、掘 (Data Mining)作为数据库知识发现的核心技术，就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的但又是潜在有用的信息或知识的过程，提取的知识一般可表示为概念、规则、规律、模式等形式。确切地说，数据挖掘过程是一种决策支持过程，主要基于人工智能、机器学习、统计学等技术，高度自动化地分析生产业务中原有的数据，做出归纳性的推理，从中挖掘出潜在的模式，预测客户的行为，帮助企业的决策者调整市场策略，减少风险，做出正确的决策。在目前商用数据挖掘软件中一般对客户分析的重点是首先对客户行为及需求进行分析 , 以及对客户细分群进行定义。

10、在此客户细分基础上就可以建立周期价值分析模型 , 挽留响应模型以及流失预测模型等。 2.1 抽取数据与数据分析通常, 数据库中每位客户的信息主要包括客户基本信息，用户账务信息和客户服务信息，每种信息都是由一系列客户属性构成。用所有的属性来构造模型显然是很繁琐的，维数过多甚至会造“维数灾难”。因此, 我们需要通过整理客户的自然属性 ( 姓名，性别，年龄，职业等) 和行为属性 ( 电信行业中如月均话费，短信数量，套餐选择等 ) ，抽象出与客户流失相关的属性，从而建立模型。 2.2 聚类概述业务数据库1 业务数据库2 业务数据库n 数据仓库客户分析数据现有客户数据流失客户数据流

11、失客户基本特征流失客户行为特征流失群体预测流失行为预测流失原因分析及对策实用文档 . 聚类分析被广泛地应用于许多领域，包括模式识别、图像处理和市场营销等。一般采用聚类的方法，对流失客户的消费行为进行 “细分”，以便对各个不同 “细分客户”采取有针对性的市场营销工作。目前存在着大量的聚类算法，大体可以分为：(1) 基于划分的方法，比如 K 平均值算法， K中心点算法等方法； (2) 基于层次的方法，比如 CURE 算法和 BIRCH 算法；(3) 基于密度的方法，比如 DBSCAN算法；(4) 基于网格的方法，比如 STING 、 CLIQUE 算法； (5) 基于模型的方法，

12、比如 COBWEB算法等。这些聚类算法都有其各自的特点，算法的选择取决于数据的类型、聚类的目的和应用。 2.2.1 EM 聚类算法 EM 聚类算法思想，本质上是基于混合分布的参数估计，根据“极大似然”准则，估计每个簇的分布参数。采用EM 聚类建模之前，需要事先指定聚类的数目，为每个簇假定一个数据分布模型，比如高斯分布，泊松分布等，这里为简化起见，假定每个簇服从同一族概率分布。完成聚类建模之后，确定各个簇的具体分布，计算每个元素的隶属于某个簇的概率，依据概率确定各个元素的划分。与普通的聚类模型相比， EM 算法的聚类划分，是基于“概率”和“距离”的划分，一般来说，将隶属概率最大

13、的簇作为该元素的隶属簇。目前，常用的是基于高斯混合分布的EM 聚类模型，需要指出的是，基于高斯混合分布的 EM 聚类模型与基于欧氏距离的K均值模型是一致的。与其他聚类模型相比，EM 模型算法高效，在计算机实现改进算法中，只需一次遍历即可，减少了系统I/O 操作，极大提高了运行效率，适合基于“海量数据”的聚类分析。当然，也存在一些不足之处，比如需要选择适当的概率分布模型，预先指定聚类的数目等。 2.3 决策树决策树分类算法是应用最广的归纳推理算法之一。它是一种逼近离散值函数的方法，对噪声数据有很好的健壮性并且能够学习析取表达式。在这种方法中学习到的函数被表示为一棵决策树。

14、学习得到的决策树也能再被表示为多个 If-Then 的规则，该算法己经被成功应用到医疗诊断和商业智能等各个领域。决策树是一个类似于流程图的树型结构，其中每个内部节点表示在一个属性上的测试。每个分枝代表一个测试输出，而每个叶子节点代表类或类的分布。树的最顶层节点是根节点。下图为一棵简单决策树，它是一棵贷款申请的决策树模型，从中我们可以看到决策树的基本组成部分：决策节点、分支和叶子。决策树模型收入 3000 高负债工作时间高风险低风险低风险高风险是是是否否否实用文档 . 2.3.1 决策树的建立建立决策树的过程，即树的生长过程是不断地把数据进行切分的过程，每次

15、切分对应一个问题，也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。决策树的建立过程通常分为两个阶段: 建树和剪枝。决策树归纳的基本算法是贪心算法，它以自顶向下递归的各个击破方式构造判定树。下面描述了由训练样本归纳判定树的 ID3的基本算法。建树算法： Generate_decision_tree由给定的训练数据产生一棵判定树。输入：训练样本 samples，由离散值属性表示；候选属性的集合attribute list。输出：一棵决策树。方法： 1)创建节点 N ； 2)If samples都在同一个类 C then ； 3)返回N作为叶节点，以类 C标记；

16、4)If attribute_list为空， then ； 5)返回N作为叶节点，标记为 Samples中的最普通的类； 6)选择attribut_list中具有最高信息增益的属性test attribute； 7)标记节点 N 为test_attribute； 8)for each test_attribute中的己知值 ai ； 9)由节点 N长出一个条件为 test_attribute=ai的分枝； 10)设S2是samples中test_attribute=a的样本的集合； 11)If S 2为空then ； 12)加上一个树叶，标记为 samples中最普通的类； 13)else 加上一个 Generate_decision_tree(S 1,attribute_list-test_attribute)。剪枝的目的是降低由于训练集的噪声而产生的起伏。算法的基本策略如下：树以代表训练样本的单个节点开始(步骤1)。如果样本都在同一个类，则该节点成为树叶，并用该类标记 ( 步骤2和3)。否则，算法使用称为信息增益的基于熵的度量作为启发信息，选

展开阅读全文