数据挖掘在客户流失分析中的应用聚类与分类算法的研究及应用

上传人:pu****.1 文档编号:393317805 上传时间:2023-10-09 格式:DOC 页数:41 大小:138.50KB
返回 下载 相关 举报
数据挖掘在客户流失分析中的应用聚类与分类算法的研究及应用_第1页
第1页 / 共41页
数据挖掘在客户流失分析中的应用聚类与分类算法的研究及应用_第2页
第2页 / 共41页
数据挖掘在客户流失分析中的应用聚类与分类算法的研究及应用_第3页
第3页 / 共41页
数据挖掘在客户流失分析中的应用聚类与分类算法的研究及应用_第4页
第4页 / 共41页
数据挖掘在客户流失分析中的应用聚类与分类算法的研究及应用_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《数据挖掘在客户流失分析中的应用聚类与分类算法的研究及应用》由会员分享,可在线阅读,更多相关《数据挖掘在客户流失分析中的应用聚类与分类算法的研究及应用(41页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘在客户流失分析中的应用聚类与分类算法的研究及应用 江苏科技大学硕士学位论文数据挖掘在客户流失分析中的应用?聚类与分类算法的研究及应用姓名:陈光宇申请学位级别:硕士专业:计算机应用技术指导教师:苏勇20070115摘 要 摘 要 随着电信市场的逐渐放开,电信企业之间对客户的争夺将越来越激烈。由于电信市场日趋饱和,获取新客户的成本比留住现有客户要昂贵得多。因此,如何尽可能将现有客户尤其是高价值客户保留在自己的网上成了各运营商的工作重点之一。通过建立客户离网模型,使企业能根据对以往离网客户的消费情况进行分析,找出即将离网客户的特征,及时采取相应的措施,减少客户离网的发生。因此,客户流失分析研

2、究对企业降低运营成本,提高经营业绩有着极为重要的意义。 本文的应用背景为南京市网通小灵通用户,取2005年1月至2005年6月的数据进行分析。首先对原始数据进行预处理,采用遗传学习方法结合评估函数,可以得出最具代表性的属性集。其次对客户进行细分,采用改进的聚类算法实现,不需要输入初始聚类中心和聚类数目,该算法可以动态地得到聚类结果。 本文主要的工作集中在客户流失预测模型的建立,采用了一种基于遗传算法的数据分类方法对客户数据进行建模。首先在训练数据集上运用 ID3算法,产生若干分类规则集,由这些分类规则集作为初始种群,利用遗传算法的全局寻优能力,找到最佳分类规则集。将此分类规则应用到将要预测的数

3、据集中,即可得到哪些客户有流失趋势。 关键词:数据挖掘;客户流失;决策树;聚类算法;遗传算法 Abstract Abstract Along with the open of telecom market, the contests for customers are getting more and more drastic. As the saturation of the telecom market, the cost of getting a new customer is much higher than maintaining an old customer. So, how t

4、o keep the customers, especially the valuable customers, came to one of the most important works for the telecom companies. Building the model of the churn users will allow the company to analyze the consume characters of those churned user, to find out those customers who are going to churn, so to

5、take actions in time. So the study of this topic has very importance significance for reducing the cost of running the company and to improve the outstanding achievement of the companyIn this thesis, author analyzes Nanjing Netcom Companys PHS customers. The data is from January 2005 to June 2005. F

6、irst, dealing with the original data. Applying genetic algorithm and evaluation function, author can get the best representative attribute setSecond, partition the customers. Applying an improved clustering algorithm based on partition, author need not input initial partitions and initial values. Th

7、e numbers of partitions are changed during clusteringThe major task in this thesis is to create a customers churn model. The model is according to a method of data classification based on genetic algorithm. First, applying ID3 algorithm in the training data sets and constructing full-classification

8、rule sets. Then, using genetic algorithm, author can get the best full-classification rule set. The classification rules are applied in the data that will be predicted. The customers who will be churn are obviouslyKey words: data mining; customer churn; decision tree; cluster algorithm; genetic algo

9、rithm 论 文 独 创 性 声 明本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得江苏科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名: 日 期:学 位 论 文 使 用 授 权 声 明江苏科技大学有权保存本人所送交的学位论文的复印件和电子文稿,可以将学位论文的全部或部分上网公布,有权向国家有关部门或机构送交并授权其保存、上网公布本学位论文的复印件或电子文稿。本人电

10、子文稿的内容和纸质论文的内容一致。除在保密期内的保密论文外,允许论文被查阅和借阅。研究生签名:导师签名: 日 期: 日 期:第一章 绪论 第一章 绪论 1.1 课题背景和研究意义 随着电信行业的迅速发展,客户选择电信产品及电信企业的余地越来越大,市场1竞争不断加剧,电信企业之间的客户争夺将越来越激烈。 面对日益激烈的电信市场竞争环境,企业已经意识到谁把握了客户,谁就拥有了市场。企业的战略正从“以产品为中心”向“以客户为中心”转变。必须不断通过各种渠道加强与客户之间的交流,并且不失时机地从中获取有用信息,才能改善客户关系,提高客户满意度,从而增强2 自身的核心竞争力,在竞争中立于不败之地。由于电

11、信市场日趋饱和,所以获取新客户的成本比留住现有客户要昂贵的很多,并且竞争对手、技术以及法律法规等动态市场变化更容易使客户流失到其他公司。根据调查机构的数据显示,用户保持率增加5%,就有望为运营商带来85%的利润增长,3由此可见,客户流失对业绩的巨大影响。客户离网给运营商带来的主要问题是: 1.客户群大进大出,对营销成本造成很大压力。 2.是业务收入增长缓慢的主要原因之一。目前,新增用户是带动收入增长的主要因素,而离网用户造成的收入损失占新增用户收入的很大一部分,大大降低了收入增幅。客户流失分析作为经营分析系统中的一个重要主题。主要任务是根据流失客户和没有流失的客户性质和消费行为,进行挖掘分析,

12、建立客户流失预测模型,分析哪些客户的流失率最大,流失客户的消费行为如何,客户流失的其他相关因素,如竞争对手的优惠政策、业务系统事故、国家政策和现行经济运行环境等。为市场经营与决策人员制订相应的策略留住相应的客户提供决策依据,并预测在该策略下客户流失情3况。 通过建立客户流失预测模型,使企业能够预测客户离网可能性,并通过对客户离网原因的分析,提出相应的挽留政策,从而使客户保持在自己的网上,降低客户离网3率,从而减少企业运营成本。因此,该模型的建立对企业有着极为重要的意义。 1.2 国内外研究的现状 国内电信业的发展是近五、六年的事,这段时间内精力集中在抢占市场。技术研究主要是业务运营支撑系统Bo

13、ss的更新换代,如对计费系统、客户服务系统、财务管理系统的开发与完善。这些系统中保留着大量的客户通话行为数据、帐单、投诉咨询和客户基本信息数据。由于电信企业忙于业务扩张,无暇顾及对这些数据的挖掘分1第一章 绪论 析。近一两年来,一些有实力的电信企业考虑到挽留高价值客户的必要才逐步着手对这些历史数据进行挖掘。由于起始的时间不长,大部分都只是试探性地建立简单的模4 型,有的还处于调研和可行性分析阶段,没有实际投入应用的产品。目前国内对客户流失的研究主要集中在提供个性化服务、实行“一对一”营销,以吸引客户,提高客户忠诚度上,而很少有直接对客户流失数据进行建模,并由此分2 析客户流失原因,以采取有效防

14、范措施的。国外已有将数据挖掘技术应用于客户流失分析和预测的研究,其应用领域主要是电信业。某些科研机构已经研究出了较为成熟的模型,投入到了市场应用之中。从市场的反馈来看,这些模型并不具备很强的健壮性,准确率也不是很高,大约为 40% -70%。而且,随着数据量的激增,对模型的性能开销也越来越大。许多研究机构在设法提出改进的算法来对客户流失预测分析模型进行优化、完善。同时,由于国内的电信市场与国外的电信市场存在很大的差异,在将国外的模型应用到国内之前必须进行4调整。 3以下是一些世界知名电信运营企业的数据挖掘应用情况。 1.英国电信采用数据挖掘手段,建立模型来确定潜在客户的购买倾向和他们变为用户之

15、后可能的价值。建立精确的客户特征以后,英国电信打算开发针对于特定客户群的产品。 2.沃达丰利用数据挖掘技术建立模型研究客户离网的原因,并从不同的角度来进行市场细分。 3.法国电信利用数据挖掘技术在预防欺诈、客户流失分析和预测、交叉销售等各方面都取得很多成果。4.NTT在自己的CRM系统COMWARE中使用数据挖掘的方法来分析数据和提高对客户的管理水平。 5.韩国 SK Telecom公司的CRM中,应用数据挖掘技术分析客户和通话行为,预测通话中的掉线情况。 1.3 本文研究的主要内容、目标和方法 本文应用背景为南京网通小灵通业务,针对如何建立客户流失预测模型,着手从以下几个阶段进行了研究: 1.数据预处理。数据预处理过程包括数据清洗、数据规范、数据转换以及属性选取。这是个相当复杂的过程,它占用了整个系统的大约 70%的时间,经过数据预处理得到高质量的数据,将会对以后的建模工作产生极大的帮助。属性选取在整个数据预处理过程中显得尤为重要,因为原始数据中包括客户基本属性,客户行为属性等几2第一章 绪论 十个属性。如果将它们全部加入模型中,计算量将会很大,效率

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号