基于分类技术的电信客户流失预测的研究

上传人:QQ15****706 文档编号:52454234 上传时间:2018-08-21 格式:DOCX 页数:23 大小:692.77KB
返回 下载 相关 举报
基于分类技术的电信客户流失预测的研究_第1页
第1页 / 共23页
基于分类技术的电信客户流失预测的研究_第2页
第2页 / 共23页
基于分类技术的电信客户流失预测的研究_第3页
第3页 / 共23页
基于分类技术的电信客户流失预测的研究_第4页
第4页 / 共23页
基于分类技术的电信客户流失预测的研究_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《基于分类技术的电信客户流失预测的研究》由会员分享,可在线阅读,更多相关《基于分类技术的电信客户流失预测的研究(23页珍藏版)》请在金锄头文库上搜索。

1、 金融数据挖掘案例分析金融数据挖掘案例分析 课课程程设计报设计报告告学生姓名:学号:题目:基于分类技术的电信客户流失预测的研究系别:信息管理与工程系班级:信息管理与信息系统指导教师:2015 年 6 月信息管理与工程系课程设计1目录目录摘要:.1Abstract:.21.引言.31.1 研究背景和意义31.2 国内外应用和研究现状31.3 研究方法.41.3.1 数据收集.41.3.2 数据准备41.3.3 数据建模41.3.4.模型评估.42.决策树算法基本概述52.1 决策树算法的提出和发展52.2 决策树算法的概念 52.3 决策树的优缺点53. 数据预处理63.1 数据预处理概述63.

2、2 数据的商业理解.63.3 数据预处理方法 .63.3.1 数据清理63.3.2 数据集成73.3.3 数据变换73.3.4 数据归约74.构造决策树 .84.1 决策树分类的步骤 84.2 建模84.2.1 输入数据84.2.2 输出类型9信息管理与工程系课程设计24.2.3 手工计算验证.94.2.4 SQL Server Business Intelligence Development Studio 工具验证124.2.5 实验结论分析.165 总结与后需改进工作.175.1 总结 175.2 后续需要改进的工作.17致谢.19参考文献20信息管理与工程系课程设计1 1基于分类技术的

3、电信客户流失预测的研究基于分类技术的电信客户流失预测的研究摘要:摘要:在国内随着对数据挖掘技术的重视,数据挖掘技术的应用也越来越广,其中电信行业的客户流失分析就更是一大热点。通过对以往流失客户的数据进行分析,找出可能流失用户的特征,及时采取相应的措施,减少客户流失的发生。这对提高经营业绩和降低运营成本有着极为重要的价值。本文从数据挖掘的效率和精度出发,运用分类技术方法中的决策树算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特征进行分析,采取针对性的措施挽留即将流失的客户或有流失意向的客户,达到亡羊补牢的效果。关键字:数据挖掘;电信客户流失;分类技术;

4、决策树算法 信息管理与工程系课程设计2AbstractAbstract:Along with data mining technology development, data mining impor-tance already by more and more many person attention, in which to the telecommunication profession customer outflow forecast is a present big hot spot.This article utilizes the decision tree algorith

5、m to carry on the analysis to the telecommunication customer attribute characteristic, obtains the outflow customer the basic characteristic, helps the enterprise superintendent to carry on the analysis to this kind of customer behavior characteristic, adopts the customer which the pointed measure d

6、etains soon drains or has the outflow intention customer, achieved is better late than never effect.Keywords: Data mining ;telecommunication customer outflow ;classification technique;decision tree algorithm 信息管理与工程系课程设计31.1.引言引言1.11.1研究背景和意义研究背景和意义随着中国电信行业体制的改革与重组,中国电信业的市场环境发生了根本性的变化,中国电信服务市场逐步形成了从

7、最初个别运营商垄断市场到数家大运营商主导、多家小运营商参与、新运营商不断加入的电信市场竞争的新格局。在当前电信业普及率很高的形势下,在发展新客户的同时,怎样维持已有的客户群,已经成为电信企业越来越关注的焦点。面对激烈的竞争市场,各大运营商正在寻找一种更有效的办法来建立与客户的关系,创造客户价值来保留和竞争优质客户。要想预测将要流失的客户,进而成功对其进行挽留,首先要全面掌握客户的信息。这些业务数据已经达到几十甚至上百TB,数据挖掘技术则正是目前数据仓库领域最强大的数据分析手段。客户流失预测,就是使用数据挖掘的方法,整合客户历史大量的数据,分析客户基本状态属性和历史属性,提取出已经流失客户在流失

8、前具有的特点,从而建立流失模型,预测出会在不久会流失的客户,从而降低客户的流失率。1.21.2国内外应用和研究现状国内外应用和研究现状在国外,如美国国防财务部从每年上百万笔的军火交易中寻找可能存在的欺诈现象,并进行深入分析和调查,从而大量的节约了成本。在国内,数据挖掘的研究起步较晚,事实上运用数据挖掘技术的企业不多,比较典型的是SAS公司的SAS Enterprise Miner,被用于上海宝钢的配矿系统热轧质量控制系统。国内一些电信企业也陆续开始使用。数据挖掘技术在运用方面仍有一些不足:(1)对挖掘对象的数据理解有所欠缺,变量属性选择的欠缺。(2)理论无法很好的指导实践应用。大量的研究只能得

9、出模型预测的准确率,而无法利用预测结果来正确的指导实践。信息管理与工程系课程设计41.31.3 研究方法研究方法1.3.1 数据收集这一任务主要是获得项目资源需求得数据,在本文中主要是结合电信业的业务经验,分析流失数据包括客户的自然属性、消费费用、套餐类型等。这些数据主要还是直接从某家电信公司获得。1.3.2数据准备数据准备包括对数据的选择、缺失值处理、噪声数据平滑、数据集成变换、衍生变量的生成、离散化、抽样等.它需要对行业领域知识有较深的理解,是数据挖掘项目中花费时间最长的过程。1.3.3数据建模经过数据预处理后得到一个高质量的数据集合,从训练集中选择”客户流失“字段预测模型中的目标字段。它

10、由YES 和NO 两个值组成,YES 代表用户流失,NO代表用户非流失.通过决策树算法归纳分析它们的特征来预测用户是否离网,得到客户流失决策树,其中每一条路径代表一条分类规则,每条规则对应了一个叶子节点,给出该规则客户流失的数量和流失的可能性。1.3.4.模型评估模型评估是首先通过手工计算得出模型,然后通过SQL Server Business Intelligence Development Studio软件分析挖掘验证,以提高模型的正确率。信息管理与工程系课程设计52.2.决策树算法基本概述决策树算法基本概述2.12.1 决策树算法的提出和发展决策树算法的提出和发展决策树方法最早产生于上世

11、纪 60 年代,到 70 年代末。1986 年 Quinlan 提出了著名的 ID3 算法。在 ID3 算法的基础上,1993 年 Quinlan 又提出了 C4.5算法。为了适应处理大规模数据集的需要,后来又提出了若干改进的算法,其中 SLIQ 和 SPRINT 是比较有代表性的两个算法。2 2. .2 2 决决策策树树算算法法的的概概念念决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。2.32.3 决

12、策树的优缺点决策树的优缺点优点:(1) 分类精度高:决策树方法具有较高的分类精确度。(2) 对噪声数据有很好的健壮性,决策树模型效率高(3) 分类模型是树状结构,简单直观,可将到达每个叶结点的路径转换为IFTHEN 形式的规则,易于理解。缺点:(1)不易处理连续型数据(1) 决策树算法对于缺失数据难以处理(2) 决策树忽略了数据库属性之间的相关性63.3.数据预处理数据预处理3.13.1 数据预处理概述数据预处理概述现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。 数据预处理有多种方法:数据清理,数据集成,数

13、据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。 3.23.2 数据的商业理解数据的商业理解电信行业中,客户流失是 CRM(客户关系管理)中客户生命周期的最后一个阶段,一般可以分为两类:一类为自愿流失,指用户从本电信运营商转至它网运营商;另一类为非自愿流失,指电信企业出于客户欠费或不履行责任等原因而主动取消用户的服务。大多数的客户流失属于第一类。流失往往受到一种或多种因素的影响,例如客户心理偏好、住宅搬迁、竞争对手的优惠政策、电信企业的服务质量等。本文主要关注自愿流失客户,特别是其中用户价值和信用度高的群体。3 3. .3 3 数

14、数据据预预处处理理方方法法3.3.1 数据清理数据清洗(DATA CLEANING)能够填补空缺数据,平滑噪声,发现孤立点,纠正不一致的数据,进而改善数据质量,提高数据挖掘的精度和性能。 如电信行业中的属性删除:将有大量不同取值且无概化操作符的属性或者可用其它属性来代替它的较高层概念的那些属性删除。比如客户信息表中的用户标识、身份证号码等,它们的取值太多且无法在该取值域内找到概化操作符,应将其删除,得到表 3-1如下所示:信息管理与工程系课程设计7表 3-1 部分客户信息表学历 职业 缴费方式 在网时长 费用变化率 客户流失 大学 公务员 托收 13 10% NO 高中 工人 营业厅缴费 9

15、42% NO 研究生 公务员 充值卡 2 63% YES 大学 公务员 营业厅缴费 5 2.91% NO 初中 工人 营业厅缴费 3 2.3% NO 高中 无业人员 充值卡 2 100% YES 初中 无业人员 营业厅缴费 9 2.3% NO 3.3.2 数据集成数据集成例程将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。3.3.3 数据变换通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。3.3.4 数据归约数据归约技术可以用来得到数据集的归约表示,虽然数据规模缩小了,但仍接近于原数据的完整性。常用的数据归约策略:数据立方体聚集、维归约、数据

16、压缩、数值压缩、离散化、概念分层等。河北金融学院信息管理与工程系课程设计84.4.构造决策树构造决策树4.14.1 决策树分类的步骤决策树分类的步骤使用决策树进行分类分为两步:第 1 步:利用训练集建立并精化一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。第 2 步:利用生成完毕的决策树对输入数据进行分类。对输入的记录,从根结点依次测试记录的属性值,直到到达某个叶结点,从而找到该记录所在的类。4.24.2 建模建模4.2.1 输入数据由表 3-1 部分客户信息表的数据经过转化后得到表 4-1 如下所示:表 4-1 转化后的部分客户信息表年龄 学历 职业 缴费方式 开户时间 费用变化率 客户流失 N3 W3 Z1 T1 H2 F1 NO N2 W2 Z2 T2 H2 F2 NON1 W3 Z1 T3 H1 F2 YESN1 W3 Z1 T2 H1 F1 NO N1 W1 Z2 T2 H1 F1 NO N2 W2 Z3 T3 H1 F3 YES N3 W1 Z3 T1 H2 F1 NO 转化方法如下

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 论文指导/设计

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号