数据挖掘技术及在电信行业中的应用

上传人:s9****2 文档编号:512707913 上传时间:2023-08-04 格式:DOCX 页数:19 大小:218.27KB
返回 下载 相关 举报
数据挖掘技术及在电信行业中的应用_第1页
第1页 / 共19页
数据挖掘技术及在电信行业中的应用_第2页
第2页 / 共19页
数据挖掘技术及在电信行业中的应用_第3页
第3页 / 共19页
数据挖掘技术及在电信行业中的应用_第4页
第4页 / 共19页
数据挖掘技术及在电信行业中的应用_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《数据挖掘技术及在电信行业中的应用》由会员分享,可在线阅读,更多相关《数据挖掘技术及在电信行业中的应用(19页珍藏版)》请在金锄头文库上搜索。

1、一、数据挖掘研究概述1.1数据挖掘的概念数据挖掘又常被称为数据库中的知识发现,UsamaFayyad等对其下的定义为:从大量数 据中获取有效的、新颖的、潜在而有用的、最终可理解的信息的非平凡过程,这些信息的 表现形式有概念、规则、模式等。数据挖掘是一门交叉学科,其中融合了统计学、机器学 习、数据库和数据仓库技术等多个领域的研究成果,为海量数据中的知识提取提供了一整 套面向不同需求的算法。数据挖掘是一门实用性的学科,其主要特点是对海量数据进行抽取、转换、分析等处 理,并从中归纳出有趣的模式或规律辅助决策,因此,数据挖掘的产生和发展是和数据库 的发展密切相关的。二十世纪六七十年代,数据库技术处于发

2、展的初期,数据量相对较小, 利用结构化查询语言SQL已经基本能够满足事务处理和数据分析的需要从二十世纪八十 年代开始,随着先进数据库系统、基于web的数据库系统和数据仓库的诞生和迅速发展, 数据量急剧增加,数据分析的要求也变得越来越复杂,这就迫切需要一套从海量数据中提 取知识的方法论,因此,数据挖掘作为一门独立的学科应运而生。下图展示了数据挖掘和 数据仓库的联系,从图中可以看到,数据仓库是数据挖掘的基础。隘揑号管理 口二 目膨站叫血甜工具图1-1数据仓库与数据挖掘确切地说,数据挖掘只是数据库中的知识发现,(Knowledge Discovery in Database,简 称KDD)的一个子过

3、程,但却代表着获取知识的动态过程,因此,常将整个知识发现的过 程称为数据挖掘。由图1-2可知,整个知识发现的过程是由若干挖掘步骤组成,而数据挖 掘仅仅是其中的一个主要步骤。整个知识发现的主要步骤有(1) 数据清洗(Data Cleaning)清除噪声和无关挖掘主题的数据(2) 数据集成(DataIntegration)将来源于多个数据源的相关数据进行组合(3) 数据转换(DataTransformation)将数据转换为易于挖掘的数据存储形式(4) 数据挖掘(Data Mining)知识发现的一个核心步骤,用智能的方法从海量数据 中提取数据模式或规律(5) 模式评估(Pattern Evalu

4、ation)依据一定的评估标准从挖掘结果筛选出具有实 际指导意义的模式(6) 知识表示(Knowledge Presentation)利用可视化和知识表达技术,对所提取的知识进行展示。图1-2数据库中的知识发现(KDD)流程示意图1.2数据挖掘的分类和应用数据挖掘技术涵盖的范围很广,可以用来解决各类不同的实际问题,下面从数据 挖掘的任务和功能这两个不同的角度对数据挖掘进行分类。首先,从数据挖掘任务的角度对数据挖掘进行分类。数据挖掘是以数据挖掘任务 为单位的,一个数据挖掘任务走完数据挖掘的整个流程,其中包含了挖掘的各个环节, 如图1-2所示。数据挖掘任务可以分为描述和预测两类描述性的挖掘任务刻画

5、数据的 一般特性,是对数据中所蕴含的规则的描述,或者根据数据的相似程度将数据分成若 干组预测性挖掘任务是在当前数据的基础上,对未来数据的某种行为做出预测,所使 用的数据都是可以明确知道结果的。描述和预测的主要区别在于描述是静态的,是抓 取数据的主要特征,并加以归纳和总结预测是动态的,是指通过学习,将当前学到的 知识推广到未来,是更为高级的一种知识提取形式。其次,从数据挖掘功能的角度对数据挖掘进行分类。根据数据挖掘的不同功能, 可将数据挖掘分成以下几类:(1) 概念描述(Concept Description)概念描述是数据挖掘最简单和直接的功能,它 指的是以汇总的、简洁的、精确的方式描述数据库

6、中的大量的细节数据,以方 便用户通过数据做出决策。通常可以通过数据特征化、数据区分、数据特征比 较等方法得到概念描述,也可通过一些统计学的方法对数据进行描述。(2) 关联分析(Association Analysis):关联分析是指从大量数据中发现项集之间有趣的关联。关联分析广泛地应用于购物篮或事物数据分析中,可以有效地帮助 商家制定许多市场营销方面的决策,使他们知道哪些物品或服务应该被捆绑在 一起销售,以提高销售额,“啤酒和尿布”的例子是关联规则最具代表性的应 用。(3) 分类和预测(Classificationand Forecast):分类和预测是两种性质类似的数据分 析形式,因为两者都

7、是根据当前数据行为预测未来的数据行为,所不同的是, 分类通常预测的是类标签,类标签通常是离散值,而预测通常用于对连续值的 预测,例如对某个连续属性的缺失值做出估计。分类是数据挖掘最重要的功能, 其实际应用也最为广泛。(4) 聚类分析(Clustering):聚类和分类的功能类似,都是预测类标签,但从学习方 式的角度看,两者的实现机理却是相反的聚类不依赖任何先验知识,只根据 数据的某些特征来定义数据之间的距离,如使用最简单的欧式距离,从而衡量 数据之间的相似度,将相似度大的归入一类因此,通常将分类称作有指导的 学习,而将聚类称作无指导的学习。(5) 离群点分析(Outlier Analysis)

8、通常称那些远离大多数点的少数点为离群点针 对数据集中的离群点,一般的做法是将其视为噪声或异常而丢弃,但在如故障 诊断、欺诈检测等应用中,离群点本身可能是非常重要的信息,因此,如何检 测离群点并对其含义进行合理解释也是数据挖掘的重要的研究方向之一。(6) 演变分析 (Evolution Analysis) 数据演变分析是对行为随时间变化的对象的规 律或趋势的描述并建模。这种分析包括时间序列数据分析、序列模式匹配和基 于相似性的数据分析。通过这种分析,可以识别整个股票市场和特定公司的股 票演变规律,从而帮助预测股票市场价格的未来走向,支持股票投资者进行决 策。在实际的工程应用中,往往根据实际作用把

9、挖掘得到的模式细分为:关联模式、分 类模式、回归模式、聚类模式、时间序列模式等等。分类模式和回归模式是使用最普 遍的模式,两者都是通过对当前数据建模,以对数据的未知属性质值做出预测,所不 同的是,分类针对离散属性,而回归针对连续属性。分类模式、回归模式、时间序列 模式也被认为是受监督知识,因为在建立模式前数据的结果是已知的,可以用来检测 模式的准确性,模式的产生是在先验知识的指导下进行的一般在建立这些有监督模式 的时候,使用其中一部分数据作为样本,用另一部分数据来检验和校正模式,因此, 这两部分数据分别称作训练数据集和检验数据集。聚类模式、关联模式、序列模式则 是非监督知识,因为在模式建立前的

10、结果是未知的,模式的产生不受任何监督,没有 任何先验知识的指导。通过这些模式,我们一般可以从中获得广义型知识 (Generalization)、分类型知识(Classification)、预测型知讽Prediction)、关联型知识 (Association)、偏差型知讽Deviation)等类型的知识。数据挖掘技术诞生于实际应用,由此决定它是一门实践性的学科。目前,在很多 重要的领域,数据挖掘都广泛地应用于其中,发挥着积极的促进作用,尤其是在如银 行、电信、保险、交通、零售等商业应用领域,更是离不开数据挖掘。数据挖掘能够 解决许多典型的商业问题,其中包括:客户分群、数据库营销、交叉销售等市场

11、分析行 为,以及客户流失预测、客户信用评估、信用卡欺诈检测、股票价格分析与预测、金 融投资风险分析、购物篮分析等等。图1-3 描述了数据挖掘在解决具体的商业问题时 所遵循的一般流程。在统计和机器学习领域中也存在许多数据挖掘系统。另外,将数据仓库、联机事 务处理(OLTP联机分析处理(OLAP)和数据挖掘技术结合是近期数据库发展的一个趋 势。数据仓库和数据挖掘都可以完成对决策技术的支持,相互间有一定的内在联系, 两者集成,可以有效地提高系统的决策支持能力。目前,电信行业已经逐步建立起数 据仓库系统,在数据仓库的基础上将逐步建立如下数据挖掘专题:客户价值模型、客户 信用等级模型、客户流失预测模型、

12、交叉销售模型、营销计划预演模型和客户细分模 型等。数据挖掘在电信中的应用如图1-4所示。图1-3 CRISP-DM的参考模型数据、数据挖掘任务和数据挖掘方法的多样性和复杂性给数据挖掘提出了许多具有挑 战性的课题。数据挖掘语言的设计,高效、准确的挖掘算法和挖掘系统的开发,交互和继 承的数据挖掘环境的建立,以及应用数据挖掘技术解决大型应用问题,都是目前数据挖掘 研究人员、系统和应用开发人员所面临的主要难题。针对以上课题,数据挖掘产生了很多 研究分支,主要有:数据挖掘与数据库技术、数据仓库和Web数据库系统的集成、可伸缩 的数据挖掘算法、数据挖掘的应用、数据挖掘语言的标准化实现、数据挖掘的可视化、对

13、 于复杂数据类型进行挖掘的新方法、数据挖掘中的隐私保护与信息、安全等。图1-4数据挖掘在电信行业的应用1.3数据挖掘在电信行业的应用1.3.1数据挖掘在电信行业的应用分类数据挖掘是由其应用的需求所驱动的,每一个数据挖掘工程都有一个挖掘主题,描述 挖掘目标,指导整个挖掘过程。电信企业是典型的以数据为驱动的服务型企业,丰富的数 据资源以及行业内的激烈竞争,促使数据挖掘在该行业得到了较为广泛的应用。数据挖掘 在电信行业中的应用通常使用挖掘主题来分类,由于电信业务的复杂性和多样性,产生了 许多电信数据挖掘主题,下面对其中常见的主题做一简要的介绍。(1) 客户欺诈识别(Customer Fraud De

14、tection)指根据历史的客户欺诈数据建立用户属性、服务属性和客户消费数据与其欺诈可能性关联的模型,对每个客户在 未来实施欺诈的可能性进行量化,以达到客户欺诈的识别和预防。欺诈识别是 数据挖掘在电信中最为主要的应用之一,它的兴起缘于电信欺诈行为在电信业 的普遍存在和不断扩张,以及给电信运营商造成的越来越大的损失。本文重点 研究的客户恶意欠费欺诈预测便是客户欺诈识别中的一项重要内容。(2) 客户流失预测(Customer Churn Prediction)指通过分析客户的历史行为数据, 对客户的忠诚度做出评估,判断客户流失的可能性大小。客户流失的广泛应用 是因为电信行业,尤其是电信运营商之间日

15、趋激烈的竞争。竞争是电信市场的 未来趋势,尽可能多地争取新客户和保留老客户是电信市场营销的两大重要内 容,而客户流失预测是在为服务后者的基础上兴起的,它的主要作用是给出了 需要被挽留的客户范围,避免了营销手段的盲目性造成的成本浪费。(3) 客户细分(Customer Sub-division)指按照一定的标准将电信企业的现有客户划 分为不同的群体,采取“分而治之”的策略,针对不同的客户群采用不同的营 销手段,一方面可以节省营销成本,另一方面能够达到更优的营销效果。许多 营销者认为,行为变量,如场合、用户地位、使用率、忠诚度、购买阶段及购 买态度,是构建细分市场的最佳起点,而历史的电信客户行为数

16、据正好记录了 以上的这些关键信息,数据挖掘正好提供了处理和分析这些信息的有力手段。(4) 交又销售(Cross Sellion)指通过分析电信各类产品之间的关联,开发各类产品 的套餐捆绑策略,并且有针对性地对老客户销售其尚未使用过的相关产品。与 客户细分类似,交叉销售也是有针对性地进行销售,是重要的现代营销策略之 一,它并不是简单地将客户未购买的产品推销出去,而是根据每个个体的行为 特征,判断其已购买的和哪些未购买的产品有较大的关联,并将那些有较大关 联的未购买产品推销给该客户。以上四个挖掘主题在电信数据挖掘的应用中最为常见,除此之外,客户的消费模 式分析、客户盈利能力分析、目标客户定位、盗用模式分析和异常模式分析也在电信 行业得到了应用。随着电信行业中新问题的不断涌现,新的挖掘主题也会应运而生。1.3.2数据挖掘在电信行业的应用现状随着电信市场垄断格局的打破,各个电信企业间的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号