数据仓库与数据挖掘案例分析

上传人:新** 文档编号:460079330 上传时间:2023-05-11 格式:DOC 页数:16 大小:663KB
返回 下载 相关 举报
数据仓库与数据挖掘案例分析_第1页
第1页 / 共16页
数据仓库与数据挖掘案例分析_第2页
第2页 / 共16页
数据仓库与数据挖掘案例分析_第3页
第3页 / 共16页
数据仓库与数据挖掘案例分析_第4页
第4页 / 共16页
数据仓库与数据挖掘案例分析_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《数据仓库与数据挖掘案例分析》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘案例分析(16页珍藏版)》请在金锄头文库上搜索。

1、补充:结合电信领域的特点,通过一个应用实例来说明数据仓库的具体实施。第一阶段:项目的需求和目标分析一主题划分 图1 一个简单的电信企业模型 在电信企业中,现有的业务数据库系统一般包括客户服务DB、网管DB、计费DB、账务DB、市场信息DB、营销信息DB等。通常按照电信公司的业务需求可能将其主题域划分为:1客户发展:主要是对客户群体进行分类后,从不同的角度展现公司提供服务的客户数量情况。可以按照客户本身的自然属性(如年龄、入网时间、受教育程度等)、客户的扩展属性(如信用度、客户价值、流失概率、挽留价值等)等不同的角度进行划分。2收益分析:主要是通过不同的角度对电信企业的收益情况进行分析。收益分析

2、的角度可以按照客户的自然属性和扩展属性划分,也可以按照电信公司的业务运营进行划分,还可以按照机构设置、地理角度对收益进行划分。3呼叫特征分析:分析不同类型客户在呼叫上具有的特征。具体的衡量指标包括很多,例如:把呼叫分成长呼叫、中呼叫、短呼叫。 4业务发展:主要是对电信公司提供的各种业务的使用客户人数、客户特征、收益金额进行比较,以发现具有潜力的业务或者为开展能够吸引更多客户的新业务提供指导。 5营销管理:主要是对各电信营业厅、电信分销商、代销商的经营状况进行分析。 6市场竞争:主要是对电信运营商的竞争对手的客户发展、收益、业务运营等多方面的信息进行收集并分析,从而为本企业提供市场竞争的策略。其

3、中涉及的数据主要是外部数据和非格式化数据。 7服务质量:主要包括发现客户投诉、咨询的焦点,发现公司内部在运营上存在的问题等。 8网络优化管理:分析如何有优化网络的配置、如何更好的对网络进行管理等问题。二电信领域常见的数据挖掘层次的问题1客户群体划分:客户群具有两个金字塔(占总客户数10%的大客户的消费金额占了总客户消费金额的70%)。对客户群体进行合理的划分,有利于公司了解一下信息:l 公司的主要客户群体的情况;l 主要客户群体的呼叫特征行为;l 主要客户群体对业务的需求;l 大客户群体的呼叫特征行为;l 大客户群体对业务的需求;在对客户进行合理划分的基础上,可以针对不同客户群体的特点采用不同

4、的策略,对其消费行为进行合理的引导。(可以采用聚类或分类的方法)2客户流失划分:挽留一个老客户比争取一个新客户付出的代价要小得多。 3客户欺诈分析:主要针对可能出现的客户恶意欠费问题进行分析。 4网络规划优化 5网管中的分析问题:网络优化、网管故障的相关性分析、统计设备的故障率等。三项目规划在项目初期,应当选择当前最急需、能在较短时间内发生效益、业务模型清晰、能从现有系统或通过其他方式获取数据的决策目标作为系统初期的任务。在后续阶段,根据新的需求、现有系统的改造情况、积累的经验确定新的决策目标,逐步发展完善数据仓库系统。在建设初期,可以将以下五个主题列在前期任务考虑之内。客户发展分析收益情况分

5、析呼叫特征分析营销管理分析业务发展分析作为螺旋开发的第一个循环,建议先将客户发展、收益分析、呼叫特征分析列入第一阶段的任务。四需求分析的形成 1任务说明书:在任务书中,指明了DW中涉及的主题有3个:客户发展、收益分析、呼叫特征分析。在DM层次上,需要完成对客户的流失概率、客户价值、客户挽留价值进行合理的评估。 2需求说明书:任务说明书需要设计人员进一步将其细化成需求说明书。在进行需求分析的时候,设计人员最少应当访问如下的几类人: (1)项目负责人:对整个项目的宏观目标和方向有比较准确的把握,对DW项目有全境式的认识。 (2)主题涉及部门的管理人员:了解部门内部对数据的需求。使得设计人员能够站在

6、管理人员对数据需求的角度来看问题,而不是站在技术的角度看问题。 (3)DSS分析员和未来使用DW系统的最终用户:从他们那里了解他们目前是如何为管理层提供决策辅助信息的,提供信息的内容包括哪些,信息的来源有哪些,在处理数据中遇到的棘手问题有哪些,另一方面是他们对DW系统的需求和希望,并可以从最终用户那里了解比较细致的需求。 (4)企业的信息技术人员,包括数据管理人员(对数据质量进行管理的人员,不是DBA)、数据库管理员、数据库设计人员、程序员:从他们那里了解现有业务系统是如何构造的、现有系统的运行情况、现有系统中存在哪些问题、应该从哪儿获取需要的数据。 各类人员同项目需求的关系如下图所示: 设计

7、人员需要将从上述人员那儿了解到的信息进行归纳总结,权衡各方面的因素,最终给出一个比较具体的功能需求描述。下表给出一个收益分析主题的功能需求分析例子。收益分析不同时期的收入总量分析及预测。收益结构分析(月租费、本地话费、漫游费、入网费、卡费等)功能名称功能描述度量涉及维度维成员品牌和业务构成收益的品牌构成各种品牌在企业总收益中所占比重和数量收益、收益百分比品牌神州行、全球通收益的业务构成各项业务在企业总收益中所占比重和数量收益、收益百分比业务类别通话、短信息呼叫特征企业收益的主/被叫构成主叫、被叫对于企业收益的贡献收益、收益百分比主/被叫主叫、被叫企业收益的呼叫类型构成长途、漫游、本地对于企业收

8、益的贡献收益、收益百分比通话类型长途、漫游、本地企业收益的呼叫时长构成不同时长的呼叫对于企业收益的贡献收益、收益百分比呼叫时长1分钟以下15分钟510分钟10分钟以上等客户特征企业收益的客户性别构成不同性别客户对于企业收益的贡献收益、收益百分比、客户数量客户性别男女未知企业收益的客户年龄构成不同年龄段客户对于企业收益的贡献收益、收益百分比、客户数量客户年龄段18以下1822。企业收益的大客户构成大客户和普通客户对于企业收益的贡献收益、收益百分比是否大客户维大客户普通客户企业收益的客户类型构成企业收益客户类型的百分比构成客户数量、百分比客户类型单位、个人企业收益的不同在网时间客户构成不同在网时间

9、客户对于企业收益的贡献收益、收益百分比、客户数量在网时间维一年以下12年。企业收益的客户信用积分构成。收益、收益百分比、客户数量客户信用积分根据数据的具体分布企业收益的客户信用度层次构成。信用度客户信用度按照挖掘后的结果进行划分企业收益的客户消费层次构成。收益、收益百分比、客户数量客户消费层次按照挖掘后的结果进行划分企业收益的客户离网概率层次构成。收益、收益百分比、客户数量客户离网概率层次按照挖掘后的结果进行划分企业收益的客户挽留价值层次构成。收益、收益百分比、客户数量客户挽留价值层次按照挖掘后的结果进行划分企业收益的客户价值层次构成。收益、收益百分比、客户数量客户价值层次按照挖掘后的结果进行

10、划分企业收益中小客户成为大客户概率层次构成。收益、收益百分比、客户数量中小客户成为大客户概率层次按照挖掘后的结果进行划分欠费情况和预测欠缴费比例。金额(收益)、金额百分比、客户数量、客户数量百分比欠缴费欠费、缴费不同时期的企业欠费金额。欠费金额时间月、季、半年、年不同时期的企业欠费数量。欠费客户数量时间月、季、半年、年收益预测话费收益预测。短信费收益预测。不同时期的企业收益情况。收益收益/欠费百分比时间月、季、半年、年在完成功能需求后,可以用一个数据搜集报告把所需的不同的数据源的属性列出来。此报告至少包含如下的内容:l 数据源(内/外部数据源)l 负责维护此数据的个人/组织l 设计该数据库的D

11、BAl 数据使用的存储方式l 数据中包含的表、字段、记录的数据l 数据的大小l 数据的物理存储介质l 安全需求l 数据在使用上的限制l 数据是否涉及用户的隐私问题 数据描述报告中应包含如下内容:l 字段/列的数据l 字段是空缺值的数据/百分比l 字段的名字对于每个字段,通常需要记录:l 数据类型l 数据定义l 数据描述l 计量单位l 所有不同值的个数l 值的列表l 值的范围l 空值的百分比l 收集信息(例如怎么得到、在哪、什么条件下)l 时间频度(每天、每周、每月)l 特别时间数据l 主键/外键关系第二阶段 系统结构和模型设计一系统结构设计 1数据量的估算 2系统硬件结构/软件结构选择:根据数

12、据量的估算,选择相应的软硬件配制。二DW模型的设计 1可利用的数据:要确定完成以上3个主题,需要3部分信息:l 客户的基本信息表l 客户的账单l 客户的呼叫信息表(CDR表) 2粒度的确定:设计DW中,最重要的步骤。l 对于客户基本信息表采用单一的数据粒度即可。l 对于客户的账务信息也采用单一的数据粒度。但是要增加合适的时间段和合适的导出数据(按季度综合、按年度综合)l 对于客户的呼叫信息采用双重粒度:对于近34个月的细节呼叫/计费数据,保留在DW中,并定期聚合成按月综合表,然后将细节数据导出至磁带设备,为新的细节数据腾出空间。 3定义DW的关系模式:这个过程需要第二阶段形成的数据搜集报告进行

13、记录系统的定义。所谓记录系统的定义就是指明DW中关系表各个字段来源于哪个业务数据库的哪张表的哪个字段。还需要建立一个数据字典,将问题中涉及的关键词语的含义、在字段命名中将采用什么关键字等信息记载在数据字典中。 三OLAP模型设计 OLAP模型设计的思路是先分析问题中可能涉及的所有维度,针对每一个主题确定需要的维度和度量变量,然后为每一个主题定义关系模式,从而形成一个星型结构。在这个星型结构的基础上,可以生成多维数据表,建立多维数据库。 1项目设计的维度分析l 静态维度:指客户详细资料维、状态维、年龄段维、品牌维等不经常发生变化的纬度。静态维度并不一定是完全不变的,只是相对动态维度而言。l 动态

14、维度:指经常会发生变化的维度,例如客户的呼叫地理维度、呼叫时间维度、客户的费用层次纬度,这些维信息都将随着时间的变化而变化。l 目标维度:需要通过数据挖掘分析的目标。根据项目任务书中,我们主要的目标有分析客户的价值、客户的流失概率、客户的挽留价值、客户的信用度等。这些维度在进行DM之前是空缺的,在进行DM之后,利用DM的模型给这几个指标打分,然后在将这些数据补充回OLAP的维表和事实表中,供数据展现使用。 2各个主题的维度设计:以收益分析主体的维度设计说明书为例:模型名称: 收益分析模块功能: 用于企业收益构成分析对应的事实表:profit_s度量: 收益,每个用户账单记录产生的总费用金额数据粒度: 在事实表中,记录每个用户每月的费用信息。事实表存放5年之内的数据,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号