数据仓库与数据挖掘案例分析

上传人:s9****2 文档编号:508631669 上传时间:2023-05-28 格式:DOCX 页数:17 大小:207.50KB
返回 下载 相关 举报
数据仓库与数据挖掘案例分析_第1页
第1页 / 共17页
数据仓库与数据挖掘案例分析_第2页
第2页 / 共17页
数据仓库与数据挖掘案例分析_第3页
第3页 / 共17页
数据仓库与数据挖掘案例分析_第4页
第4页 / 共17页
数据仓库与数据挖掘案例分析_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《数据仓库与数据挖掘案例分析》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘案例分析(17页珍藏版)》请在金锄头文库上搜索。

1、补充:结合电信领域的特点,通过一个应用实例来说明数据仓库的具体实施。第一阶段:项目的需求和目标分析图1 一个简单的电信企业模型在电信企业中,现有的业务数据库系统一般包括客户服务DB、网管DB、计费DB、账务 DB、市场信息DB、营销信息DB等。通常按照电信公司的业务需求可能将其主题域划分为:1. 客户发展:主要是对客户群体进行分类后,从不同的角度展现公司提供服务的客户数 量情况。可以按照客户本身的自然属性(如年龄、入网时间、受教育程度等)、客户的扩展 属性(如信用度、客户价值、流失概率、挽留价值等)等不同的角度进行划分。2. 收益分析:主要是通过不同的角度对电信企业的收益情况进行分析。收益分析

2、的角度 可以按照客户的自然属性和扩展属性划分,也可以按照电信公司的业务运营进行划分,还可 以按照机构设置、地理角度对收益进行划分。3. 呼叫特征分析:分析不同类型客户在呼叫上具有的特征。具体的衡量指标包括很多, 例如:把呼叫分成长呼叫、中呼叫、短呼叫。4. 业务发展:主要是对电信公司提供的各种业务的使用客户人数、客户特征、收益金额 进行比较,以发现具有潜力的业务或者为开展能够吸引更多客户的新业务提供指导。5. 营销管理:主要是对各电信营业厅、电信分销商、代销商的经营状况进行分析。6. 市场竞争:主要是对电信运营商的竞争对手的客户发展、收益、业务运营等多方面 的信息进行收集并分析,从而为本企业提

3、供市场竞争的策略。其中涉及的数据主要是外部数 据和非格式化数据。7. 服务质量:主要包括发现客户投诉、咨询的焦点,发现公司内部在运营上存在的问 题等。8. 网络优化管理:分析如何有优化网络的配置、如何更好的对网络进行管理等问题。二. 电信领域常见的数据挖掘层次的问题1. 客户群体划分:客户群具有两个金字塔(占总客户数10%的大客户的消费金额占了 总客户消费金额的70%)。对客户群体进行合理的划分,有利于公司了解一下信息:公司的主要客户群体的情况;主要客户群体的呼叫特征行为;主要客户群体对业务的需求; 大客户群体的呼叫特征行为; 大客户群体对业务的需求;在对客户进行合理划分的基础上,可以针对不同

4、客户群体的特点采用不同的策略,对其 消费行为进行合理的引导。(可以采用聚类或分类的方法)2. 客户流失划分:挽留一个老客户比争取一个新客户付出的代价要小得多。3. 客户欺诈分析:主要针对可能出现的客户恶意欠费问题进行分析。4. 网络规划优化5. 网管中的分析问题:网络优化、网管故障的相关性分析、统计设备的故障率等。三. 项目规划在项目初期,应当选择当前最急需、能在较短时间内发生效益、业务模型清晰、能从现 有系统或通过其他方式获取数据的决策目标作为系统初期的任务。在后续阶段,根据新的需 求、现有系统的改造情况、积累的经验确定新的决策目标,逐步发展完善数据仓库系统。在建设初期,可以将以下五个主题列

5、在前期任务考虑之内。客户发展分析收益情况分析呼叫特征分析营销管理分析业务发展分析作为螺旋开发的第一个循环,建议先将客户发展、收益分析、呼叫特征分析列入第一阶 段的任务。四. 需求分析的形成1. 任务说明书:在任务书中,指明了 DW中涉及的主题有3个:客户发展、收益分析、 呼叫特征分析。在DM层次上,需要完成对客户的流失概率、客户价值、客户挽留价值进行 合理的评估。2. 需求说明书:任务说明书需要设计人员进一步将其细化成需求说明书。在进行需求分 析的时候,设计人员最少应当访问如下的几类人:(1)项目负责人:对整个项目的宏观目标和方向有比较准确的把握,对DW项目有全境 式的认识。(2)主题涉及部门

6、的管理人员:了解部门内部对数据的需求。使得设计人员能够站在 管理人员对数据需求的角度来看问题,而不是站在技术的角度看问题。(3)DSS分析员和未来使用DW系统的最终用户:从他们那里了解他们目前是如何为管 理层提供决策辅助信息的,提供信息的内容包括哪些,信息的来源有哪些,在处理数据中遇 到的棘手问题有哪些,另一方面是他们对DW系统的需求和希望,并可以从最终用户那里了 解比较细致的需求。(4)企业的信息技术人员,包括数据管理人员(对数据质量进行管理的人员,不是 DBA)、数据库管理员、数据库设计人员、程序员:从他们那里了解现有业务系统是如何构 造的、现有系统的运行情况、现有系统中存在哪些问题、应该

7、从哪儿获取需要的数据。各类人员同项目需求的关系如下图所示:部门高层管理人员一 _, 一 一 一 _ 一 一了解部门内部对数据的需求卒决策辅助信息的使用者(当然还包括小更高层的人员)垢帛土业的旦效田占 了解部门内部某一部分对数据的需求DSS分析员|未来的最终用户|及其细节4手工的数据分析、非集成的数据分析业务系统、j业务系统.业务系统W 如业务系统的设计、使 用、维护者企业技术人员 了解现有系统的细节设计人员需要将从上述人员那儿了解到的信息进行归纳总结,权衡各方面的因素,最终给出一个比较具体的功能需求描述。下表给出一个收益分析主题的功能需求分析例子。收益分析不同时期的收入总量分析及预测。收益结构

8、分析(月租费、本地话费、漫游 费、入网费、卡费等)功能名称功能描述度量涉及维度维成员品牌和业务构成收益的品牌构成各种品牌在企业总 收益中所占比重和 数量收益、收 益百分比品牌神州行、 全球通收益的业务构成各项业务在企业总 收益中所占比重和数量收益、收 益百分比业务类别通话、 短信息呼叫特征企业收益的主/被 叫构成主叫、被叫对于企 业收益的贡献收益、收 益百分比主/被叫主叫、被 叫企业收益的呼叫 类型构成长途、漫游、本地 对于企业收益的贡 献收益、收 益百分比通话类型长途、漫 游、本地企业收益的呼叫 时长构成不同时长的呼叫对 于企业收益的贡献收益、收 益百分比呼叫时长1分钟以 下15分钟 510

9、分钟 10分钟以 上等客户特征企业收益的客户 性别构成不同性别客户对于 企业收益的贡献收益、收 益百分客户性别男女4 / 16项目负责人了解项目的全境, 把握项目的目标和方向比、客户 数量未知企业收益的客户 年龄构成不同年龄段客户对 于企业收益的贡献收益、收 益百分 比、客户 数量客户年龄段18以下 1822O O O企业收益的大客 户构成大客户和普通客户 对于企业收益的贡 击卜 献收益、收 益百分比是否大客户 维大客户 普通客户企业收益的客户 类型构成企业收益客户类型 的百分比构成客户数 量、百分 比客户类型单位、 个人企业收益的不同 在网时间客户构 成不同在网时间客户 对于企业收益的贡 击

10、卜 献收益、收 益百分 比、客户 数量在网时间维一年以下 12年O O O企业收益的客户 信用积分构成000收益、收 益百分 比、客户 数量客户信用积 分_U=t_|J=t根据数据 的具体分布企业收益的客户 信用度层次构成O O O信用度客户信用度按照挖掘 后的结果 进行划分企业收益的客户 消费层次构成O O O收益、收 益百分 比、客户 数量客户消费层 次按照挖掘 后的结果进行划分企业收益的客户 离网概率层次构 成O O O收益、收 益百分 比、客户 数量客户离网概 率层次按照挖掘后的结果 进行划分企业收益的客户 挽留价值层次构 成O O O收益、收 益百分 比、客户 数量客户挽留价 值层次

11、按照挖掘 后的结果 进行划分企业收益的客户 价值层次构成000收益、收 益百分 比、客户 数量客户价值层 次按照挖掘后的结果 进行划分企业收益中小客 户成为大客户概 率层次构成O O O收益、收 益百分 比、客户 数量中小客户成 为大客户概 率层次按照挖掘 后的结果进行划分欠费情况和预测欠缴费比例O O O金额(收 益)、金额百分 比、 客户数 量、客户数量 百分比欠缴费欠费、 缴费不同时期的企业 欠费金额O OO欠费金额时间月、季、 半年、年不同时期的企业Ar欠费数量000欠费客户 数量时间月、季、 半年、年收益预测话费收益预测O O O短信费收益预测O O O不同时期的企业 收益情况000

12、收益 收益/欠费 百分比时间月、季、半年、年在完成功能需求后,可以用一个数据搜集报告把所需的不同的数据源的属性列出来。此 报告至少包含如下的内容:数据源(内/外部数据源)负责维护此数据的个人/组织设计该数据库的DBA数据使用的存储方式数据中包含的表、字段、记录的数据数据的大小数据的物理存储介质安全需求数据在使用上的限制数据是否涉及用户的隐私问题数据描述报告中应包含如下内容:字段/列的数据字段是空缺值的数据/百分比字段的名字对于每个字段,通常需要记录:数据类型数据定义数据描述计量单位所有不同值的个数值的列表值的范围空值的百分比收集信息(例如怎么得到、在哪、什么条件下)时间频度(每天、每周、每月)

13、特别时间数据主键/外键关系第二阶段系统结构和模型设计一. 系统结构设计1. 数据量的估算2. 系统硬件结构/软件结构选择:根据数据量的估算,选择相应的软硬件配制。二. DW模型的设计1. 可利用的数据:要确定完成以上3个主题,需要3部分信息:客户的基本信息表客户的账单客户的呼叫信息表(CDR表)用户基本信息表用户账单CDR表用户识别码用户号码用户类别用户级别用户信用度用户姓名用户通信地址用户身份证号用户联系电话用户邮编用户归属局通信费支付方式开户日期用户状态用户密码开户行编码信用卡卡号用户银行账号账号开户名用户付款状态用户号码月租费附加功能费本地话费省内漫游费省际漫游费国际漫游费账单金额短信费滞纳金金额总话费付款方式开户银行代码用户银行账号呼叫类型IMSI 号主叫号码被叫号码通话开始时间通话时长基本通话费基本通话附加费长途费长途附加费通话位置漫游类型2. 粒度的确定:设计DW中,最重要的步骤。对于客户基本信息表采用单一的数据粒度即可。对于客户的账务信息也采用单一的数据粒度。但是要增加合适的时间段和合适的导 出数据(按季度综合、按年度综合)对于客户的呼叫信息采用双重粒度:对于近34个月的细节呼叫/计费数据,保留 在DW中,并定期聚合成按月综合表,然后将细节数据导出至磁带设备,为新的细 节数据腾出空间。按月综合的数据3. 定义DW的关系模式:这个过

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号