企业竞争的利器-数据仓库和数据挖掘

上传人:xian****812 文档编号:291662675 上传时间:2022-05-12 格式:PPT 页数:59 大小:1.27MB
返回 下载 相关 举报
企业竞争的利器-数据仓库和数据挖掘_第1页
第1页 / 共59页
企业竞争的利器-数据仓库和数据挖掘_第2页
第2页 / 共59页
企业竞争的利器-数据仓库和数据挖掘_第3页
第3页 / 共59页
企业竞争的利器-数据仓库和数据挖掘_第4页
第4页 / 共59页
企业竞争的利器-数据仓库和数据挖掘_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《企业竞争的利器-数据仓库和数据挖掘》由会员分享,可在线阅读,更多相关《企业竞争的利器-数据仓库和数据挖掘(59页珍藏版)》请在金锄头文库上搜索。

1、阮闯 博士多媒体通信事业部广东省邮电科学技术研究院电信企业参与竞争的利器电信企业参与竞争的利器-数据仓库和数据挖掘数据仓库和数据挖掘1电信企业参与竞争的利器-数据仓库和数据挖掘提要提要市场竞争-竞争技术数据仓库的基本认识数据仓库设计数据挖掘数据融合动力系统研究我们的实践2电信企业参与竞争的利器-数据仓库和数据挖掘市场竞争市场竞争-竞争技术竞争技术随着电信市场的开放,竞争将越来越激烈利润的降低使得必须从粗放的经营转变到集约的经营经营决策需要尽可能多的定量的依据经营决策需要尽可能快的速度所有这些需要技术上的支持-数据仓库和数据挖掘3电信企业参与竞争的利器-数据仓库和数据挖掘数据仓库的基本认识数据仓

2、库的基本认识4电信企业参与竞争的利器-数据仓库和数据挖掘统一认识: 什么是数据仓库技术(Data Warehousing)?l是一个处理过程,而不仅仅代表一组产品l是一个从大量的企业数据中发现有价信息的过程l是充分利用现有资源, 而不是摒弃重构l是提供系统及数据的多种访问形式电信企业参与竞争的利器-数据仓库和数据挖掘统一认识: 什么是数据仓库 (Data Warehouse)?数据仓库是在企业管理和决策中面向主题的,集成的, 与时间相关的和不可修改的数据集合Bill Inmon电信企业参与竞争的利器-数据仓库和数据挖掘统一认识: 数据仓库体系结构图电信企业参与竞争的利器-数据仓库和数据挖掘统一

3、认识: 数据仓库应用体系结构数据集成数据集成数据集成数据集成数据转换数据转换数据转换数据转换数据发布数据发布数据发布数据发布Warehouse Process ManagementWarehouse Process Management数据存取数据存取数据存取数据存取MetadataMetadatan数据集成数据集成: 集成不同业务系统中的数据集成不同业务系统中的数据n数据转换数据转换: 全部数据被转换成统一的数据格式全部数据被转换成统一的数据格式n数据发布数据发布: 数据被存储在靠近用户的地方数据被存储在靠近用户的地方n数据存取数据存取: 满足数据分析等应用需求满足数据分析等应用需求nMet

4、adata :元数据. 即数据仓库的数据字典.nWarehouse Process Management 保证数据仓库的正确实施电信企业参与竞争的利器-数据仓库和数据挖掘统一认识: 建设数据仓库的十二步1. 定义项目范围, 制定项目开发计划2. 确定在企业决策中至关重要的数据3. 用数据语言描述企业需求4. 建立并修正企业的逻辑数据模型5. 建立数据仓库数据模型6. 定义数据集市数据模型7. 定义可操作的数据源(OLTP数据)8. 详细设计9. 设计数据仓库的物理数据库10. 准备高层次的应用结构设计11. 定义各种技术规范12. 准备项目实施计划电信企业参与竞争的利器-数据仓库和数据挖掘统一

5、认识: 数据仓库建设取得成功的关键因素从项目建设的角度出发: 有一个坚实的数据仓库数据模型 有一个专职的数据仓库分析小组 有一个经过深思熟虑的执行计划 各方紧密配合 资金保证 好的自动化工具,支持设计过程和元数据管理 最终用户好用 各种工具齐全, 易得 正确的期望值 有专家支持从用户的角度出发:数据准确 数据易于管理 数据可以随时刷新 数据容易访问 数据表现通俗易懂 有利于正确的企业决策电信企业参与竞争的利器-数据仓库和数据挖掘数据量估算 一般情况下, 数据空间=数据量估算 * 2估算数据量时要考虑:现有数据日, 月, 季和年的增长率.数据仓库中保留多长时间的历史数据: 数据仓库中一般保留几年

6、数据. 操作型系统中一般只保留当前数据注意:数据仓库系统和OLTP系统不同, 它需要更大的临时空间, 用于排序操作和数据求和汇总数据仓库系统也需要较大的缓存空间, 用于驻留经常被访问的数据.电信企业参与竞争的利器-数据仓库和数据挖掘模型选择: Inmon 的数据分布式体系结构数据源系统ODS: 操作型数据存储集中式数据仓库数据集市OLTP系统时实数据实时/准时实数据数据以批方式修改数据日期: 1秒- 2 天历史数据数据以批方式修改数据日期: 1天 - 5 年历史和汇总数据数据以批方式修改数据日期: 1天 - 10 年n 数据源系统也可以直接给数据仓库和数据集市提供数据 电信企业参与竞争的利器-

7、数据仓库和数据挖掘模型选择: 集中式数据仓库模型OLTP数据源系统集中式数据仓库最终用户n数据被不断地从数据源系统累积到数据仓库中n数据格式和数据的取舍规则与OLTP系统独立n数据仓库中存放的是企业的数据, 可以跨业务领域nOLTP 系统 与数据仓库系统彼此独立, OLTP的性能不受影响电信企业参与竞争的利器-数据仓库和数据挖掘模型选择: 集中分布式数据仓库模型OLTP数据源系统集中式数据仓库按地域发布的数据集市地域性最终用户n 数据更靠近最终用户电信企业参与竞争的利器-数据仓库和数据挖掘模型选择: 分布式累积型数据仓库模型按地域发布的数据集市各地区的OLTP数据源系统集中式数据仓库n 集中定

8、义数据的集成与转换规则 n 数据传递从下往上n 此模型适用于敺植际綌企业电信企业参与竞争的利器-数据仓库和数据挖掘硬件与软件选择: 硬件选择数据库服务器的选择取决于数据库的大小和查询的复杂度电信企业参与竞争的利器-数据仓库和数据挖掘硬件与软件选择: 硬件选择(续)网络服务器:Single CPU Pentium-based serversUp to 10 GB DatabasesSingle processor UNIX platforms10 to 40 GB Databases适用于高度汇总(Highly Summaried)型数据仓库适用于做网关(Gateway)SMP 数据库服务器:2

9、 to 64 CPUs (通常 4 to 8)共享内存/硬盘大容量内存适用于中型和大型数据库SMP 供应商: Digital, HP, Pyramid, Sequent, Sun, Cray, IBM电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段: 数据仓库数据的多级模型OlderatomicdataCurrentatomicdataLightlysummarizedHighlysummarizedMETADATA85-90% of analysis10% of analysis电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段: 数据仓库数据建模的一般方法1. 获取最终用户的业务需求2.

10、 定义业务规则3. 建立主题(SA)数据视图4. 建立企业逻辑数据模型5. 定义操作型的数据源6. 建立数据仓库数据模型7. 必要的话, 把数据仓库模型分割成几个子模型, 分别建设, 以满足不同用户和不同工具的需要.注意注意: 数据仓库建设的每一步都要严格质量检查数据仓库建设的每一步都要严格质量检查, 每一步的实施每一步的实施可能要经过多次反复可能要经过多次反复.电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段: 数据建模的基本概念 模型模型 - 对主题的抽象表示. 数据模型数据模型 - 对一定范围的数据的定义,特征和关系的表示. 主题视图主题视图 - 高层主题及其关系的表示. 逻辑数据模型

11、逻辑数据模型 - 从最终用户的角度出发, 对企业中的信息的数学描述. 这里并不考虑数据的功能和物理属性. 数据仓库数据模型数据仓库数据模型 - 是反映在决策支持分析活动中对数据的使用的数据模型 实体实体(Entity) - 代表 人,物,地点和事件. 实体在数据模型中是唯一的. 关系关系(Relationship) - 两个实体之间的企业规则. 元素元素(Element) - 表现实体的低级属性.也称为属性(Attribute) 键键(Key) - 唯一识别一个实体的元素. 属性属性(Attribute) - 实体中的非键元素. 递归递归(Recursion) - 与自身相关的实体关系.电信企

12、业参与竞争的利器-数据仓库和数据挖掘设计阶段: 主题视图模型,逻辑数据模型与数据仓库数据模型之间的关系主题视图主题视图逻辑数据模型逻辑数据模型操作型数据模型操作型数据模型数据仓库数据仓库数据模型数据模型物理模型物理模型数据集市数据集市数据模型数据模型电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段: 什么是主题? 主题代表企业中数据的自然归类范畴主题代表企业中数据的自然归类范畴. 主题也称为高层实体主题也称为高层实体. 主题视图包含主题视图包含: 数据被归类成为广义的, 功能上独立的, 没有重叠的主题. 表现数据之间的主要关系. 表现模型之间的数据共性. 主题视图中的主题数目一般不超过 12

13、 个 可以先构造局部主题视图, 然后合并成全局主题视图.电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段: 局部主题视图CustomerOrderProductOrderPartProductCustomerOrderEmployeesPartSupplierUser View 1User View 2User View 3User View 4电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段: 全局主题视图CustomerOrderEmployeesPartProductSupplier电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段: 建立逻辑数据模型的基本方法l基于主题视图基于主题

14、视图, 把主题视图中的数据定义转入到逻辑把主题视图中的数据定义转入到逻辑数据模型中数据模型中.l删除重复数据项删除重复数据项l识别某些数据共性识别某些数据共性, 比如比如: 数据类型数据类型, .l识别主题间的关系识别主题间的关系l分解多对多的关系分解多对多的关系l用范式理论检验逻辑数据模型用范式理论检验逻辑数据模型l由用户审核逻辑数据模型由用户审核逻辑数据模型l命名规则审核命名规则审核电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段: 主题视图与逻辑数据模型ProductOrderHigh-level主题视图主题视图Mid-level逻辑数据模型逻辑数据模型Customer IDCusto

15、mer NameCredit RatingCustomer IDCustomer Address TypeAddress Line 1Address CityAddress StateAddress Zip-codeOrderCustomer IDSIC CodeNo. EmployeesCommercialCustomer IDNo. KidsIncome LevelResidentialCustomerCustomerSelectedSubject Area电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段: 逻辑数据模型与数据仓库数据模型的区别逻辑数据模型逻辑数据模型 数据仓库数据模型数

16、据仓库数据模型范式化范式化 非范式化非范式化详细数据详细数据详细和汇总数据详细和汇总数据企业运作角度企业运作角度 企业决策和战略角度企业决策和战略角度可能含有时间键可能含有时间键 必须含有时间属性必须含有时间属性没有派生数据没有派生数据 含有派生的战略数据含有派生的战略数据无数据数组无数据数组 有数据数组有数据数组以企业规则为中心以企业规则为中心 以数据的使用和稳定性为中心以数据的使用和稳定性为中心 电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段: 数据粒度分析数据粒度数据粒度(Data Granularity )- 代表数据的细节化程度. 粒度越大, 数据的汇总程度越高. 事务级数据的粒度最小, 它是汇总型数据的数据源. 数据仓库中数据的粒度取决于数据仓库的类型. 数据仓库中数据的粒度可以和操作型系统的数据粒度一样, 也可以不一样. 当粒度发生改变时, 数据仓库数据模型要反映出这种变化. 如果仅仅存储汇总型数据, 那么数据的细节型分析就无法做到电信企业参与竞争的利器-数据仓库和数据挖掘设计阶段: 数据粒度分析在数据仓库中, 多层(Multi-tier)体系结构表达的是数据的汇总程

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号