数据库数据挖掘概述.ppt

上传人:F****n 文档编号:97124930 上传时间:2019-09-02 格式:PPT 页数:81 大小:1.08MB
返回 下载 相关 举报
数据库数据挖掘概述.ppt_第1页
第1页 / 共81页
数据库数据挖掘概述.ppt_第2页
第2页 / 共81页
数据库数据挖掘概述.ppt_第3页
第3页 / 共81页
数据库数据挖掘概述.ppt_第4页
第4页 / 共81页
数据库数据挖掘概述.ppt_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《数据库数据挖掘概述.ppt》由会员分享,可在线阅读,更多相关《数据库数据挖掘概述.ppt(81页珍藏版)》请在金锄头文库上搜索。

1、数据仓库与数据挖掘综述,概念、体系结构、趋势、应用,报告人:朱建秋,提纲,数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目),数据仓库概念,基本概念 对数据仓库的一些误解,基本概念数据仓库,Data warehouse is a subject oriented, integrated,non-volatile and time variant collection of data in support of managements decision Inmo

2、n,1996. Data warehouse is a set of methods, techniques,and tools that may be leveraged together to produce a vehicle that delivers data to end-users on an integrated platform Ladley,1997. Data warehouse is a process of crating, maintaining,and using a decision-support infrastructure Appleton,1995Hal

3、ey,1997Gardner 1998.,基本概念数据仓库特征 Inmon,1996,面向主题 一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;) 典型的主题领域:客户;产品;交易;帐目 主题领域以一组相关的表来具体实现 相关的表通过公共的键码联系起来(如:顾客标识号Customer ID) 每个键码都有时间元素(从日期到日期;每月累积;单独日期) 主题内数据可以存储在不同介质上(综合级,细节级,多粒度) 集成 数据提取、净化、转换、装载 稳定性 批处理增加,仓库已经存在的数据不会改变 随时间而变化(时间维) 管理决策支持,基本概念Data Mart,

4、 ODS,Data Mart 数据集市 - 小型的,面向部门或工作组级数据仓库。 Operation Data Store 操作数据存储 ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject -Oriented)、集成的、可变的、 当前或接近当前的。,基本概念ETL, 元数据,粒度,分割,ETL ETL(Extract/Transformation/Load)数据装载、转换、抽取工具。Microsoft DTS; IBM Visual Warehouse etc. 元数据 关于数据的数据,用于构

5、造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。 粒度 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。 分割 数据分散到各自的物理单元中去,它们能独立地处理。,对数据仓库的一些误解,数据仓库与OLAP 星型数据模型 多维分析 数据仓库不是一个虚拟的概念 数据仓库与范式理论 需要非范式化处理,提纲,数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目),数据仓库体系结构及组件,体系结构 ETL工具 元数据库(Repository)

6、及元数据管理 数据访问和分析工具,体系结构 Pieter ,1998,Source Databases,Architected Data Marts,Data Access and Analysis,End-User DW Tools,Central Data Warehouse,Central Data Warehouse,Mid- Tier,Mid- Tier,Data Mart,Data Mart,Local Metadata,Metadata Exchange,MDB,Data Cleansing Tool,Relational,Appl. Package,Legacy,Externa

7、l,RDBMS,RDBMS,带ODS的体系结构,Source Databases,Architected Data Marts,Data Access and Analysis,Central Data Ware- house and ODS,Central Data Warehouse,Mid- Tier,RDBMS,Data Mart,Mid- Tier,RDBMS,Data Mart,Local Metadata,Metadata Exchange,ODS,OLTP Tools,End-User DW Tools,现实环境异质性Douglas Hackney ,2001,Custom M

8、arketing Data Warehouse,Packaged Oracle Financial Data Warehouse,Packaged I2 Supply Chain Non- Architected Data Mart,Subset Data Marts,Oracle Financials,i2 Supply Chain,Siebel CRM,3rd Party,e-Commerce,联合型数据仓库/数据集市体系结构,Real Time ODS,Federated Financial Data Warehouse,Subset Data Marts,Common Staging

9、Area,Oracle Financials,i2 Supply Chain,Siebel CRM,3rd Party,Federated Packaged I2 Supply Chain Data Marts,Analytical Applications,e-Commerce,Real Time Data Mining and Analytics,Real Time Segmentation, Classification, Qualification, Offerings, etc.,Federated Marketing Data Warehouse,Front- and back-o

10、ffice OLTP,e-Business systems,External information providers,CRM Analytics & Reporting,Supply Chain Analytics & Reporting,EKP - Enterprise Knowledge Management Portal,EPM Analytics & Reporting,Business information & recommendations,Informed decisions & actions,Financial Analytics & Reporting,HR Anal

11、ytics & Reporting,闭环的联合型BI体系结构,数据仓库的焦点问题-数据的获得、存储和使用,Relational,Package,Legacy,External source,Data Clean Tool,Data Staging,Enterprise Data Warehouse,Datamart,Datamart,RDBMS ROLAP,RDBMS,数据仓库和集市的加载能力至关重要 数据仓库和集市的查询输出能力至关重要,ETL工具,去掉操作型数据库中的不需要的数据 统一转换数据的名称和定义 计算汇总数据和派生数据 估计遗失数据的缺省值 调节源数据的定义变化,ETL工具体系结

12、构,元数据库及元数据管理,元数据分类:技术元数据;商业元数据;数据仓库操作型信息。-Alex Berson etc, 1999 技术元数据 包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。包括: 数据源信息 转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法) 目标数据的仓库对象和数据结构定义 数据清洗和数据增加的规则 数据映射操作 访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等,元数据库及元数据管理,商业元数据 给用户易于理解的信息,包括: 主题区和信息对象类型,包括查询、报表、图像、音频、视频等 Internet主

13、页 支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等 数据仓库操作型信息 例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法,元数据库及元数据管理,元数据库(metadata repository)和工具 Martin Stardt,2000,数据访问和分析工具,报表 OLAP 数据挖掘,提纲,数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目),数据仓库设计,自上而下(Top-Down) 自底

14、而上(Bottom Up) 混合的方法 数据仓库建模,Top-down Approach,Build Enterprise data warehouse Common central data model Data re-engineering performed once Minimize redundancy and inconsistency Detailed and history data; global data discovery Build datamarts from the Enterprise Data Warehouse (EDW) Subset of EDW rele

15、vant to department Mostly summarized data Direct dependency on EDW data availability,Local Data Mart,External Data,Local Data Mart,Operational Data,自底而上设计方法,创建部门的数据集市 范围局限于一个主题区域 快速的 ROI - 局部的商业需求得到满足 本部门自治 - 设计上具有灵活性 对其他部门数据集市是一个好的指导 容易复制到其他部门 需要为每个部门做数据重建 有一定级别的冗余和不一致性 一个切实可行的方法 扩大到企业数据仓库 创建EDB作为一个长期的目标,局部数据集市,操作型数据 (局部),局部数据集市,企业数据仓库 EDB,数据仓库建模 星型模式,Example of Star Schema,数据仓库建模 雪片模式,Date Month,Date,Sales Fact Table,Date,Product,Store,Customer,unit_sales,dollar_sales

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号