数据仓库和数据挖掘

上传人:206****923 文档编号:51635575 上传时间:2018-08-15 格式:PPT 页数:39 大小:1.87MB
返回 下载 相关 举报
数据仓库和数据挖掘_第1页
第1页 / 共39页
数据仓库和数据挖掘_第2页
第2页 / 共39页
数据仓库和数据挖掘_第3页
第3页 / 共39页
数据仓库和数据挖掘_第4页
第4页 / 共39页
数据仓库和数据挖掘_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《数据仓库和数据挖掘》由会员分享,可在线阅读,更多相关《数据仓库和数据挖掘(39页珍藏版)》请在金锄头文库上搜索。

1、 数据仓库和数据挖掘1第六章 数据仓库和数据挖掘第一节 数据仓库的原理 第二节 数据仓库体系结构 第三节 数据仓库的开发 第四节 联机分析处理OLAP 第五节 数据挖掘技术 第六节 数据挖掘的方法和工 具 2第一节数据仓库的原理 一、数据仓库的基本定义 1. 基本定义 数据仓库专家W.H.Inmon的描述:数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、随时间不断变化(Time Variant)的数据集合,用于支持管理决策。3第一节数据仓库的原理 一、数据仓库的基本定义 Informix公司的负责人定义数据仓库

2、为: 数据仓库将分布在企业网络中不同职能部门的业务 数据集成,并存储在一个单一的集成关系型数据库中 。 利用这种集成信息,可方便用户对信息的访问,更 可使决策人员对一段时间的历史数据进行分析,研究 事物发展走势。 4第一节数据仓库的原理 2. 数据仓库中的一些基本概念 粒度粒度是数据仓库的数据单位中保存数据的细化或综合 程度的级别; 分割就是将数据分散到各自的物理单元中去,使它们能被 独立地处理; 维是人们观察数据的特定角度,是数据的视图。5第一节数据仓库的原理二、数据仓库的特点 面向主题的 集成的 相对稳定的 随时间变化的6第一节数据仓库的原理 面向主题的 数据仓库中的数据是按一定的主题进行

3、组织的,为 按主题进行决策的过程提供信息。 集成的 数据仓库中数据是来源于分散的数据库数据,它们 进入数据仓库中时必须通过一定的方法来使之在数据 仓库中有统一的形式和含义。T或F转 换T、F是、否0、1(a)集成7第一节数据仓库的原理 相对稳定的也称为非易失性。数据仓库的数据主要供企业决策分 析之用,某个数据一旦进入数据仓库,只要它没有数据 仓库的数据存储期限,一般就不会被更新。插入删除访问修改数据库抽取、载入时间维数据仓库(b)非易失性 8第一节数据仓库的原理 随时间变化的数据仓库随着时间的变化,不断增加新的数据。支持决策系统 数据仓库组织的根本目的在于对决策的支持。 9第一节数据仓库的原理

4、三、数据仓库中的层次结构 一个典型的企业数据仓库系统3层 结构: q 数据获取层、 q 数据存储与管理层、 q 数据访问层 10第一节数据仓库的原理 数据获取层 对MIS、网管和其他外部数据源中的数据进行抽取、清洗 、转换,并加载到数据仓库。 数据存储与管理层 实现对数据仓库中数据和源数据的集中存储与管理,进行 抽取、清理和有效集成,按照主题进行组织,并可根据需求 建立面向部门和主题的部门级数据仓库,或称为数据集市。 采用在线分析处理(OnLine Analysis Processing,OLAP) 服务器技术对数据进行有效集成和组织,以便进行多角度、 多层次的分析,并发现趋势。11第一节数据

5、仓库的原理 数据访问层通过多样化的前端分析展示工具(主要包括各 种报表工具、查询工具、数据分析工具、数据挖 掘工具以及各种基于数据仓库或数据集市的应用 开发工具),实现对数据仓库中数据的分析和处 理,形成市场经营和决策工作所需要的科学、准 确、及时的业务信息和知识。12第一节数据仓库的原理四、数据仓库与数据库的区 别 13第二节数据仓库体系结构一、数据仓库的体系结构通常包括4个部分:源数据、管理部分、数据仓库和应用部分。14第二节数据仓库体系结构二、数据仓库体系结构中的重要组件 1. 数据抽取、转换、装载工具ETL( Extract/Transformation/Load) 它是把数据从不同的

6、操作型数据库中拿出来,进行必要 的转化、整理,再存放到数据仓库内。15第二节数据仓库体系结构2. 元数据 元数据在数据仓库中的用途有: 起到辅助决策分析过程中定位数据仓库的目录 作用 数据从业务环境向数据仓库环境传送时数据仓 库的目录内容 指导从近期基本数据到轻度综合数据和到高度 综合数据的综合算法选择 16第二节数据仓库体系结构3. 数据集市(Data Marts) 为了特定的应用目的或应用范围,而从数据仓库中独立出 来的一部分数据,也可称为部门数据或主题数据(Subject data) 4. 数据仓库管理工具 数据仓库管理工具的主要内容有:安全和特权管理;跟踪 数据的更新;数据质量检查;管

7、理和更新元数据;审计和报 告数据仓库的使用和状态;删除数据;复制、分割和分发数 据;备份和恢复;存储管理 17第三节数据仓库的开发一、数据仓库的数据模式 1. 星式模式 一个简单的星式模式(Star Schema)是由一个 事实表和多个维表组成。复杂的星式模式包含若干个 事实表和维表。 18第三节数据仓库的开发2. 雪花模式 雪花模式(Snow Flake Schema)是对星式模式的扩展,它的每个维表都可以向外面连接多个维。 19第三节数据仓库的开发二、数据仓库的设计方法 在设计数据仓库时一般采用的方法有自顶向下方法 、自底向上方法、自顶向下和自底向上综合的方法。 1. 自顶向下方法 自顶向

8、下方法是从商业需求出发直接构建全局数据 仓库,即从原来分散存储的已有的企业OLTP数据库 中通过数据提取、净化、转换和聚集等处理建立全局 数据仓库。 20第三节数据仓库的开发2. 自底向上方法 自底向上方法是从实验和基于技术的原型入手, 选择一个部门或特定商业问题的数据集市开始,全 局数据仓库则建立在数据集市的基础上。 21第三节数据仓库的开发三、数据仓库的设计过程 1. 需求分析 了解用户建立数据仓库的商业目标、使用数据仓库 的操作环境、数据仓库应具有的功能、特征和开发投资 ; 2. 概念模型设计 确定各个主题域的内容以及它们之间的关系,建立E- R图; 3. 逻辑模型设计 将概念模型转换为

9、逻辑模型,主要工作有分析主题 域、确定粒度划分层次、确定数据分割策略、确定关系 模式、定义记录系统;4. 物理模型的设计 确定数据的存储结构、索引策略、数据的存储位置 和存储分配; 22第三节数据仓库的开发四、数据仓库生命周期数据仓库的整个生命周期:q调查需求,q分析环境,q确定体系结构,q数据仓库具体设计,q数据仓库的运行和数据管理23第三节数据仓库的开发5个过程可分为两大阶段: 数据仓库生成阶段这一阶段的工作主要是将数据从操作型的数 据库系统装载到数据仓库中来,如何正确抽取 、综合、转换数据是要考虑的主要问题。 数据仓库的运行和维护阶段 24第四节联机分析处理OLAP一、OLAP的基本概念

10、 联机分析处理:是一种使分析人员能迅速、一致、交互地从各个方面 观察信息,以达到深入理解数据的目的的软件技术。是一种基于关系数据库并对数据进行分析的交互式决 策方法。25第四节联机分析处理OLAPOLAP的功能特征: 具有多维数据库 OLAP给出了数据仓库中数据的多维逻辑视图, 这种视图通过一种更为直观的分析模型,使得模型 设计和分析就像是在层次之间与层次内部的计算一 样便利。 26第四节联机分析处理OLAP 交互式的快速响应查询 OLAP采用了细剖较低层的详细数据或统揽较高层的概括 性和聚集数据来进行交互式查询,同时为了提高查询和响应 速度,它还采用了数据的矩阵存储技术和一系列的数据压缩 技

11、术。 动态数据分析 OLAP则是侧重于动态数据的分析,并可以在其内部对数 据进行自动转换,使得用户可以在交互过程中获得明确的分 析结果 切片功能、钻探功能 27第四节联机分析处理OLAP 多维检索功能 OLAP能检索并显示二维或三维表格、图表和图表 中的数据,并能容易地变换为基准轴,从而能综合 不同角度分析到的数据,更好地支持决策 28第四节联机分析处理OLAP二、OLAP实例 29第四节联机分析处理OLAP二、OLAP实例30第四节联机分析处理OLAP三、OLAP和OLTP的区别OLTPOLAP数据源数据库原始数据数据库导出数据或数据仓 库数据数据类型细节性数据综合性数据更新次数经常更新不可

12、更新,但要周期性地 刷新用户数量数量大相对较少面向对象面向操作人员,支持日 常操作面向决策人员,支持管理 需要31第五节数据挖掘技术一、数据挖掘的基本概念 1. 数据挖掘的定义 数据挖掘就是从大量的、不完全的、有噪声的、 模糊和随机的实际应用数据中提取隐含的、目前未 知但潜在有用的模式的非平凡过程;数据挖掘作为知识发现过程的一个特定步骤,它 是对大容量数据和数据间关系进行考察和建模的方 法集;它的目标是将大容量数据转化为有用的知识信息 ,这些信息对预测趋势和决策行为是至关重要的。 32第五节数据挖掘技术2. 数据挖掘的过程 数据挖掘的过程一般由3阶段组成:数据准 备、数据挖掘、结果的解释评估。

13、数据挖掘可以描述 为这3个阶段的反复.33第五节数据挖掘技术3. 数据挖掘的分类 根据数据挖掘的任务分:预测模型挖掘、总结规则 挖掘、关联规则挖掘、聚类规则挖掘、趋势分析、偏 差分析等;根据数据挖掘的对象分:关系数据库、面向对象数 据库、空间数据库、时态数据库、文本数据源、多媒 体数据、异质数据库、遗产(legacy)数据库,以及 Web数据源;根据数据挖掘的方法分:决策树法、人工神经网络 方法、统计分析方法、遗传方法和数据库方法。34第五节数据挖掘技术二、数据挖掘的功能 q自动预测趋势和行为 q关联分析 q聚类 q概念描述 q偏差检测 35第五节数据挖掘技术三、数据挖掘与OLAP 数据挖掘和

14、OLAP是两种不同基于数据仓库的 应用工具,它们的用途不同,基于的技术也大相 径庭;OLAP是验证式的工具, OLAP分析过程是一 个演绎推理的过程;数据挖掘与OLAP不同的地方是,数据挖掘不 是用于验证某个假定的模型的正确性,而是在数 据库中自己寻找模型;数据挖掘过程是一个归纳的过程。 36第六节 数据挖掘的方法和工具一、数据挖掘的方法 数据挖掘的方法大致可分为4类: q 机器学习方法: 归纳学习方法、基于范例的推理CBR 、遗传算法、贝叶斯信念网络等 q 统计方法: 回归分析、判别分析、探索性分析、 以及模糊集、粗糙集、支持向量机等方 法 q 神经网络方法: 前向神经网络、自组织神经网络

15、q 数据库方法: 基于可视化的维数据分析或OLAP方 法 37第六节数据挖掘的方法和工具二、数据挖掘的系统qEnterprise Miner( SAS公司)qIntelligent Miner( IBM公司)qSetMiner( SGI公司)qClementine( SPSS公司)qWarehouse Studio( Sybase公司)qSee5( RuleQuest Research公司)等。 38第六节数据挖掘的方法和工具三、数据挖掘的应用 零售/市场识别顾客的购买模式发现顾客人口统计特征方面的关联预测对邮寄促销活动的反映市场购物分析 银行发现伪信用卡使用模式识别诚信顾客预测可能更换信用卡的顾客确定不同顾客群使用信用卡消费的情况 保险需求分析预测购买新险种的顾客39

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号