管理信息系统_9

上传人:子 文档编号:51898529 上传时间:2018-08-17 格式:PPT 页数:67 大小:582KB
返回 下载 相关 举报
管理信息系统_9_第1页
第1页 / 共67页
管理信息系统_9_第2页
第2页 / 共67页
管理信息系统_9_第3页
第3页 / 共67页
管理信息系统_9_第4页
第4页 / 共67页
管理信息系统_9_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《管理信息系统_9》由会员分享,可在线阅读,更多相关《管理信息系统_9(67页珍藏版)》请在金锄头文库上搜索。

1、第9章 数据仓库及数据挖掘 第 2页本章要点1.数据仓库概念2.数据收集方法与变换方法3.数据仓库数据组织方式与数据结构特点4.数据仓库开发方法5.数据挖掘的概念与意义6.数据挖掘的主要理论与应用方法第 3页9.1数据仓库概念9.1.1数据仓库与数据挖掘的提出在信息化时代,企业的各级管理人员迫切需要根据企业的现状和历史数据做出判断和决策,数据处理的重点从传统的业务处理扩展到在线分析处理,并从中得到面向各 种主题的统计信息和决策支持信息。另外,随着企业的管理信息系统或事务处理系统 的建立和运行,每时每刻都有大量的数据产生,数据源越 来越多,数据量急剧膨胀,如何有效地组织和利用这些数 据,特别是历

2、史的数据,从数据中产生有用的信息,进而 从信息中发现知识、从海量的数据中发掘有用的知识成为 令人关注的问题。 第 4页数据仓库技术与数据挖掘概念初步数据仓库技术是针对解决常规数据库所不能解决的问题而 产生的一种数据组织的技术解决方案,它是基于大规模数据 库的智能决策支持系统环境的核心。数据挖掘是从数据中发现隐含有用的信息或知识,是知识 发现过程的一个特定步骤,它包含一系列技术及应用。数据仓库既是数据挖掘的主要对象,又为数据挖掘提供了 新的应用领域,数据仓库和数据挖掘是结合起来一起发展的 ,二者是现代管理信息系统的重要研究内容和应用工具。 第 5页数据库到数据仓库的演变 自企业应用管理信息系统以

3、来,企业中的数据组织体系结 构经历了如下发展演变过程。1)数据的自然分散存储进化到数据简单的自然集成储存( 围绕部门)2)数据简单的自然集成数据储存发展到数据的归类分散存 储共存 (按数据库)“蜘蛛网”现象存在问题:(1)数据可信性差。(2)生产 率低。(3)无法将数据转换成信息。3)操作型数据与分析型数据集成存储概念的划分操作型和分析型数据库之间的不同: (1)不同的数据需求类型。 (2)不同的支持技术。 (3)不同的用户群体。 (4)不同的处理特点。分析型或信息型处理服务于决策支 持过程中的管理需求。分析人员很少修改数据。相对于传 统的操作型处理,在分析型处理中响应时间要较宽。 第 6页9

4、.1.2 数据仓库的定义 W.H.Inmon提出了“数据仓库”的概念: 数据仓库是一个面向主题的、集成的、永久 的、且随时间不断变化的数据集合,用于支 持管理层的决策。 第 7页9.1.3 数据仓库的特征 1)数据仓库是面向主题的 2)数据仓库是集成的 。该集成概念包括数据提取、净化、 转换、装载。在数据集成中包括根据需要、根据主题进行有效 的数据组织。 3)数据仓库是相对稳定的(非遗失性) 4)数据仓库能反映历史变化(随时间变化)。 (1)数据仓库 中的数据随时间不断增加,不断将当前最新的操作型数据统一 集成到数据仓库中。这些数据除非被删除,不再进行更新操作 。(2)数据仓库中,存储数据的时

5、间跨度较操作型系统中存储数 据的时间跨度要大得多,因而数据仓库中存储的数据量很大。 (3)操作型数据库中包含有当前的数据,这些数据是准确的,可 被有效地访问和更新。而数据仓库中的数据仅仅是一系列某一 时刻生成的复杂“快照”,它包含了对当前和历史数据的重新组 织,被加工成面向主题的不同粒度的数据。(4)根据应用的需要 ,操作型数据中可以不包含时间元素。而数据仓库中总是包含 时间元素、并且它还是键码的一部分,主要用于趋势分析。第 8页9.1.4 数据仓库的架构 (1)数据源。(2)数据的存储与管理 。(3)查询与分析工具 第 9页9.2 数据收集9.2.1 数据抽取数据收集,分为数据抽取、清洗、转

6、换、集成、装载和更 新等环节。而清洗、转换、集成又可以归纳为数据的预处理或 称为数据变换。在确定数据抽取时,要考虑以下因素: (1) 数据仓库需要收集的数据既要涉及管理信息系统中的当 前工作数据库,也要涉及其历史数据库或备份存档数据库。 (2)数据仓库的设计者必须同时满足巳知需求和未知需求, 必须将一些无关的和不明显的数据合并到数据仓库中,来满足 已知或潜在需求的要求。 (3)数据仓库既要包括详细数据,也要包含概括数据。 (4)数据仓库还包含外部数据,以用来支持多种可预测性的 数据分析和数据挖掘活动。 9.2 第 10页9.2.2 数据变换 数据变换任务:1)将有噪声的数据(包 含错误数值或偏

7、离期待值的异常值等数据) 更正或清除。2)将不完整的数据(缺乏参数 值或者仅有汇总数据)补充完整。3)将不一 致的数据(命名约定和数据编码方面的不一 致)求取一致。数据变换技术包括:数据清洗、数据集成 、数据转换和数据约简 第 11页1)数据清洗(Data Cleaning)数据清洗的任务包括填补遗失的数据、平滑噪声数据、确 定或去掉异常数据、以及解决不一致问题。在数据清洗技术中对于遗失的数值的填补有如下方法:(1 )忽略该记录。(2)人工填写遗失的数值。(3)使用全局 常数来填补遗失的数值。(4)使用遗失的数值的属性的平均 值来填补遗失的数值。(5)使用最可能的数值来填补遗失的 数值。在数据

8、清理技术中对噪声数据的平滑有如下方法:(1)分 箱法。(2)聚类法。(3)回归法。(4)通过计算机和人工 检查进行修正。 在数据清理技术中对不一致的数据采用如下方法:(1)根据 外部的参考数据手工修正。(2)设计专门的程序进行改正。 (3)利用数据约束来检测数据的不一致。第 12页数据集成与数据转换数据集成是将来自多个数据源(如数据库和平面文件等) 的数据结合成一个一致的数据储存。要考虑:实体确认、冗 余、数据冲突等问题。3)数据转换是将数据转换或统一成数据仓库所需要的适 当形式,如: (1)平滑(Smoothing):利用数据清洗中提及的分箱、 聚类和回归技术来从数据中移去噪声。(2)聚集(

9、 Aggregation):对数据进行汇总和聚集操作。(3)概化( Generalization):将概念层次中的低层次的数据或基本数 据用较高层次的数据取代。(4)标称化(Normalization) :将数据进行比例变换,使其分布在规定的一个小范围内。 (5)设立新的属性(Attribute construction):增加新的 属性。第 13页4)数据约简(Data Reduction) 数据约简是在维护数据完整性的前提下,减少数据的容量 的技术。如:(1)数据聚集(Data cube aggregation): 将数据按时间汇总。如图所示。(2)维度约简:将不相关的、弱相关的、或者冗余

10、的属性或维 度检测并删除。 (3)数据压缩:利用编码机制来减少数据尺寸 (4)数字化减少:利用另外的、较小数据表示方法来取代或代 表数据。例如用参数化模型(存储数据的模型参数)来取代实 际的数据,或用非参数化方法,如聚类、采样和直方图来代表 数据。 (5)离散化和概念化:将原始数据用范围较高的概念层次表示 。第 14页9.2.3 数据装载将经过数据预处理后的数据,按照一定的要求或 规划,导入到数据仓库的过程称为数据装载。数据 装载的一般过程是:确定数据仓库数据与源数据之 间的对应关系,按照数据仓库的表结构在源数据中 产生相应的文本文件,在产生文本文件的过程中通 过访问数据抽取对照表来实现各种数

11、据转换、净化 和整合。再将数据通过一定的方式输入到服务器端 ,通过某种工具将数据装载入数据仓库。 第 15页9.2.4 数据周期性更新在数据仓库的生命周期内,系统需要通过对源数据的管理 ,时刻保持数据源与数据仓库之间的映射关系,通过后台抽 取程序(包括集成与分割、聚集、转换、映像等),实现源 数据的动态抽取,来达到数据仓库的不断更新,以反映数据 的历史变化。数据周期性更新的任务主要包括:要定期地从其数据源获取新的数据;要根据分析或运行的需要,对不存在的数据进行补充、对 不合理的数据进行祛除、对不一致的数据进行调整。对于存放过久、意义不大的数据要进行删除。 第 16页9.3 数据组织 9.3.1

12、 数据仓库的数据类型。包含5类数据:当前的详细 数据、旧的详细数据、轻度汇总的数据、高度汇总的数据、 元数据。元数据是关于数据的数据,它处于数据仓库的上层,记录 数据仓库中对象的位置。例如: (1)程序员所知的数据结构。 (2)DSS分析员所知的数据结构。 (3)数据仓库的源数据。 (4)数据加入数据仓库时的转换。 (5)数据模型。 (6)数据模型和数据仓库的关系。 (7)抽取数据的历史记录。第 17页9.3.2 数据组织方式简单堆积组织 方式2)轮转综合 数据存储组织 方式 第 18页3)简单直接文件组织 方式4)连续文件组织方式第 19页9.3.3 数据组织结构 数据仓库基于多维数据模型,

13、以一个数据立方体来观察数 据,允许以多维的形式来对数据进行建模和观察,是用维度 和事实来定义的。维度是一个组织要保持其记录的方面或实体。例如,一个 商品的维度表可能包含有商品名称、品牌和类型等属性。维 度表可以由用户或专家定义,或者在数据分布的基础上自动 地产生和调整。 一个多维数据模型通常是围绕一个中心主题而组织的,例 如销售情况,这个主题用一个事实表来表示。事实是用数表 示的度量,可以将其看作数量,通过这些数量我们来分析维 度之间的关系。事实表包含有这些事实的名称,或度量,以 及关联相关的维度表的关键字。 第 20页二维的销售数据 地区=“温哥华”时间( 季 度 )商品(种类)家用电 器计

14、算机电话安防用 品第一60582514400第二68095231512第三812102330501第四927103838580第 21页三维的销售数据 时 间 (季度)地区=“温 哥华”地区=“多 伦多”地区=“纽约 ”商品(种类 )商品(种类 )商品(种类 )家 电计 算 机电 话安 防家 电计 算 机电 话安 防家 电计 算 机电 话安 防第 一6 0 582 51 44 0 08 1 87 4 64 359 110 8 796 83 887 2第 二6 8 095 23 15 1 28 9 47 6 95 268 211 3 010 2 44 192 5第 三8 1 210 2 33 0

15、5 0 19 4 07 9 55 872 810 3 410 4 84 510 0 2第 四9 2 710 3 83 85 8 09 7 88 6 45 978 411 4 210 9 15 489 4第 22页供应商作为第四维度 第 23页2)多维数据库的模式 多维模型以星型模式、雪花模式或者事实星云模 式的形式存在。 星型模式第 24页雪花模式雪花模式是星 型模式的一种 变形。当星型 模式中的某些 维度表被规范 化后,使得表 中的某些数据 分离成另外的 表。第 25页事实星云模式复杂的应用可能需要多个事实表来共享维度表。这种模式可 以看成星的集合,因此被称为银河模式(Galaxy sche

16、ma) 或事实星云模式 第 26页9.3.4 数据集市数据集市是数据仓库的部门级的子集或微型数据 仓库,它关注的是所选择的主题或者某个类型的分 析。其任务是向组织中的职能部门提供信息或用于 划分数据仓库的数据以反映不同的主题。例如,组 织的数据仓库包括了销售、财务、人力资源等信息 ,而销售部门可能有一个数据集市专门用来分析零 售渠道中的产品活动,或者在某个地区总部有一个 数据集市专门用于分析这个地区的销售额等。第 27页2.数据集市的创建创建数据集市的方法,第一种是直接从 OLTP数据库系统中获取数据,放入需要数据 的数据集市中,此时数据集市设计为完全独 立的微型数据仓库,作为分布式数据仓库的 成员来构成总体结构。第二种是从OLTP系统 中获取数据放入中心数据仓库中,然后数据 从数据仓库中流入相应的数据集市中。 第 28页3.数据集市的设计原则数据集市必须设计为主数据仓库的组件,以使数据组织 、格式和模式在整个数据仓库中保持一致。不一致的表设计 、更新机制或维度层次结构会妨碍数据在整个数据仓库中的 重新使用,并会导致由同一数据产生不一致的报告。例如, 财务部门数据集市生成的汇总报

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号