第二章基于数据仓库的数据挖掘技术ppt课件

上传人:我*** 文档编号:148626474 上传时间:2020-10-21 格式:PPT 页数:54 大小:130.50KB
返回 下载 相关 举报
第二章基于数据仓库的数据挖掘技术ppt课件_第1页
第1页 / 共54页
第二章基于数据仓库的数据挖掘技术ppt课件_第2页
第2页 / 共54页
第二章基于数据仓库的数据挖掘技术ppt课件_第3页
第3页 / 共54页
第二章基于数据仓库的数据挖掘技术ppt课件_第4页
第4页 / 共54页
第二章基于数据仓库的数据挖掘技术ppt课件_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《第二章基于数据仓库的数据挖掘技术ppt课件》由会员分享,可在线阅读,更多相关《第二章基于数据仓库的数据挖掘技术ppt课件(54页珍藏版)》请在金锄头文库上搜索。

1、第 二 章数据仓库原理,本章内容提要: 1、介绍数据仓库的结构和技术要求 2、介绍数据仓库的数据组织和模型 3、介绍元数据,第一节 数据仓库的结构和技术要求 一、数据仓库的总体结构 (一)数据仓库的概念结构 数据仓库的概念结构包含数据源、数 据准备区、数据仓库、数据集市以及 各种管理工具和应用工具等等。,数 据 准 备 区,数 据 仓 库,数 据 集 市,应用工具,用 户,内 部 数 据 源,外 部 数 据 源,管 理 工 具,(二)数据仓库的层次结构 (1)功能层 完成数据仓库和数据集市的结构、数 据的存取和使用等功能 (2)管理层 数据管理和元数据管理 (3)环境支持层 数据传输和数据仓库

2、基础结构,(三)数据仓库的结构模式 (1)数据仓库的自顶向下结构 (2)数据仓库的自底向上结构 比较: 指导思想 集成的力度 数据集市中的数据粒度,(3)企业级数据集市结构(EDMA)通过创建一个共享的结构, EDMA支持由数据集市到数据仓库的开发。 EDMA框架包括企业主题域、通用维、度量、业务规则和数据源,所有这些都在逻辑上统一的全局元数据中心库中表示出来。这种框架不是固定不变的,它随数据仓库的开发而不断调整。,数据源,数据源,数据源,数 据 驻 留 单 元,数据集市,数据集市,数据集市,数据仓库,应用服务器,全局元数据中心库,企业级数据集市结构(EDMA),二、数据集市 (一)数据集市(

3、Data Mart)的定义 数据集市是针对某个具有战略意义的 应用或者具体部门级的应用的数据仓 库,它支持用户利用已有的数据进行 管理决策。,(二)数据集市的特点 规模小,可采用多种方式灵活组织。 工作由业务部门主持定义、设计、 实施、管理和维护。 快速实现,代价较低,投资回收快,风 险小。 紧密集成。 可升级到数据仓库。,(三)数据集市的类型 从属数据集市 独立数据集市 注:可以从数据仓库的结构模式来理 解。,三、数据仓库的技术要求 (一)数据管理技术 大批量数据管理技术、数据仓库索引 和数据监视技术、元数据管理技术、 数据压缩技术和复合键码技术等等。,(二)数据存储技术 多介质存储设备管理

4、技术、数据存储 控制技术、数据并行存储技术、可变 长技术、锁切换技术等等。 (三)数据仓库接口技术 多技术接口技术、多语言接口技术、 数据的高效装载技术等等。,第二节 数据仓库的数据组织和模型 一、数据仓库的数据组织 数据仓库系统通常由数据仓库、管理 部分和分析工具三个部分组成。,数据库,数据文件,其它,数据仓库 管理工具,抽取/转 换/装载,元数据 管理,数据建模 工具,元数据,综合数据,当前数据,历史数据,用户查 询工具,C/S工具,OLAP工具,数据挖掘 工具,管理部分,存储部分,应用部分,数据仓库系统,(一)数据仓库管理部分 (1)建模工具,主要用于完成定义数 据源、数据仓库以及两者相

5、互转换、 清理的规则等工作。 (2)抽取/转换/装载,主要用于完成 获取数据、消除不一致现象和集成数 据等工作。,(3)管理工具,主要用于完成数据仓 库中数据的维护、安全、备份、恢 复、日志等工作。 (4)元数据管理,主要用于完成元数 据的管理、存储以及对整个数据仓库 的检测等工作。,(二)数据仓库存储部分 数据仓库中数据的组织通常采用分级 的方式来进行的,一般包括早期细节 数据、当前细节数据、轻度综合数 据、高度综合数据以及元数据等五部 分组成。,(三)数据仓库应用部分 数据仓库应用部分主要由一些分析工 具组成,主要包括检索查询工具、联 机分析处理工具和数据挖掘工具等等 组成。,数据仓库系统

6、采用典型的客户机/服 务器结构形式,其客户端的工作主要 包括客户交互、格式化查询、可视化 以及报表生成等内容,服务器端完成 各种复杂的计算以及其它综合功能。 这种方式有助于提高性能和可靠性、 降低数据传输量以及保证数据的安全 性等方面具有很大的好处。,二、数据仓库的数据模型 (一)数据模型设计过程与方法 数据模型是对现实世界进行抽象的工 具,需要将现实世界的事物及其有关 特征转换为信息世界的数据,才能对 信息进行处理与管理,这就需要依靠 数据模型作为这种转换的桥梁。这种 转换经历了现实世界、概念世界、逻 辑世界和计算机世界等环节。,身 高,张 三,客 户,客户与产品,特 性,个 体,整 体,整

7、体间联系,属 性,实 体,同质总体,异质总体,字 段,记 录,表文件,数据库,现实世界,概念世界,逻辑世界,计算机世界,信息 包图法,物理数据模型法,星型 图法,概念 模型,逻辑 模型,物理 模型,面向用户的需求,具体的技术细节,细化,作为数据仓库设计的模型,除了要有描述 概念世界的概念模型、描述逻辑世界的逻 辑模型和描述计算机世界的物理模型以 外,还有元数据模型和数据粒度模型。,现实世界,概念模型,逻辑模型,物理模型,数据仓库,元 数 据 模 型,数 据 粒 度 模 型,(二)概念模型设计(信息包图) 在需求分析阶段,通过与用户的交 流,明确用户的需求,并将这些需求 抽象为信息结构(即概念模

8、型)的过 程被称为概念模型设计。,因为数据仓库具有多维性,即其维度多在 三维或者三维以上,数据呈现难以直观 化,所以在此可以采用一种称为信息包图 的方法在平面上将多维空间展开,即用二 维表格来传递决策者分析处理的需求,来 反映数据仓库的多维性。 信息包图是一种公共的、一致的和紧凑的 概念模型设计工具,可以反映用户需求的 集中范围,能在适当的时间内将有效的信 息传递给希望获取它们的人。,信息包图由名称、维度、类别、层次和度 量等五部分组成。 1、名称:名称表达了信息包图所描述的 主要内容。它书写在信息包图的二维表格 的上方。 2、维度:维度是一个物理特性,也是一 个访问和表达数据的基本途径,还是

9、一个 观察和浏览数据的角度。它书写在信息包 图的二维表格的第一行的每栏目中。,3、类别:类别是指按照一定的标准(称 之为类属性)对维度全集的划分。一个维 度的各个类别在信息包图中用二维表格中 的某列来表示。 4、层次:层次是指在一个维度内为表达 细节程度不同的数据而按照次序划分的多 个描 述方面。一个维度的所有层次组成在 信息包图中用二维表格中的某列来表示。,5、度量:度量是多维空间中衡量决策人 员最为关心的信息的一种尺度,是用户 访问数据仓库的关键所在。它填在信息 包图里的二维表格的最下面的一框中。,信息包图的设计目标是要满足决策者的 信息需求,因此利用信息包图法来设计 数据仓库的概念模型的

10、时候,除了要确 定信息包图的各个组成部分的内容之 外,还需要重视决策者的信息需求,以 便使得最终所设计出的数据仓库的概念 模型具有很大的适用性。,(三)逻辑模型设计(星型图) 数据仓库的逻辑模型设计是指对主题的多 维模式进行描述,它是数据仓库的数据模 型设计中的重要一环。 最便于转换信息包图和执行分析处理的逻 辑模型设计工具是星型图 。 原因有二: 1、一一对应。 2、简明易懂。,与信息包图相对应,星型图由五类逻辑实 体组成:度量逻辑实体、维度逻辑实体、 层次逻辑实体、详细信息逻辑实体和类别 逻辑实体。 下面具体叙述组成星型图的各个逻辑实体 的含义: 1、度量逻辑实体:它是信息包图中的度量 对

11、象在星型图中的实现形式。度量逻辑实 体包含了一系列相关的事实,是用户最关 心的逻辑实体和分析处理活动的中心。用 矩形框来表示。,2、维度逻辑实体:它是信息包图中的维度 对象在星型图中的实现形式。维度逻辑实 体的作用是对度量逻辑实体的数据进行过 滤和聚合,使得返回的信息简单明了,从 而帮助数据仓库的用户轻松地得到分析处 理的结果。用菱形框来表示。 3、层次逻辑实体和详细信息逻辑实体:将 信息包图中的层次对象转换为星型图中的 层次逻辑实体,特别的是,对于一个维度 中最底层次的对象,可以转化成详细信息,逻辑实体。用六边形框来表示层次逻辑 实体,用八边形框来表示详细信息逻辑 实体。 4、类别逻辑实体:

12、它是信息包图中的类 别对象在星型图中的实现形式。类别逻 辑实体的作用是在对维全集进行分类的 基础上,归纳总结出类内的共同点和类 间的差异点。用椭圆形框来表示。,(四)物理模型设计(物理数据模型) 与星型图相对应,物理数据模型由五类表组 成:事实表、维表、层次表、详细信息表和 类别表,它们分别对应于度量逻辑实体、维 度逻辑实体、层次逻辑实体、详细信息逻辑 实体和类别逻辑实体。 1、事实表:事实表由两部分组成,一部分 为维表的外键所共同组成的主键,另一部 分为反映度量逻辑实体内容的数据列。它存 储的数据量相对较大,并且增加的速度也较 快。,2、维表:维表由维度逻辑实体代码、名称 和其它信息组成。它

13、存储的数据量相对较 小,并且增加的速度也较慢。 3、层次表和详细信息表:层次表和详细信 息表分别存储有层次逻辑实体和详细信息 逻辑实体的代码、名称和其它信息。它们 存储的数据量和增加的速度介于事实表和 维表之间。,4、类别表:类别表存放着类别逻辑实体的 代码、名称和其它描述信息。它存储的数 据量和增加的速度基本上与层次表类似。 因为数据仓库中的数据是几乎不更新的, 并且设计的最终目标是用来访问的,所以 可做非规范化处理,从而提高数据分析处 理的效率,改善数据仓库的性能。,友情提示: 因为事实表数据量巨大,而大数据量的表 在备份、恢复、处理以及用户查询等方面 需要很多的时间,所以在实践中,可以利

14、 用减少列的数量,降低每列的大小,把历 史数据归档到单独的事实表中等多种方法 来降低事实表的大小。另外,在事实表中 还要解决数据的精度和粒度的问题。,设计维度表的主要目的是把参考事实表的 数据放置在一个单独的表中。最常用的维 度表数据应该参考事实表,而不应该是通 过其它维度表间接参考事实表。这种方法 可以实现最小化的连接数量,提高系统的 性能。,三、数据仓库的性能优化 因为数据仓库的数据量比较大,分析处理 时涉及的数据范围比较广,所以要求优化 数据仓库的性能,在此,输入/输出是关 键。,依据数据仓库的数据量大并且操作单一的 特点,可以采取如下技术来优化: (1)合并表 (2)建立数据序列 (3

15、)引入冗余 (4)分割表 (5)生成导出数据 (6)建立广义索引,第三节 元数据 一、元数据的定义与作用 (一)元数据的定义 元数据是关于数据、操纵数据的进程和应 用程序的结构和意义的描述信息,其主要 目的是提供数据资源的全面指南,其范围 是从现实世界的概念上的一般概括到详细 的物理说明。,元数据在数据仓库的设计、运行中有着重 要的作用,它表述了数据仓库中的各个对 象,遍及数据仓库的所有方面,是数据仓 库中所有管理、操作、数据的数据,是整 个数据仓库的核心。,(二)元数据的作用 元数据的主要目的是为了计算机系统的结 构、开发过程和使用方法提供一致的文 档,帮助理解系统,并且为开发和利用系 统的

16、所有“角色”提供更加有效的支持, 如终端用户、系统管理者、应用程序开发 人员等等。,在数据仓库中,生成和管理元数据主要有 两个目的: 1、减轻数据仓库的管理工作量 (1)实现管理工作的自动化。 (2)支持系统的集成。 (3)实施复杂的安全机制。 (4)支持新的应用和业务过程建模分析与 设计。 (5)改善系统的灵活性和软件模块的可重 用性。,2、改善信息抽取 (1)提高数据质量。 (2)提高查询、检索以及结果的质量。 (3)改善数据分析。 上述目标一般可以通过两种方式来支持: (1)被动的方式。 (2)主动的方式。,二、元数据的分类 (一)按照作用对象来划分 1、关于基本数据的元数据 2、关于数据处理的元数据 3、关于企业组织结构的元数据 (二)按照抽象级别来划分 1、概念级元数据 2、逻辑级元数据 3、物理级元数据,(三)按照服务对象来划分 1、业务元数据 企业概念模型;多维数据模型;依 赖关系描述;导航帮助;基于业务术 语的查询;语义关

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号