数据仓库与数据挖掘期末综合复习

上传人:第*** 文档编号:31142669 上传时间:2018-02-05 格式:DOC 页数:28 大小:2.01MB
返回 下载 相关 举报
数据仓库与数据挖掘期末综合复习_第1页
第1页 / 共28页
数据仓库与数据挖掘期末综合复习_第2页
第2页 / 共28页
数据仓库与数据挖掘期末综合复习_第3页
第3页 / 共28页
数据仓库与数据挖掘期末综合复习_第4页
第4页 / 共28页
数据仓库与数据挖掘期末综合复习_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《数据仓库与数据挖掘期末综合复习》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘期末综合复习(28页珍藏版)》请在金锄头文库上搜索。

1、数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。3、数据处理通常分成两大类:联机事务处理和联机分析处理。4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。5、ROLAP 是基于关系数据库的 OLAP 实现,而 MOLAP 是基于多维

2、数据结构组织的 OLAP 实现。OLAP 技术的有关概念 :OLAP 根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下 4 种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据

3、和业务规则。10、从应用的角度看,数据仓库的发展演变可以归纳为 5 个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。11、什么是数据仓库?数据仓库的特点主要有哪些?数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。数据仓库的特点包含以下几个方面:(1)面向主题。操

4、作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。(2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。(3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期

5、的加载(或刷新)操作。(4)反映历史变化。操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。12、数据挖掘的概念数据挖掘,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现。 数据挖掘的方法:直接数据挖掘、间接数据挖掘。13、数

6、据仓库与数据挖掘的关系若将数据仓库比作矿井,那么数据挖掘就是深入矿井采矿的工作;数据挖掘是从数据仓库中找出有用信息的一种过程与技术。14、数据仓库系统的体系结构的分类(1)两层架构(Generic Two-Level Architecture)。(2)独立型数据集市(Independent Data Mart)。(3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。(4)逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse)。15、数据仓库的未来

7、(1)在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。(2)在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。(3)在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web 技术紧密结合。按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及,将成为数据库设计的一

8、个明确分支,成为管理信息系统设计的必备16、请列出 3 种数据仓库产品,并说明其优缺点。(1)IBM 公司提供了一套基于可视化数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse(VW),Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如 BO)和数据挖掘工具(如 SAS)。其中,VW 是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server 支持“维”的定义和数据装载。Essbase/DB2 OLAP Server 不是

9、 ROLAP(Relational OLAP)服务器,而是一个(ROLAP 和 MOLAP)混合的 HOLAP 服务器,在 Essbase 完成数据装载后,数据存放在系统指定的 DB2 UDB 数据库中。它的前端数据展现工具可以选择 Business Objects 的 BO、Lotus 的 Approach、Cognos 的 Impromptu 或IBM 的 Query Management Facility;多维分析工具支持 Arbor Software 的 Essbase 和IBM(与 Arbor 联合开发)的 DB2 OLAP 服务器;统计分析工具采用 SAS 系统。(2)Oracle

10、 数据仓库解决方案主要包括 Oracle Express 和 Oracle Discoverer 两个部分。Oracle Express 由四个工具组成:Oracle Express Server 是一个 MOLAP(多维 OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库;Oracle Express Web Agent 通过 CGI 或 Web 插件支持基于 Web 的动态多维数据展现;Oracle Express Objects 前端数据分析工具(目前仅支持 Windows 平台)提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程

11、技术,提供了兼容Visual Basic 语法的语言,支持 OCX 和 OLE;Oracle Express Analyzer 是通用的、面向最终用户的报告和分析工具(目前仅支持 Windows 平台)。Oracle Discoverer 即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。在 Oracle 数据仓库解决方案的实施过程中,通常把汇总数据存储在 Express 多维数据库中,而将详细数据存储在Oracle 关系数据库中,当需要详细数据时,Express Server 通过构造 SQL 语句访问关系数据库。(3)Microsoft 将 OLAP 功能集成到 SQL Ser

12、ver 数据库中,其解决方案包括 BI 平台、BI 终端工具、BI 门户和 BI 应用四个部分,如图 1.1。 BI 平台是 BI 解决方案的基础, 包括 ETL 平台 SQL Server 2005 Integration Service(SSIS)、数据仓库引擎 SQL Server 2005 RDBMS 以及多维分析和数据挖掘引擎 SQL Server 2005 Analysis Service、报表管理引擎 SQL Server 2005 Reporting Service。 BI 终端用户工具,用户通过终端用户工具和 Analysis Service 中的 OLAP 服务和数据挖掘服

13、务进行交互来使用多维数据集和数据挖掘模型,终端用户通常可使用预定义报表、交互式多维分析、即席查询、数据可视化、数据挖掘等多种方法。 BI 门户提供了各种不同用户访问 BI 信息的统一入口。BI 门户是一个数据的汇集地,集成了来自不同系统的相关信息。用户可以制定个性化的个人门户,选择和自己相关性最强的数据,提高信息访问和使用的效率。 BI 应用是建立在 BI 平台、BI 终端用户工具和 BI 统一门户这些公共技术手段之上的满足某个特定业务需求的应用,例如零售业务分析、企业项目管理组合分析等第二章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。2、抽取、转换、加载过程的目的是为决策支持

14、应用提供一个单一的、权威数据源。因此,我们要求 ETL 过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。3、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。4、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。5、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。6、维度表一般由主键、分类层次和描述属性组成。对于主键可以选择两种方式:自然键,代理键。7、雪花型模式是对星型模式维表的进

15、一步层次化和规范化来消除冗余的数据。8、数据仓库中存在不同综合级别的数据。一般把数据分成 4 个级别:早期细节级、当前细节级、轻度综合级和高度综合级。9、(1)状态数据与事件数据前者描述对象的状态,后者描述对象发生的事件; (前象)状态数据事件数据(后象)状态数据(2)当前数据与周期数据当前数据只保留最新数据,现存的最新记录将改变以前中的数据。周期数据则相反,一旦保存物理上就不在改变或删除数据。通常每个周期数据记录都会包含一个时间戳来只是日期甚至时间。(3)数据仓库中的元数据分技术元数据和业务元数据。技术元数据是描述关于数据仓库技术细节的数据,包括:数据仓库结构的描述,业务系统、数据仓库和数据

16、集市的体系结构和模式,汇总算法,操作性业务环境导数据仓库环境的映射等。10、业务元数据是从业务角度描述数据仓库中的数据,提供了使用者和系统的语义层,使非专业人员能“读懂”仓库中的数据。包括:(1)使用者的业务属于所表达的数据类型、对象名和属性名;(2)访问数据的原则和数据的来源;(3)系统所提供的分析方法及公式和报表的信息。简言之,元数据是数据仓库的帮助和导航图11、什么是数据仓库的 3 层数据结构?数据是从企业内外部的各业务处理系统(操作型数据)流向企业级数据仓库或操作型数据存储区,在这个过程中,要根据企业(或其他组织)的数据模型和元数据库对数据进行调和处理,形成一个中间数据层,然后再根据分析需求,从调和数据层将数据引入导出数据层,如形成满足各类分析需求的数据集市。12、什么是数据仓库的数据 ETL 过程?数据的 ETL 过程就是负责将操作型数据转换成调和数据的过程。这两种数据具有明显的区别,因此,数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。在为企业级数据仓库填充数据的过程中,数据调和可分为两个阶段:一是企业级数据仓库(EDW)首次创建时

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号