数据仓库-数据挖掘-XML

上传人:s9****2 文档编号:558024572 上传时间:2022-12-16 格式:DOCX 页数:66 大小:560.33KB
返回 下载 相关 举报
数据仓库-数据挖掘-XML_第1页
第1页 / 共66页
数据仓库-数据挖掘-XML_第2页
第2页 / 共66页
数据仓库-数据挖掘-XML_第3页
第3页 / 共66页
数据仓库-数据挖掘-XML_第4页
第4页 / 共66页
数据仓库-数据挖掘-XML_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《数据仓库-数据挖掘-XML》由会员分享,可在线阅读,更多相关《数据仓库-数据挖掘-XML(66页珍藏版)》请在金锄头文库上搜索。

1、补充知识数据仓库设计与使用 教学要点本章内容主要包括数据仓库的概念,数据仓库的设计方法,数据仓库的数据提取与加载方法,在SQL Server平台中创建、访问与操纵数据仓库,以及SQL Server 中的数据挖掘工具与应用等内容。本章既强调了必要的基础知识,又结合具体的系统平台,阐述了在SQL Server 的分析服务器中创建和分析数据仓库的实际技术,做到理论和实际相结合。 要求了解数据仓库和数据挖掘的概念,了解数据仓库的数据提取与加载方法;掌握数据仓库的设计方法,掌握SQL Server 数据仓库开发工具及数据仓库创建技术,掌握SQL Server的决策树分析和聚类分析数据挖掘工具与应用的方法

2、。 建议教学安排:13.1节2学时,13.2节6学时,13.3节4学时,13.4节4学时,13.5节4学时。(资料来源于 SQL SSERVERR2000实实用教程,陈陈旭东主编,电电子工业出版版社)进入21世纪,商商业活动变得得越来越复杂杂,并且越来来越全球化,企企业迫切需要要大量的信息息来支持战略略决策。但是是传统的数据据库技术不能能有效地将企企业内海量数数据转化为有有用的战略信信息,数据仓仓库为企业提提供了战略信信息的系统环环境,为商业业智能化打下下了基础。数数据仓库已经经成为信息技技术的热门领领域。SQLL Servver提供了了一套比较完完整的创建数数据仓库和数数据挖掘的解解决方案。

3、 13.11 SQL Serveer 数据仓仓库开发工具具及应用13.1.1 数据仓库的的基本概念Inmon(11993)给给数据仓库下下了如下定义:“数据仓库是是面向主题的的、综合的、以以时间为变量量的、非易变变性的数据集集合,用来支支持管理决策策”。数据仓库库不同于操作作型的数据库库,操作型的的数据库主要要用在联机事事务处理(OOLTP),而而数据仓库主主要用在联机机分析处理(OOLAP)和和信息分析处处理。数据仓仓库是一种信信息系统环境境,可以提供供企业综合完完整的概括,使使企业的信息息保持一致性性,并且能够够支持决策处处理。13.1.2 数据仓库架架构典型的数据仓库库架构由一些些基本的

4、功能能模块组成(参参考图13.1 数数据仓库的架架构图):最最左边是数据据源部分;然然后是数据提提取转换层;中间是数据据存储部分,它它管理数据仓仓库的全部数数据,并且保保存元数据信信息;最右边边是信息传递递部分,包括括各种数据仓仓库信息的显显示和分析工工具。其中,外外部数据源是是准备装载到到数据仓库的的各种各样的的数据,包括括关系数据库库、电子表格格、文档等。数数据提取转换换层(Exttractiion Trransfoormatiion Laayer, ETL)是是从数据源中中提取数据并并将其转换到到仓库服务器器中的过程,主主要包括数据据提取、转换换和加载三部部分的内容。元元数据描述了了数据

5、的结构构和意义,元元数据连接了了数据仓库的的所有部分,能能够为开发者者提供数据仓仓库内容和结结构的所有信信息,SQLL Servver提供了了比较完善的的元数据服务务,元数据服服务将系统数数据库msddb 用作默默认知识库(Repository)数据库。数据仓库存储提供分析用的大量历史数据,这些数据的结构和格式适合于各种分析方法。信息传递部分,主要包括报告、查询工具, OLAP分析工具和数据挖掘工具,SQL Server的分析服务提供了比较完善的信息传递工具。图13.1 数数据仓库的架架构图13.1.3 SQL SServerr数据仓库开开发工具SQL Serrver有许许多应用于数数据仓库的

6、工工具,为数据据仓库的设计计、创建、分分析和应用提提供了完整的的解决方案。1. 关系数据据库关系数据库不同同于数据仓库库,关系数据据库主要应用用于联机事务务处理(OLLTP),而而数据仓库主主要应用于联联机分析处理理(OLAPP)和多种分分析功能,但但是关系数据据库是数据仓仓库最主要的的数据源,关关系数据库技技术是数据仓仓库设计、结结构和维护的的基础。 2. 数据转换换服务数据仓库应用程程序需要将来来自许多源的的数据转换为为聚合在一起起的、一致的的数据集,这这些数据集经经过了适当配配置可用于数数据仓库操作作。SQL Serveer 为这类类任务提供了了一个强大的的工具,即数数据转换服务务 (D

7、TSS)。DTSS 可以访问问来自各种不不同源的数据据,并使用内内置的自定义义转换规范转转换这些数据据。 3. 复制数据库复制是具具有许多用途途的强大工具具。复制通常常用于分发数数据和协调联联机事务处理理系统 (OOLTP) 中分布式数数据的更新,还还可用于数据据仓库。一些些潜在的数据据仓库的复制制应用是将数数据从中央数数据仓库分发发到数据集市市,以及从数数据准备区更更新数据仓库库数据。4. 分析服务务(Anallysis Serviices)数据仓库收集和和组织企业数数据以支持组组织通过分析析做出决策。分分析服务提供供联机分析处处理 (OLLAP) 技技术,用以组组织大量的数数据仓库数据据供

8、客户端工工具进行快速速分析,并提提供先进的数数据挖掘技术术以分析和发发现数据仓库库数据内的信信息。5. Engllish QQueryEnglishh Querry 通过用用英语进行查查询,提供对对数据仓库数数据的访问。EEnglissh Queery 是用用于创建客户户端应用程序序的开发工具具,使客户端端应用程序可可以将英语转转换为 SQQL 语法以以查询关系数数据库,或者者转换为多维维表达式 (MDX) 语法以查询询 OLAPP 多维数据据集。 6. 元数据服服务(Metta Datta Serrvicess)在 SQL SServerr的多种不同同工具中,有有许多可将中中央知识库的的元数

9、据存储储在 msddb 系统数数据库中。SSQL Seerver 元数据服务务提供用于查查看这些元数数据的浏览器器,并提供用用于开发自定定义元数据应应用程序的应应用程序接口口。对于每个个分析服务器器,有一个称称作Anaalysiss Servvices 知识库的的知识库,以以便为分析服服务器的对象象(多维数据据集、维度等等)存储元数数据。可使用用迁移知识库库向导将该知知识库迁移到到同一或不同同服务器计算算机上的 SSQL Seerver (.mdff) 数据库库,并可以通通过元数据服服的元数据浏浏览器浏览数数据仓库的元元数据。13.2 SQQL Serrver 数数据仓库的创创建在着手进行数据

10、据仓库的创建建前,首先要要根据用户的的需求和业务务流程对目标标数据仓库进进行精心设计计,明确设计计的数据仓库库目标必须满满足用户的最最终需求。设设计完成后,便便可以借助SSQL Seerver的的强大的平台台创建数据仓仓库。13.2.1 数据仓库的的设计数据仓库的设计计必须满足下下列要求:综综合表达大量量用户的经验验,不能干扰扰现有的联机机处理系统(OOLTP),提提供与数据协协调一致的中中心知识库,快快速响应复杂杂的查询,提提供多种多样样的强大的分分析工具,例例如:联机分分析处理(OOLAP)和和数据挖掘。大大部分成功的的数据仓库都都具有下列共共同的特征:基于维度模模型,保存有有历史数据,包

11、包括有具体和和总揽的数据据,能从多种种多样的数据据来源中提取取数据,并且且能够保持一一致,致力于于单一的主题题。Ralph KKimballl根据数据据仓库设计的的一般规律,提提出了数据仓仓库设计的九九个步骤: 第一步:选择择主题的内容容 第二步:确定定如何表达事事实表第三步:识别并并确认维度第四步:选择事事实第五步:在事实实表中存储事事先计算的公公式第六步:修饰维维度表第七步:选择数数据库的持续续时间第八步:跟踪变变化缓慢的维维度第九步:决定查查询优先级别别和查询方式式下面根据Rallph Kiimballl的思想,阐阐述数据仓库库设计的基本本要点。1. 构造数据仓库模模型对于OLTP系系统

12、的逻辑设设计一般采用用E-R建模模方法,而对对于数据仓库库的逻辑设计计需要维度建建模方法。维维度建模显示示出事实表和和维度表之间间的相互关系系,并且允许许沿维度的层层次结构下钻钻和上钻。维维度模型主要要分为星型模模型和雪花模模型两类,在在星型模型中中,每个维度度表都与中间间的事实表有有直接联系,这这样的模型架架构像星形,事事实表位于星星形的中间,而而各个维度表表分布在星形形的各个角上上。在雪花模模型中,一个个或多个维度度表分解为多多个表,每个个表都有联接接到主维度表表而不是事实实数据表的相相关性维度表表。雪花模型型是一种将星星型模型维度度表规范化的的方法,如果果将所有维度度表完全规范范化,那么

13、将将得到一个以以事实为中心心的雪花模型型结构。以销售信息为例例,包括一个个名为销售的的事实数据表表,有关销售售记录的各种种信息可能包包括客户、销销售人员、销销售的时间、销销售的产品和和产品的产地地。这些信息息中的每一类类都可组织为为自己的维度度表。客户信信息放在客户户维度表中,产产地信息放在在产地维度表表中,时间信信息放在时间间的维度表中中,产品信息息放在产品维维度表中,销销售人员信息息放在销售人人员维度表中中。图13.2 星星型模型图图13.3雪花花模型图星型模型和雪花花模型的差异异在于它们的的物理实现上上,由于雪花花模型更为规规范化,所以以更容易维护护维度。而星星型模型通常常简单而有效效的

14、查询,因因此则更加方方便于用户的的直接访问。选选择何种模型型取决于维度度自身的特性性,雪花模型型一般用来构构造复杂的维维度。最好的的方案是为雪雪花模型构造造星型模型的的视图。 2. 确定主题根据用户的需求求选定数据仓仓库的主题是是非常关键的的。在数据仓仓库中,数据据是按主题存存储的。例如如对于一般的的制造企业,销销售、发货和和存货都是非非常重要的商商业主题。3. 确定事实实表事实表是存储指指标的地方。每每个数据仓库库都包括一个个或多个事实实数据表。事事实表的主要要特点是包含含数字数据(事事实),而这这些数字数据据可以汇总以以提供有关单单位运作历史史的信息。每每个事实表还还包括一个由由多个部分组

15、组成的索引,该该索引包含作作为外键的相相关性维度表表的主键,而而维度表包含含事实记录的的特性。事实实表不应包含含描述性信息息,也不应包包含数字度量量字段以及使使事实与维度度表中的对应应项相关的索索引字段之外外的任何数据据。事实表的的列往往就是是以之关联的的维度表的外外键。例如销销售事实表的的列prodduct_iid, cuustomeer_id分分别是产品维维度表和客户户维度表的外外键。4. 识别并确确认维度维度是分类的有有组织的层次次结构,称为为级别,它描描述数据仓库库事实表中的的数据。维度度一般描述一一个成员的相相似集合,用用户将基于该该集合进行分分析,并且维维度是多维数数据集的基本本组件。一般般将维度划分分为常规维度度、虚拟维度度、父子维度度和数据挖掘掘维度。从维维度表或联接接维度表中选选择一列或多多列。如果选选择多列,应应使所有列内内部相关以便便可以将它们们的值组织到到一个层次结结构中。若要要定义层次结结构,请按照照从最常规到到最具体的顺顺序排序列。例例如,时间间维度是由由年、季度、月和日日列创建的的。这种方法法将产生一个个常规维度。从从单个维度表表中选择两列列。其中一列列标识维度层层次结构的每每个组件,另另一列标识每每个组件的父父代。这两列列为表中的每每一行标识一一个父子链接接。所有链接接组合起来便便可确定维度度的层次结构构。例如,家族维度度由个人

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 市场营销

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号