了解数据仓库及其应用--刘悦华PPT课件

上传人:嘀嘀 文档编号:264398087 上传时间:2022-03-11 格式:PPT 页数:66 大小:1.31MB
返回 下载 相关 举报
了解数据仓库及其应用--刘悦华PPT课件_第1页
第1页 / 共66页
了解数据仓库及其应用--刘悦华PPT课件_第2页
第2页 / 共66页
了解数据仓库及其应用--刘悦华PPT课件_第3页
第3页 / 共66页
了解数据仓库及其应用--刘悦华PPT课件_第4页
第4页 / 共66页
了解数据仓库及其应用--刘悦华PPT课件_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《了解数据仓库及其应用--刘悦华PPT课件》由会员分享,可在线阅读,更多相关《了解数据仓库及其应用--刘悦华PPT课件(66页珍藏版)》请在金锄头文库上搜索。

1、目录录数据仓库和数据库的对比数据仓库的体系结构 数据仓库的参照结构 数据挖掘概述 知识挖掘系统的体系结构OLAP技术介绍数据分析模型概述数据仓库仓库 与数据库库的对对比对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序、重复处理面向主题域、管理决策分析应用数据特性动态变化、按字段更新静态、不能直接更新、只定时添加数据结构高度结构化、复杂、适合操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对响应时间的要求以秒为单位计量以秒、分钟、甚至小时为计量单位OLTP与OLAP的比较较 OLAP所用数据来自OLTP

2、数据库 进行了预综合和多维化处理 OLAP更强调界面的可视化和灵活性 可视化:多维报表,各种统计图形, 灵活性:切片、切块、旋转;逐层细化,OLAP & OLTP的主要区别别(1)不同的性能需求 联机事务处理(OLTP): 快速的相应时间 非常重要( 1 second) 在任何时候,数据随时更新,必须保持数据的一致性和完整性 联机分析处理(OLAP): 查询可能耗费大量的资源 可能使得CPUs 和磁盘处于紧张的工作状态 操作通常基于某一个时间点的静态的数据“快照” OLAP与OLTP必须实现环 境分离 OLAP可能导致OLTP系统性能的降低,甚至崩溃 例如: 分析查询需要计算所有的销售量 为保

3、证数据的一致性,防止脏数据的读出,对销售表进行“加锁” 新的销售事务无法提交OLAP & OLTP的主要区别别(2) 不同的数据建模需求 联机事务处 理(OLTP):为保证数据的一致性,需要设计规 范化的模式复杂的数据模型,包含大量的数据表查询 和修改操作相对比较受限 联机分析处理(OLAP):简单 的数据模型非常重要 允许业务 人员执 行各类即席查询 通常采用非规范化的模型 更少的连接操作提高查询 性能 更少的数据表易于理解数据模式OLAP & OLTP的主要区别别(3) 分析需要综合多个不同的数据源OLTP系统主要服务于某一个特定的应用系统例如: 在线商场的订单管理系统OLAP需要集成多个

4、不同的数据源包含销售、订单、采购等OLAP包含历史数据确定长时间 范围内的一些模式发现一段时间内的变化情况数据集成是OLAP系统的重点之一数据仓库仓库 的体系结结构 数据仓库仓库 的概念结结构 从数据仓库 的概念结构看,应该 包含:数据源、数据准备区、数据仓库 数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。 数据源业务系统外部数据源数据准备区数据仓库数据库应用工具管理工具数据集市/知识挖掘库应用工具数据集市/知识挖掘库图1.1 数据仓库的概念结构虚拟拟数据仓库结仓库结 构虚拟数据仓库利用描述了业务系统中数据位置和抽取数据算法的元数据直接从业务系统中抽取查询的数据进行概括、聚合操作后,

5、将最终结果提供给用户 用户图1.2 虚拟数据仓库结构数据仓库查询管理服务器业务系统数据库数据集市结结构数据集市结构或称为主题结 构的数据仓库 是按照主题进 行构思所形成的数据仓库 ,没有一个独立的数据仓库 。系统的数据不存储在同一数据仓库中,每个主题有自己的物理存储区。单单一数据仓库结仓库结 构将所有的主题都集中到一个大型数据库中的体系结构。数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中。 数据仓库查询管理服务器业务系统数据库数据仓库数据集市1数据集市2分布式数据仓库结仓库结 构在企业各个分公司具有相当大的独立性时,企业总部设置一个全

6、局数据仓库,各个分公司设置各自的局部数据仓库。局部数据仓库主要存储各自的未经转换 的细节数据,全局数据仓库中主要存储经过转换 的综合数据 站点A 站点B 站点C 站点D全局数据仓库局部数据仓库局部数据仓库局部数据仓库局部数据仓库总部数据仓库仓库 的参照结结构 数据仓库的基本功能包含:数据抽取,数据筛选、清理,清理后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作。 数据仓库的管理层分成数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行管理。 数据仓库环境支持层包含数据传输和数据仓库基础两部分。数据仓库基本功能层数据仓库管理层数据

7、仓库环境支持层数据仓库仓库 基本功能层层数据源数据准备区数据仓库结构数据集市/知识挖掘库存取与使用 数据来源主要包含:业务数据、历史数据、办公数据、Web数据、 外部数据以及数据源元数据 数据准备区的功能结构部分由数据标准化处理、数据的过滤与匹配、 数据的净化处理、标明数据的时间戳、确认数据质量与元数据抽 取和创建等操作组成 数据仓库的功能结构部分由数据重整和数据仓库创建以及元数据管 理组成 数据集市/知识挖掘库的功能结构与数据仓库的功能结构极为相似 数据仓库的数据存取与使用结构主要为数据仓库的最终用户提供 进行决策分析和挖掘知识的功能。 数据仓库的数据存取与使用结构应该包含数据仓库存取与检索

8、、元数据管理以及数据仓库分析与报告 数据仓库仓库 的管理层层 数据管理层中的数据抽取、新数据需求与查询管理主要负责完成从数据源中抽取数据的管理。 数据仓库中的数据加载、存储、刷新和更新系统则负责对从数据源中所抽取的数据在完成筛选、净化处理以后,将这些数据加载、存储到数据仓库中;捕获数据源中的数据变化,用最新数据充实数据仓库;根据用户的需求和数据仓库管理的要求对数据仓库进行更新等工作。 安全性与用户授权管理系统主要负责数据仓库的安全管理工作。 数据仓库的数据归档、恢复及净化系统主要负责定期对数据仓库中的数据进行归档、备份。净化系统则负责对从数据源所抽取的数据进行数据的筛选、数据标准的统一、数据内

9、容的统一等各种求精、重整净化工作的管理。数据抽取与新数据需求与查询管理数据加载、存储、刷新和更新系统安全性与用户授权管理系统数据归档、恢复及净化系统数据仓库仓库 的元数据管理层层负责管理数据仓库所使用的元数据,其中包括:数据仓库、数据集市/知识挖掘库和词汇表管理元数据抽取、创建、存储和更新管理预定义的查询和报表以及索引管理刷新与复制管理,登录、归档、恢复与净化管理数据仓库、数据集市和词汇表管理元数据抽取、创建、存储和更新管理预定义的查询、报表和索引管理刷新与复制管理登录、归档、恢复与净化管理数据仓库仓库 的环环境支持层层 数据传输和传送网络客户/服务器代理和中间件复制系统数据传输的安全保障系统

10、 数据传输和传送网络客户/服务器代理和中间件复制系统安全和保障系统数据挖掘概述挖掘过程确定挖掘对象准备数据建立模型数据挖掘结果分析知识应用阶段 业务对象 源数据 集成数据 目标数据 预处理数据 商业模式 知识 应用方案 业务分析人员 数据分析人员 数据管理人员数据挖掘的用户知识识挖掘系统统的体系结结构 知识发现识发现 的定义义 知识发现 是用一种简洁 的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。 知识发现 可看成是一种有价值信息的搜寻过 程,它不必预先假设或提出问题 ,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模

11、式。它还能通过全面的信息发现 与分析,找到有价值的商业规则 。 知识发现 意味着在数据仓库 或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。 知识发现识发现 系统统的结结构 知识发现 系统的结构由知识发现 系统管理器、知识库 、商业分析员、数据仓库的数据库接口、数据选择 、知识发现 引擎、知识发现评 价和知识发现 描述等部分组成(下图)。 OLAP 技术术概念 在线分析处理或联机分析处理 (线分析的处理上的 OLAP ,) 是一个应用广泛的数据仓库使用技术。 两个特点,在线性 (On_Line) ,多维分析 (Multi_Analysis) OLAP 的发展 针对特定问题的联

12、机数据查询和分析 对原始数据按照用户的观点进行转换处 理 反映用户眼中问题某一真实方面(“维”) 快速、稳定、一致和交互式的存取 允许用户对这 些数据按照需要进行深入的观察OLAP 的特性快速性系统能在数秒内对用户的多数分析要求做出反应可分析性用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告多维性提供对数据分析的多维视图和分析信息性能及时获得信息,并且管理大容量信息OLAP与数据仓库仓库 关系 从OLAP使用的效率角度考虑,设计数据仓库时考虑因素。 尽可能使用星型架构,如果采用雪花结构,就要最小化事实表底层维度表以后的维度表数量。 为用户设计包含事实表的维

13、度表。 维度表的设计应该符合通常意义上的范式约束,维度表中不要出现无关的数据。 事实表中不要包含汇总数据,事实表中所包含的用户需要访问的数据应该具有必需的粒度。 对事实表和维度表中的关键字必须创建索引;同一种数据尽可能使用一个事实表。 保证数据的参考完整性,避免事实表中的某些数据行在立方体进行聚集运算时没有参加进来。 OLAP应应用举举例不同时间段的比较(同期比)各种商品本周(本月、本年)的销售情况与以往相比,有何变化?今后趋势?排序和统计分类(top N/bottom N)统计每天销售量、销售额和利润最高的10个商场场?客户特定的即席分析(市场场分割、即席分组组的情况)按照季度统计一下东北地

14、区前四个季度的收入情况?多维维数据模型多维数据模型又称多维概念视图,通常用Cube来表示。多维数据模型可以更加直观的表示现实中的复杂关系多维数据模型的基本组成:维、度量(变量、指标) 举例:计算每一个商场、每个产品的销售额ProductAreaSales多维维数据模型举举例多维维数据模型的组组成维(Dimension)维层次路径、维层次、维成员(维实例)、维层次属性事实(Fact)度量(Measure)数据立方体(Cube)维维维:对数据进行分类的一种结构,以用于从特定的角度观察数据。(例如:时间、地区、产品)维的两个用途选择针对 期望详细程度的层次的数据分组对细节 数据综合(聚集)到相应的详

15、细程度的数据层次维维维的组织方式:维层次路径(HIERARCHY )维层次路径由代表不同详细程度的维层次(Level)组成。维的层次:特定角度的不同细节程度维维 维层次中包含 维成员(DIMENSION VALUES),维成员树l 维的一个取值(称为该维 的一个成员),每一个维成员属于某一个特定的维层次。 例如:时间维 :三个层次,日、月、年,维成员:1999年5月20日、1999年5月;1999年 维成员是数据在该维上的位置描述例如:1999年5月20日销售额表示销售额数据在时间维 上的位置(相当于时间轴 上的某一点或某一区间)l 不同维层次的取值的组合(对多层次情况),例如:5月20日 维

16、层次属性(ATTRIBUTES):维层 次上的描述属性,例如产品的“规格”、“颜色”、“销地”、“产地”维层维层 次关系定义维层 次的聚集和钻取关系简单维层 次关系复杂杂的维层维层 次关系较为复杂的维层次关系一个维包含拥有同一底层数据的多条维层次路径维成员树可能是一棵高度不平衡树。在维层次属性不仅分类属性,同时还拥 有描述属性在某些维层次结构中还包含复杂数据类型的维成员为为什么需要维层维层 次关系不支持层次关系带来的问题增加维的数目,变成非常“稀疏”的状况维维成员员属性(维维成员员的“类类”)维成员属性,维成员的描述属性,维成员的“类类”按一定的划分标准对维成员全集的一个(分类)划分划分:即把全集分成了若干子集各子集的和(并)等于全集子集间的交为空维维成员员属性划分标准一般是实体(维成员)的属性(特征),称为类属性例如(产品的)“规规格”、“颜颜色”、“销销地”、“产产地”一个类属性,对应一个划分;不同类属性,得到不同类划分维层维层 次和类类的区别别 表达的含义不同 维层次表达变量在该维 的综合的级别例:销售额在时间维 上按三个级别 (日、月、年)进行综合称为三个维层 次父层次的值由其

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号