数据仓库的基本原理

上传人:宝路 文档编号:47847738 上传时间:2018-07-05 格式:PPT 页数:114 大小:5.24MB
返回 下载 相关 举报
数据仓库的基本原理_第1页
第1页 / 共114页
数据仓库的基本原理_第2页
第2页 / 共114页
数据仓库的基本原理_第3页
第3页 / 共114页
数据仓库的基本原理_第4页
第4页 / 共114页
数据仓库的基本原理_第5页
第5页 / 共114页
点击查看更多>>
资源描述

《数据仓库的基本原理》由会员分享,可在线阅读,更多相关《数据仓库的基本原理(114页珍藏版)》请在金锄头文库上搜索。

1、 数据仓库系统的功能和构成业务数据库提取、清洗、转换数据存储OLAP数据挖掘企业决策层数 据 仓 库决 策 支 持多维查询预测数据挖掘分析系统/数据展现系统数据 市场数据 市场数据 市场数据 市场数据 元数据数据仓库存储数据清洗/转换 数据提取提取仓库外部系 统业务操作 型系统数据提取 业务数据库中并不是所有的数据都是决策支持所必需 的。所以要把必需的那部分提取出来。例子:某超市确定以分析客户的购买行为为主题建立 数据仓库。 需要提取的数据:与客户购买行为相关的 关于员工的数据没有必要提取。数据清洗数据不完整性数据中的错误数据的不同步按缺失的内容分别写入不同Excel文件向客户提交,要 求在规

2、定的时间内补全。补全后才写入数据仓库。 错误产生的原因是业务系统不够健全,在接收输入后没 有进行判断直接写入后台数据库造成的,可用SQL语句 进行查找和改进例子: 客户基本信息表 客户咨询信息 表 客户号:100 客户号:100 姓名:张山 姓名:张三 年龄:23 咨询问题: 两个表中,客户姓名不同。这是常见的错误客户基本信息表 客户业务变更信息表 客户号:100 客户号:100 姓名:张山 姓名:张山 年龄:23 业务变更:停机 手机服务状态:正常由于不同数据库之间的数据刷新不是实时的,所以 数据不同步。在ETL开发的初期可以每天向业务单位发送过滤数据的 邮件,促使他们尽快地修正错误,同时也

3、可以做为将来 验证数据的依据。数据转化 不同的数据库厂商,提供的数据类型可能不同。 例子: 不同的时间表达方式 2000-2-3 2/3/2000 2000/2/3 不同的坐标系统 WGS84 西安803 度带 北京543度带提取仓库 正是因为业务数据库系统中的数据和数据格式存在不 一致的问题。将数据放进数据仓库前要先放进提取仓 库,等待清洗和转换。数据提取清洗 转换提取日志 记录了仓库中数据的来源,数据的转化过程。便于保 证和验证数据的质量数据管理员不同于数据库管理员或系统管理员。在数据导入时负责管理数据质量的专业人员。查阅提取日志,发现数据提取中出现的错误有时还要检测源于业务系统的错误。外

4、部数据源从系统外部获取的,与分析主题相关的数据。例子:超市采购部门确定采购货单 既要了解超市内部产品的销售情况,还要了解市场上 的信息,后者即为外部数据源。外部数据源越来越多地采用服务的技术ArcGis rest 服务http:/ servicesOGC WMSOGC WFS数据仓库存储多维数据库关系型数据库两者的结合数据 数据仓库中的原始数据是由业务系统提取的或外部数 据源导入,经过清洗、转化而来。为了完成OLAP分析和数据挖掘,必需在原始数据基 础上增加冗余信息与预运算。元数据 数据仓库的元数据是主要包含两类数据:为了从操作型环境向数据仓库环境转换而建立的元 数据,包含所有源数据项的名称、

5、属性及其转化。用来在多维商业模型和前端工具之间建立映射的, 叫做决策支持系统元数据。具体包括数据仓库中信 息的种类、存储位置、存储格式;信息之间的关系 、信息和业务的关系、数据使用的业务规则;数据 模型;数据模型和数据仓库的关系。元数据数据系统数据系统元数据数据集市数据仓库中的信息按照不同的主题来组织。 举例:市场发展趋势的分析主题,由市场部门的人使 用。 为避免在全部的巨量数组中检索,把某主题的数据逻 辑上或物理上分离出来,可称为数据集市。数据集市面向某个部门。数据集市数据仓库数据的安全性本地数据的安全性:数据加密、访问权限设置。 网络访问数据库:网络安全机制、网络传输中的数据 加密和鉴权、

6、防止监听和口令泄漏。数据处理的并发性 加锁解锁实现同步与互斥 多线程,多进程技术,磁盘的存储优化,合适的索引 提高并发访问的效率。事务处理的可靠性 原子操作不能分开执行,如果某步骤失败,系统必须 返回并更改操作。数据的一致性和完整性 数据库设计、应用的开发、系统的维护方面共同努力 。操作型数据的特点 分析型数据的特点 细节的 综合的、经过提炼的 在存取的瞬间是准确的 代表过去的数据 可更新 不更新 操作需求通常事先可知 分析需求通常不知道 生命周期符合SDLC 生命周期不同于SDLC 对性能(如操作时延)要求高 对性能要求较宽 一个时刻操作一个数据单元 一个时刻操作一个数据集合 事务驱动 分析

7、驱动 面向应用 面向分析 一次操作数据量小 一次操作数据量很大 支持日常操作需求 支持管理需求W.H.Inmon把数据仓库定义为“用于管理决策支持的面向主题、集成、稳定、随时间变化的数据 集合”。面向主题、集成、稳定、随时间 变化是4个最重要特征。面向主题 业务系统一般是以优化事务处理的方式构造数据结构 的,因此某个主题数据常常分布在不同的业务数据 库中,对于决策支持不利。计费数据库账务数据库客户服务数据 库市场信息数据 库业务系统面向主题分析计费数据库账务数据库客户服务数据库市场信息数据库现有业务系统面向主题的数据仓库收益数据 客户数据 市场数据为了解决上述问题,数据仓库把上述数据集中。 客

8、户基本信息表 客户呼叫记录表 客户标识号 客户标识号 客户姓名 客户呼叫时间 客户年龄 客户呼叫地点 客户地址 客户呼叫号码呼叫时长 呼叫费率 客户话费表 客户标示号 客户咨询表 客户本月总话费 客户标识号 本月通话费 客户咨询内容 本月短信费 咨询答案 数据在数据仓库中还 是以数据表的形式 存储,但数据的组 织方式和建模方法 有大的变化现有业务数据库系统中的数据是分散的。而决策支持 需要集成的数据。 实际上,要对分散的数据进行集成,首先要完成对数 据的清洗和转化。而数据转化会遇到如下问题:数据格式:比如电话号码在不同数据库中采用 char(10)、varchar(50)、integer格式,

9、没有统 一。测量单位:不同的数据库中对于统一属性的测量 单位可能不同,比如时间使用微妙、秒、分钟、 小时数据代码含义混乱:比如用定义H高、M中、 L低分别表示收入级别。有的数据库设计者可能 定义1高、2中、3低分别表示收入级别。数据名称混乱:比如客户名称,有的设计者定义为 user_name,有的定义为name,有的定义为 USERNAME 等。下图实例了实际问题中可能遇到的数据转化工作:进一步考虑,数据仓库必须能够使集成数据以一定的 周期进行刷新,使决策者能够使用新增的数据。 刷新周期取决于需要分析的问题。数据库中的数据是不稳定的 ,记录系统中每一个变化的 瞬态。而决策分析必须与历史数据 为

10、依托。在数据仓库中,定期增加记 录,而从不删除。不必投入过多精力于并发控 制等环节。访问全部是只读 方式。例子:在3 月23 日,100 号客户的消费金额为200 元,当 时间推移到3 月24 日,100 号客户的消费金额变成250 元,这一信息在业务系统中被更新了。 但是在数据仓库中(假定数据仓库每天进行一次数据提取) ,3 月23 日的数据提取结果是在数据仓库中增加了记录 XXX,说明100 号客户在3 月23 日的消费金额为200 元 ,在执行3 月24 日的数据提取工作后,原先的记录XXX 并没有发生任何的改变,而是在数据仓库中增加了一条新 的记录YYY,说明100 号客户在3 月24

11、 日的消费金额为 250元。可见,数据仓库实际上是为100 号客户的消费行 为进行了定期的拍照。由于在数据仓库中数据只增不删,这使得数据仓库 中的数据总是拥有时间维度。数据仓库实际上就是 记录系统的各个瞬态,并通过将各个瞬态连接起来 形成动画,从而在数据分析的时候再现系统运动的 全过程数据仓库中的数据不再像数据库中的数据具有严格 规范化的特点。数据仓库为了能够在尽量短的时间 内将数据呈现给使用人员,使用所谓的“空间换时间 ”的技术,牺牲了数据的规范化,增加了数据的冗余 度,从而减小系统的响应时间。数据库系统和数据仓库系统在硬件的利用模式上具 有很大的区别 。 在数据库环境下,硬件资源利用率总是保持在一个相 对稳定的状态。而在数据仓库环境下,系统的硬件资源常常在高用率 和低利用率之间切换。由于数据库系统和数据仓库系统在硬件利用率上的 差异,难于在同一台服务器上既优化操作型处理, 又优化分析型处理因此数据库系统和数据仓库系统在物理上应当由不同 的服务器来运行。数据仓库的数据组织结

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号