《数据仓库》学习笔记

上传人:m**** 文档编号:507453501 上传时间:2022-09-05 格式:DOCX 页数:16 大小:298.06KB
返回 下载 相关 举报
《数据仓库》学习笔记_第1页
第1页 / 共16页
《数据仓库》学习笔记_第2页
第2页 / 共16页
《数据仓库》学习笔记_第3页
第3页 / 共16页
《数据仓库》学习笔记_第4页
第4页 / 共16页
《数据仓库》学习笔记_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《《数据仓库》学习笔记》由会员分享,可在线阅读,更多相关《《数据仓库》学习笔记(16页珍藏版)》请在金锄头文库上搜索。

1、数据仓库第一章 决策支持系统的发展1.1 演化 管理信息系统(MIS )为信息处理提供强大的数据处理和存储能力。 早期信息系统主要是为实现业务而建立的,根据业务的需要建立大量独立的系统。 多个独立的系统间要交互数据很困难,出现了“抽取”的模式。其特点是与信息系 统无关,直接对信息系统的数据源进行“抽取”。 “抽取”产生的问题是产生的蜘蛛网状“抽取”,即在“抽取”的基础上再“抽取”。 产生数据仓库技术理论来规范。1.2 自然演化体系结构出现的问题 数据可信性:如来自不同部门的报表,无法统一 生产率问题:产生一个分析需要很长时间 无法将数据转化成信息:达到一个分析结果非常困难 方法变迁:在体系结构

2、化环境的核心,存在下面 2种数据:原始数据和导出数据 原始数据是:维持企业日常运行所需的细节性数据; 导出数据是:要经过汇总或计算来满足公司管理者需要的数据。原始数据/操作型数据 面向应用 详细的 在存取瞬间是准确的导出数据/ D S S数据 面向主题 综合的,或提炼的 代表过去的数据 为日常工作服务 可更新 重复运行 处理需求事先可知 生命周期符合 S D L C 对性能要求高 一个时刻存取一个单元 事务处理驱动 更新控制主要涉及所有权 高可用性 整体管理 非冗余性 静态结构;可变的内容 一次处理数据量小 支持日常操作 访问的高可能性 为管理者服务 不更新 启发式运行 处理需求事先不知道 完

3、全不同的生命周期 对性能要求宽松 一个时刻存取一个集合 分析处理驱动 无更新控制问题 松弛的可用性 以子集管理 时常有冗余 结构灵活 一次处理数据量大 支持管理需求 访问的低可能性或适度可能性原始数据和导出数据的区别操作型环境数据仓库原子级部门级 个体数据集市1.3 体系结构化环境第二章 数据仓库环境2.1 数据仓库概述 数据仓库是体系结构化环境的核心 数据仓库是决策支持系统(DSS)处理的基础 数据仓库是面向主题的、集成的、非易失的,且随时间变化的数据集合 操作型环境是:面向业务应用的、松散的、易失的,反应当前时间点的数据集合。2.1.1 面向主题 传统操作型系统是围绕公司的功能性应用进行组

4、织的; 面向主题是针对某一类数据主体(如产量、合格量等)。注:对于一个保险公司来说:应用问题可能是汽车保险、健康保险、人寿保险与意外伤亡保险; 公司的主要主题域可能是顾客、保险单、保险费与索赔。2.1.2 集成性 在数据仓库的所有特性之中,集成是最重要的。 数据仓库中的数据从多个不同的数据源传送过来,这些数据进入数据仓库,就进行转换 重新格式化、重新排列以及汇总等操作。 集成问题:编码、属性度量单位、多个数据源、冲突关键字2.1.3 非易失性 数据仓库中的数据载入后,保存时间长、不存在传统意义上的更新操作 数据仓库保留了数据的历史状况2.1.4 随时间变化 数据仓库中的每个数据只是在某一时间是

5、准确的。 反映历史变化的数据集合 数据仓库按时间将操作型数据抽取装载(所以表的主键一般都包含时间)2.2 数据仓库的结构2.2.1 面向主题数据仓库面向在高层企业数据模型中已定义好的企业主题域;典型的主题域有: 顾客 产品 交易或活动 政策 索赔 账目数据仓库中,每个主题域都是以一组相关的表来具体实现的。一个主题域可能由 10 个、 100个或更多的相互关联的物理表构成。每个表设计来实现主要主题域的一部分222第1天到第n天的现象数据仓库不是一蹴而就的。相反,数据仓库只能一步一步第进行设计并载入数据,它是进化 的,而非革命性的。2.2.3 粒度与分割 粒度:指的是数据仓库中数据单元的细节程度或

6、综合程度的级别 分割是针对当前细节级的数据进行分割,使大块的数据使用分类变成小块数据。 有多种数据可以用来分割数据:时间、分类、地理位置、组织单位等。粒度与分割是在数据仓库中分层次存储数据的方法,针对不同的主题和性能需求进行数据的集成处理和存储。主要的目的是为了使不需要的数据不出现的分析中,也就是使数据量变小。粒度与细节级有关,如“每月通话详细清单”与“每月通话综合”,前细后粗,则粒度 前低后高。分割与数据分类有关,可将同一主题数据按多维度分割产生子集,使分析性能提高。m 多维度分割 逻辑分割:程序实现 物理分割:数据库实现细节粒度设计数据的细节级与粒度:2.2.4 活样本数据库 样本数据库是

7、在数据库中随机抽取1/100或1/1000的数据,拿来做样本分析。 样本数据库也是为了提高分析效率,使数据量变小。2.2.5 数据组织数据仓库中所建立的数据结构是怎样的: 简单堆积结构 轮转综合数据存储:简单堆积结构的变种 简单直接文件:数据仅仅是从操作性环境被拖入数据仓库环境中 连续文件:依据两个或更多直接文件能生成一个连续文件第三章 设计数据仓库3.1 设计的范围和方式建造数据仓库的两个重要方面:/ 与操作型系统接口的设计/数据库仓库本身的设计解决获得什么数据,及如何获得解决如何仓储数据,及如何展现3.2 数据仓库构建步骤1) 收集和分析业务需求;2) 建立数据模型和数据仓库的物理设计;3

8、) 定义数据源;4) 选择数据仓库技术和平台;5) 从操作型数据库中提取、转换和净化数据到数据仓库6) 选择访问和报表工具;7) 选择数据库连接软件;8) 选择数据分析和数据展示软件;9) 更新数据仓库;总休分析设计数据建模应用与维护|OLAF应用|完善维护系统规划分析阶段设计实縄阶段便用缩护阶段幵发概 念模型勲寤仓库应用数据仓库 开潢过程埴充与圖试 数据位库开捱中 间件数老仓虞誰护救据仓 库评价规划与确设计体 系结构数眶繡取转 换与赃3.3 数据仓库系统结构数抿仓库分析工具n RDBMSDW管理工具综合数据查询工具抽取转换歸出前数据OLAPT#匚)源数据库I1历史数据DM工具(其也(3数据建

9、模工具元数抿报表工具数抿源|丽3.4 数据仓库建立的基本框架运行维护项目管理3.5 数据的获取 数据仓库所需要的数据不像业务处理系统那样直接从业务发生地获取,而是从与业务处 理发生直接联系的业务处理系统那里获取, 如传统的基于C/S结构的在线事物处理系统OLTP。这些业务处理系统中的数据往往与 业务处理联系在一起,只为业务的日常处理服务,而不为决策分析服务。 所以 DW 从业务处理系统那里获取数据时,并不能将原数据库中的数据直接加载到 DW中,而是要进行一系列的处理。 数据进入数据仓库的基本过程操作数据向数据仓库的移动包括以下五个过程:提廉是丛操作生 数括库二选择并 提廉出芍需薑旳变快是为所苛

10、来 目数摘漏的数捋 捲罡常用的梏式席化是尽量地足王旨诵的蕊加载是把净北 过的数聒载入 到数捐仓库数J8里已汇总是提前计韋吕 任何期待的孵仓 庄轄的匚三快以wn r rwvHH r3.6 数据仓库中的数据模型 高层模型(实体关系图) 中间层模型 底层模型(物理模型)第四章 数据仓库中的粒度4.1 粗略估算估计数据仓库环境中的行数/空间大小1. 对每一个已知的表: 计算一行所占字节数的 最大估计值 最小估计值对一年内: 最大行数可能是多少? 最小行数可能是多少?对五年内: 最大行数可能是多少? 最小行数可能是多少? 对表的每个键码:该键码的大小(按字节)是多少?一年总的最大空间=最大行大小X年内最

11、大行数 一年总的最小空间=最小行大小X年内最小行数 累加索引空间2. 对所有已知的表重复第1步。图 4-1空间/行数计算第五章 数据仓库和技术数据仓库比其操作性前身(数据库)需要的一些技术特性更简单一些。数据仓库中没有联机的数据更新;锁定和完整性需要也非常少;而且对于远程处理接口的需 要也只是最基本的。但是仍需要一些技术上的需求:5.1 技术上的需求1) 管理大量数据能够管理大量数据的能力能够管理好的能力2) 管理多介质(层次) 主存、扩展内存、高速缓存、 DASD 、光盘、缩微胶片3) 索引和监控数据 监控数据能确定许多因素: 决定是否应数据重组 决定索引是否建立得不恰当 决定是否有太多数据

12、溢出 决定剩余的可用空间4) 多种技术的接口 利用多种技术获得和传送数据: 批模式,联机模式并不非常有用5) 程序员/设计者对数据存放位置的控制(块/页)6) 数据的并行存储/管理7) 元数据管理8) 数据仓库语言接口 能够一次访问一组数据 能够一次访问一条记录 支持一个或多个索引 有 SQL 接口9) 数据的高效装入10) 高效索引的利用 用位映像的方法、多级索引等11) 数据压缩 I/O 资源比 CPU 资源少得多,因此数据解压缩不是主要问题12)复合键码(因为数据随时间变化)13)变长数据14)加锁管理(程序员能显式控制锁管理程序)15)单独索引处理(查看索引就能提供某些服务)16)快速

13、恢复17)其他技术特征,传统技术起很小作用事务集成性、高速缓存、行/页级锁定、参照完整性、数据视图18)传统DBMS与数据仓库DBMS区别 为数据仓库和决策支持优化设计 管理更多数据:10GB/100GB/TB 传统DBMS适合记录级更新,提供:锁定Lock、提交Commit、检测点Checkpoint、 日志处理Log、死锁处理DeadLock、回退Roolback. 基本数据管理,如:块管理,传统 DBMS 需要预留空间索引区别:传统DBMS限制索引数量,数据仓库DBMS没有限制 通用DBMS物理上优化便于事务访问处理,而数据仓库便于DSS访问分析19)改变 DBMS 技术20)多维DBMS和数据仓库 多维 DBMS 作为数据仓库的数据库技术,这种想法是不正确的多维DBMS(OLAP)是一种技术,数据仓库是一种体系结构的基础21)双重粒度级别(DASD/磁带)22)数据仓库环境中的元数据 DSS分析人员和IT专业人员不同,需要元数据的帮助 操作型环境和数据仓库环境之间的映射需要元数据 数据仓库包含很长时间

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号