《精编》数据仓库基础知识

上传人:tang****xu1 文档编号:133162854 上传时间:2020-05-24 格式:PPT 页数:37 大小:4.06MB
返回 下载 相关 举报
《精编》数据仓库基础知识_第1页
第1页 / 共37页
《精编》数据仓库基础知识_第2页
第2页 / 共37页
《精编》数据仓库基础知识_第3页
第3页 / 共37页
《精编》数据仓库基础知识_第4页
第4页 / 共37页
《精编》数据仓库基础知识_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《《精编》数据仓库基础知识》由会员分享,可在线阅读,更多相关《《精编》数据仓库基础知识(37页珍藏版)》请在金锄头文库上搜索。

1、数据仓库基础知识 数据仓库基本概念 1 1从传统数据库到数据仓库1 2数据仓库定义及基本特性1 3数据仓库与决策支持系统1 4数据仓库体系结构1 5数据仓库相关概念 1 1从传统数据库到数据仓库 随着市场竞争的加剧 信息系统的用户已经不满足于仅仅用计算机去处理每天所发生的事务数据 而是需要信息 能够支持决策的信息 去帮助管理决策 这就需要一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术 传统数据库系统无法承担这一责任 因为传统数据库的处理方式和决策分析中的数据需求不相称 这些不相称性主要表现在决策处理中的系统响应问题 决策数据需求的问题和决策数据操作的问题 1 1从传统数

2、据库到数据仓库 续 传统的事务处理环境不适宜于决策支持应用事务处理和分析处理的性能特性不同数据集成问题数据动态集成问题历史数据问题数据的综合问题操作型环境和分析型环境的分离 数据抽取 现实生活中面临的问题 人们在日常生活中经常会遇到这样的情况 超市的经营者希望将经常被同时购买的商品放在一起 以增加销售 保险公司想知道购买保险的客户一般具有哪些特征 医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征 从而为治愈这种疾病提供一些帮助 企业面临的问题 经过多年的计算机应用和市场积累 许多企业保存了大量原始数据和各种业务数据 它是企业生产经营活动的真实记录由于缺乏集中存储和管理 这

3、些数据不能为本企业加以利用 不能进行有效的统计 分析及评估 无法将这些数据转换成企业有用的信息 数据爆炸问题 自动的数据收集工具和成熟的数据库技术导致巨大的数据存储在文件系统 数据库和其它的信息库中 我们会淹死在数据中 但却为信息 知识所饿 面临的挑战 如何在堆积如山的企业交易数据中发现具有商业价值的闪光点 如何使您的企业或组织在激烈的市场竞争中保持对客户的吸引力 如何预先发现和避免企业运作过程中不易察觉的商业风险 数据仓库应运而生 数据仓库的出现和发展是数据库和OLTP技术发展 数据库应用深化的产物 目的是把数据库中的大量数据转化为有用信息 为企业更好地进行决策服务 讨论话题一 数据仓库产生

4、的源动力是什么 数据仓库系统是数据驱动还是需求驱动的 我们花了20多年的时间将数据放入数据库 如今是该将它们拿出来的时候了 著名的数据仓库专家RalphKimball 市场需求是技术发展的源动力 1 2数据仓库定义及基本特性 1 2 1数据仓库定义1 2 2数据仓库基本特性 1 2 1数据仓库定义 数据仓库 DataWarehouse 是一个面向主题的 SubjectOriented 集成的 Integrate 相对稳定的 Non Volatile 反映历史变化 TimeVariant 的数据集合 用于支持管理决策 1 2数据仓库定义 数据仓库是在企业管理和决策中面向主题的 集成的 与时间相关

5、的 不可修改的数据集合 数据仓库之父 BillInmon 1 2数据仓库基本特性 面向主题性数据集成性数据的时变性数据的非易失性 面向主题性 面向主题性表示了数据仓库中数据组织的基本原则 数据仓库中的所有数据都是围绕着某一主题组织的 确定主题以后 需要确定主题应该包含的数据 不同的主题之间可能会出现相互重叠的信息 主题在数据仓库中可以用多维数据库方式进行存储 主题的划分中 必须保证每一个主题的独立性 数据集成性 根据决策分析的要求 将分散于各处的源数据进行抽取 筛选 清理 综合等工作 最终集成到数据仓库中 数据的时变性 数据应该随着时间的推移而发生变化 不断地生成主题的新快照 存量数据 T1时

6、点增量数据 Tn时点增量数据 数据仓库 抽取转换清洗加载 初始主题数据 T1时点主题数据 Tn时点主题数据 数据的非易失性 数据的相对稳定性 数据仓库中的数据只进行刷新 从不进行更新处理 反映历史变化 存量数据 T1时点增量数据 Tn时点增量数据 数据仓库 抽取转换清洗加载 初始主题数据 T1时点主题数据 Tn时点主题数据 时间戳锁定数据 讨论话题二 数据库和数据仓库有什么不同 数据库与数据仓库的对比 1 3数据仓库与决策支持系统 决策支持系统的发展阶段初始阶段 DSS阶段 与专家系统结合阶段 IDSS阶段 基于数据仓库技术阶段 BI阶段 基于数据仓库的决策支持系统 DSS的先天不足 DSS的

7、先天不足决策所需信息不足 难以满足决策支持系统的需要 模型库提供的分析能力有限人机接口部件占整个DSS开发工作量的一半 成为DSS实施中的一个瓶颈 基于数据仓库的DSS 基于数据仓库的DSS数据仓库为DSS的发展开辟了新途径目前DSS的开发模式 BI解决方案 以数据仓库技术为基础以联机分析 数据挖掘工具为手段 1 4数据仓库体系结构 数据仓库管理环境 业务数据系统 市场调查信息 数据源 外部数据 专家经验数据 1 4 1数据仓库的概念结构 从数据仓库的概念结构看 应该包含 数据源 数据准备区 数据仓库数据库 数据集市 知识挖掘库以及各种管理工具和应用工具 数据集市 知识挖掘库 1 4 2虚拟数

8、据仓库结构 虚拟数据仓库利用描述了业务系统中数据位置和抽取数据算法的元数据直接从业务系统中抽取查询的数据进行概括 聚合操作后 将最终结果提供给用户 1 4 3数据集市结构 数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库 没有一个独立的数据仓库 系统的数据不存储在同一数据仓库中 每个主题有自己的物理存储区 1 4 4单一数据仓库结构 将所有的主题都集中到一个大型数据库中的体系结构 数据源中数据被按照同一标准抽取到独立的数据仓库中 用户在使用时再根据主题将数据仓库中的数据发布到数据集市中 1 4 5分布式数据仓库结构 在企业各个分公司具有相当大的独立性时 企业总部设置一个全

9、局数据仓库 各个分公司设置各自的局部数据仓库 局部数据仓库主要存储各自的未经转换的细节数据 全局数据仓库中主要存储经过转换的综合数据 站点A站点B总部站点C站点D站点C站点D 全局数据仓库 局部数据仓库 局部数据仓库 局部数据仓库 局部数据仓库 讨论话题三 数据仓库 数据集市 分析主题的关系是什么 在数据集市间如何保证数据的一致性 1 5数据仓库相关概念 BI 商务智能 ETL 抽取 转换 加载 METADATA 元数据 DATAMART 数据集市 SUBJECT 主题 DIMENSION 维度 商务智能 简单定义综合企业所有沉淀下来的信息 用科学的分析方法 为企业领导提供科学决策信息的过程

10、完整定义基于数据仓库技术的决策支持系统 DSS 它以数据仓库 DW 技术为基础 通过抽取 转换和清洗将分散在企业各处的数据整合在一起 转化为信息 进而以联机分析处理 OLAP 工具 数据挖掘 DM 工具 报表工具为手段将信息提升为知识 最后运用可视化技术以快捷直观的方式将探察分析结果呈现给最终用户 为管理决策层提供量化依据的过程 ETL 抽取 转换 加载 ETL 数据抽取 Extract 转换Transform 清洗 Cleansing 装载 Load 的过程 是构建数据仓库的重要一环 用户从数据源抽取出所需的数据 经过数据清洗 最终按照预先定义好的数据仓库模型 将数据加载到数据仓库中去 元数

11、据 元数据 MetaData 关于数据仓库的数据 指在数据仓库建设过程中所产生的有关数据源定义 目标定义 转换规则等相关的关键数据 同时元数据还包含关于数据含义的商业信息 所有这些信息都应当妥善保存 并很好地管理 为数据仓库的发展和使用提供方便 数据集市 数据集市 Datamart 即 小数据仓库 如果说数据仓库是建立在企业级的数据模型之上的话 那么数据集市就是企业级数据仓库的一个子集 他主要面向部门级业务 并且只是面向某个特定的主题 数据集市可以在一定程度上缓解访问数据仓库的瓶颈 主题 主题 SUBJECT 是一个在较高层次将数据归类的标准 每一个主题对应一个宏观的分析领域 针对具体决策需求可细化为多个主题表 具体来说就是确定决策涉及的范围和所要解决的问题

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号