数据仓库原理设计与应用1

上传人:宝路 文档编号:49846905 上传时间:2018-08-03 格式:PPT 页数:28 大小:183.83KB
返回 下载 相关 举报
数据仓库原理设计与应用1_第1页
第1页 / 共28页
数据仓库原理设计与应用1_第2页
第2页 / 共28页
数据仓库原理设计与应用1_第3页
第3页 / 共28页
数据仓库原理设计与应用1_第4页
第4页 / 共28页
数据仓库原理设计与应用1_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《数据仓库原理设计与应用1》由会员分享,可在线阅读,更多相关《数据仓库原理设计与应用1(28页珍藏版)》请在金锄头文库上搜索。

1、第1章数据仓库与数据挖掘概述 随着信息技术的不断推广和应用,许多企业都已经在使用管理 信息系统处理管理事务和日常业务。这些管理信息系统为企业 积累了大量的信息。企业管理者开始考虑如何利用这些信息海 洋对企业的管理决策提供支持。因此,产生了与传统数据库有 很大差异的数据环境要求和从这些海洋数据中获取特殊知识的 工具需要。 本章目标: (1)了解数据仓库的发展与展望 。 (2) 理解数据仓库的体系结构和参照结构。 (3) 初步了解数据挖掘技术、数据挖掘技术与工具 。 (4) 掌握数据挖掘的应用 。数据仓库与数据挖掘概述 1.1数据仓库的发展与展望 1.2数据仓库的体系结构 1.3数据仓库的参照结构

2、 1.4数据挖掘技术概述 1.5数据挖掘技术与工具 1.6数据挖掘的应用 练 习1.1数据仓库的发展与展望 1.1.1从传统数据库到数据仓库 随着市场竞争的加剧,信息系统的用户已经不满足于仅 仅用计算机去处理每天所发生的事务数据,而是需要 信息能够支持决策的信息,去帮助管理决策。这 就需要一种能够将日常业务处理中所收集到的各种数 据转变为具有商业价值信息的技术,传统数据库系统 无法承担这一责任。因为传统数据库的处理方式和决 策分析中的数据需求不相称。这些不相称性主要表现 在决策处理中的系统响应问题、决策数据需求的问题 和决策数据操作的问题。 1.1数据仓库的发展与展望 1.决策处理的系统响应问

3、题 2.决策数据需求的问题 3.决策数据操作的问题 4.数据仓库与传统数据库的对比1.1数据仓库的发展与展望 对比内容数据库数据仓库 数据内容当前值历史的、存档的、归纳的、计 算的数据 数据目标面向业务操作程序、重 复处理面向主题域、管理决策分析应 用 数据特性动态变 化、按字段更新静态、不能直接更新、只定时 添加 数据结构高度结构化、复杂、适 合操作计算简单、适合分析使用频率高中到低 数据访问量每个事务只访问少量记 录有的事务可能要访问大量记录对响应时间 的要求以秒为单位计量以秒、分钟、甚至小时为计 量 单位定义:“一个面向主题的、集成的、随时间变化的、非易失性 数据的集合,用于支持管理层的

4、决策过程”。特性: 面向主题性 数据集成性 数据的时变性 数据的非易失性 数据的集合性 支持决策作用。 1.1.2 数据仓库的定义与基本特性 1.1.3 数据仓库的未来发展 基于关系对象数据库的数据仓库 网络的影响 操作型数据仓库要求 Web中的代理技术 1.2 数据仓库的体系结构 1.2.1 数据仓库的概念结构 从数据仓库的概念结构看,应该包含:数据源、数据 准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。 数据源业务系 统外部数 据源数 据 准 备 区数 据 仓 库 数 据 库 应用工具管理工具数据 集市/ 知识 挖掘 库应用工具数据 集市/ 知识 挖掘 库图1.1

5、 数据仓库的概念结构1.2.2 虚拟数据仓库结构 虚拟数据仓库利用描述了业务系统中数据位置和抽取数 据算法的元数据直接从业务系统中抽取查询的数据进行 概括、聚合操作后,将最终结果提供给用户 用户图1.2 虚拟数据仓库结构数据仓库查 询管理服务 器业务系统数 据库1.2.3 数据集市结构 数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形 成的数据仓库,没有一个独立的数据仓库。系统的数据不存储在同 一数据仓库中,每个主题有自己的物理存储区。数据仓库 查询管理 服务器业务系统数 据库主题1主题21.2.4 单一数据仓库结构 将所有的主题都集中到一个大型数据库中的体系结构。数据源中数 据被按

6、照同一标准抽取到独立的数据仓库中,用户在使用时再根据 主题将数据仓库中的数据发布到数据集市中。数据仓库 查询管理 服务器业务系 统数据 库数据 仓库数据 集市1数据 集市21.2.5 分布式数据仓库结构 在企业各个分公司具有相当大的独立性时,企业总部设置一个全局 数据仓库,各个分公司设置各自的局部数据仓库。局部数据仓库主 要存储各自的未经转换的细节数据,全局数据仓库中主要存储经过 转换的综合数据站点A 站点B 站点C 站点D全局数 据仓库局部数 据仓库局部数 据仓库局部数 据仓库局部数 据仓库总部1.3数据仓库的参照结构 数据仓库的基本功能包含:数据抽取,数据筛选、清理,清理后 的数据加载,设

7、立数据集市,完成数据仓库的查询、决策分析和 知识的挖掘等操作。 数据仓库的管理层分成数据管理与元数据管理两部分,主要负责 对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行 管理。 数据仓库环境支持层包含数据传输和数据仓库基础两部分。数据仓库 基本功能层数据仓库 管理层数据仓库环 境支持层1.3.1 数据仓库基本功能层数据源数据准备区数据仓库结 构数据集市/知 识挖掘库存取与使用 数据来源主要包含:业务数据、历史数据、办公数据、Web数 据、外部数据以及数据源元数据 数据准备区的功能结构部分由数据标准化处理、数据的过滤与 匹配、数据的净化处理、标明数据的时间戳、确认数据质量与 元数据抽取

8、和创建等操作组成 数据仓库的功能结构部分由数据重整和数据仓库创建以及元数 据管理组成 数据集市/知识挖掘库的功能结构与数据仓库的功能结构极为 相似 数据仓库的数据存取与使用结构主要为数据仓库的最终用户提 供进行决策分析和挖掘知识的功能。数据仓库的数据存取与使 用结构应该包含数据仓库存取与检索、元数据管理以及数据仓 库分析与报告 1.3.2 数据仓库的管理层数据管理层中的数据抽取、新数据需求与查询管理主要负责完成 从数据源中抽取数据的管理。 数据仓库中的数据加载、存储、刷新和更新系统则负责对从数据 源中所抽取的数据在完成筛选、净化处理以后,将这些数据加载 、存储到数据仓库中;捕获数据源中的数据变

9、化,用最新数据充 实数据仓库;根据用户的需求和数据仓库管理的要求对数据仓库 进行更新等工作。 安全性与用户授权管理系统主要负责数据仓库的安全管理工作。 数据仓库的数据归档、恢复及净化系统主要负责定期对数据仓库 中的数据进行归档、备份。净化系统则负责对从数据源所抽取的 数据进行数据的筛选、数据标准的统一、数据内容的统一等各种 求精、重整净化工作的管理。数据抽取与新数 据需求与查 询管理数据加载、存储 、刷新和更新 系统安全性与用户授 权管理系统数据归档、恢复 及净化系统1.3.3 数据仓库的元数据管理层 负责管理数据仓库所使用的元数据,其中包括 : 数据仓库、数据集市/知识挖掘库和词汇表管理 元

10、数据抽取、创建、存储和更新管理 预定义的查询和报表以及索引管理 刷新与复制管理,登录、归档、恢复与净化管 理数据仓库 、数 据集市和词汇 表管理元数据抽取、 创建、存储 和更新管理预定义的查 询、报表和索 引管理刷新与 复制管 理登录、归档 、恢复与净 化管理1.3.4 数据仓库的环境支持层 数据传输层包含了: 数据传输和传送网络 客户/服务器代理和中间件 复制系统 数据传输的安全保障系统 数据传输 和传送 网络客户/服务器代 理和中间件复制系统安全和保障系统1.4数据挖掘技术概述 1.4.1 数据挖掘的发展在促进数据挖掘诞生、发展和应用的众多原因中主要有: 超大规模数据库的出现 先进的计算机

11、技术 经营管理的实际需要 数据的精深计算能力。1.4.2 数据挖掘的定义 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、 随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是 潜在有用的信息和知识的过程。从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术,其主要 特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模 式化处理,从中提取辅助商业决策的关键知识。 数据挖掘工具与传统数据分析工具的比较 传统 数据分析工具 (DSS/EIS)数据挖掘工具工具特点回顾型的、验证 型的预测 型的、发现 型的 分析重点已经发 生了什么预测 未来的情况、解释发 生的原因 分析目

12、的从最近的销售文件中列出最 大客户锁定未来的可能客户,以减 少未来的销售成本 数据集大 小数据维、维中属性数、维中 数据均是少量的数据维、维中属性数、维中 数据均是庞大的 启动方式企业管理人员、系统分析员 、管理顾问 启动与控制数据与系统启动,少量的人 员指导 技术状况成熟统计 分析工具已成熟,其他 工具正在发展中1.5 数据挖掘技术与工具 1.5.1 常用数据挖掘技术 数据挖掘的发展受到数据库系统、统计学、机器学习、可视 化技术、信息技术以及其它学科的影响,例如神经网络、模 糊/粗糙集理论、知识表示、归纳技术与高性能计算等。 从常用的数据挖掘技术来看可以分成三大类: 传统分析类 知识发现类其

13、它最新发展的一些数据挖掘技术。 1.5.2 常用数据挖掘工具 数据挖掘工具按照使用方式,可以分成:决 策方案生成工具、商业分析工具和研究分析 工具三大类。 按照数据挖掘的技术可以分成:基于神经网 络的工具、基于规则和决策树的工具、基于 模糊逻辑的工具和综合性数据挖掘工具等。 按照数据挖掘的应用范围可以将挖掘工具分 成专用型数据挖掘工具和通用型数据挖掘工 具。1.5.3 数据挖掘工具的评价标准 模式种类的数量 解决复杂问题的能力 操作性能 数据获取能力 挖掘结果的输出 噪声数据的处理及挖掘工具的鲁棒性 1.5.4 常用数据挖掘工具选择 1.6 数据挖掘的应用1.6.1 数据挖掘与数据仓库大多数数

14、据挖掘工具需要在集成的、一致的、经过清理 的数据上进行挖掘。 数据挖掘过程中所需要的数据处理与分析工具完全可以 在数据仓库的数据处理与数据分析工具中找到, 数据仓库中的OLAP完全可以为数据挖掘提供有关的数 据操作支持 数据挖掘技术在数据仓库中的应用,正好弥补了数据仓 库只能提供大量数据,而无法进行深度信息分析的缺 陷。 1.6.2 数据挖掘过程 确定挖掘对象准备数据 建立模型 数据挖掘 结果分析 知识应用阶段 业务对象 源数据 集成数据 目标数据 预处理数据 商业模式 知识 应用方案业务分析人员 数据分析人员 数据管理人员1.6.3 数据挖掘的用户练 习 1.为什么不能依靠传统的业务处理系统进行决 策分析? 2.在将数据源中的数据加载到数据仓库之前需 要完成那些工作?为什么要进行这些工作? 3.如果创建一个数据仓库,主要是分析关于客 户的人口统计(收入、家庭人口、家庭位置 、爱好等)。数据仓库的目的在于将特定的 产品推销给合适的潜在客户群。这个数据仓 库应该从哪些地方获取数据源,数据仓库的 体系结构应该包含哪些部分。 4.从数据挖掘与数据库、统计学、机器学 习的关系来讨论什么是数据挖掘? 5.在数据挖掘过程中需要涉及到哪些过程 ? 6.在现实中有哪些人需要使用数据挖掘技 术来帮助他的工作?

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号