第50讲252计算机等级考试三级数据库技术精第十四章美工版2013.8.27章节

上传人:E**** 文档编号:91556089 上传时间:2019-06-29 格式:PPT 页数:17 大小:6.40MB
返回 下载 相关 举报
第50讲252计算机等级考试三级数据库技术精第十四章美工版2013.8.27章节_第1页
第1页 / 共17页
第50讲252计算机等级考试三级数据库技术精第十四章美工版2013.8.27章节_第2页
第2页 / 共17页
第50讲252计算机等级考试三级数据库技术精第十四章美工版2013.8.27章节_第3页
第3页 / 共17页
第50讲252计算机等级考试三级数据库技术精第十四章美工版2013.8.27章节_第4页
第4页 / 共17页
第50讲252计算机等级考试三级数据库技术精第十四章美工版2013.8.27章节_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《第50讲252计算机等级考试三级数据库技术精第十四章美工版2013.8.27章节》由会员分享,可在线阅读,更多相关《第50讲252计算机等级考试三级数据库技术精第十四章美工版2013.8.27章节(17页珍藏版)》请在金锄头文库上搜索。

1、计算机等级考试 三级数据库技术 精讲班,14.3.3 数据仓库设计步骤 数据集成:将源自不同数据源的数据经过抽取、转换、清理、装载等操作载入数据仓库的过程。 ETL(Extract Transform Load)是实现数据集成的主要技术。 大量资料、复杂转换逻辑时可用ELT 数据清理是一个减少错误和不一致性的过程。 (不符合要求数据:不完整、错误、重复数据) 数据仓库设计核心:数据仓库的主题数据模型设计和实现,第14章 数据仓库与数据挖掘,14.4 数据仓库运行与维护 主要工作:操作型数据环境中新生成的数据的集成、载入、刷新数据仓库中的细节数据和导出数据(物化视图)、将过时的数据转移到磁带等存

2、储设备上、清除不再使用的数据、对元数据进行管理 14.4.1 数据仓库数据的更新维护 对细节数据刷新和对导出数据的刷新。 1维护策略 实时维护、延时维护(被查询时完成更新)、快照维护(定时,广泛使用),第14章 数据仓库与数据挖掘,2捕捉数据源变化 典型方法: 触发器(带触发器的关系型数据库系统) 修改数据源应用程序 通过日志文件 快照比较法 3导出数据的刷新 根据维护对象的数据源对其进行重新计算 根据数据源的变化量在维护对象原有数据基础上进行数据调价和修改(增量式维护)。,第14章 数据仓库与数据挖掘,14.4.2 数据仓库监控和元数据管理 1监控 容量、使用率、安全等 2元数据管理 数据仓

3、库监控的过程代码和结果属于技术元数据。 技术元数据描述数据仓库结构,存储关于数据仓库系统的技术细节。业务元数据:提供企业概念模型和多维数据模型。 元数据库管理存储元数据。,第14章 数据仓库与数据挖掘,14.5 联机分析处理与多维数据模型(关注) 14.5.1 OLAP简介 支持复杂分析操作,侧重决策支持。 特点:快速、可分析、多维。 14.5.2 多维分析的基本概念 维:观察数据的角度,第14章 数据仓库与数据挖掘,14.5.3 多维分析的基本操作 钻取(某一维逐步向更细节层方向观察数据)与卷起:最基本的操作 上钻:沿维的概念分层向上攀升(汇总/综合/聚集) 下钻:沿维的概念分层向下/引入新

4、的维(细分) 切片和切块:实现局部数据显示,帮助用户从众多混杂数据中选择。 在多维数组的某一维选定一个维成员的动作为切片 舍弃一些观察角度/关注某一部分 在多维数组的某一维上选定某一区间的维成员切块 多个切片的叠加 旋转:改变报告和页面显示的维方向如数据交叉。以用户容易理解的角度来观察数据。,14.5.4 OLAP的实现方式 1基于多维数据库的OLAP(MOLAP)最好查询性能 应用逻辑层和数据层结合在一起。 将元数据、基础事实数据、导出数据存储在以多维数组为基本存储结构的多维数据库中。 2基于关系数据库的OLAP(ROLAP) 所有基础事实数据及维表采用关系表表示和存储。 一类是基础事实表,

5、存储事实的度量值及各维码值(星型模式、雪花模式)。另一类是维表,维的层次和成员类别 3混合OLAP(HOLAP),第14章 数据仓库与数据挖掘,14.6 数据挖掘技术KDD 探测型的数据分析 发现信息、发现知识 基于人工智能、机器学习、统计学 由计算机自动智能地分析数据,获取信息,作出预测或帮助决策 需要算法的支持和机器的环境,第14章 数据仓库与数据挖掘,14.6.1 数据挖掘步骤 1数据准备 数据选取、数据预处理、数据变换 2数据挖掘 分类、聚类、关联规则发现或序列模式发现 要理解挖掘算法要求前提假设 3结果解释评估,第14章 数据仓库与数据挖掘,14.6.1 数据挖掘步骤 常见任务包括:

6、分类、估计、预测、相关性分析或关联规则、聚类和描述。同时还有对复杂数据的挖掘任务。分为分类预测任务和描述型任务 分类预测型:训练集、测试集、验证集(如:顾客消费情况判断是重要客户的可能性) 描述型任务:根据数据内部固有联系,生成对数据集中数据关系或整个数据集的概要描述。包括摘要、聚类、依赖分析等。如根据客户行为特征和基本属性,将不同客户划分不同类别的相似群体。,第14章 数据仓库与数据挖掘,14.6.2 关联规则挖掘 发现数据间的联系(如啤酒和尿布) 定义最小支持度与最小可信度 14.6.3 分类挖掘 通过已知数据集建立分类函数,构造分类器 利用所获得的分类函数对未知类别标记的数据项进行分类操

7、作。 (如每10次消费7次超过300元,重要客户),第14章 数据仓库与数据挖掘,14.6.4 聚类挖掘 数据分组,同组对象之间较高相似度。 统计方法、机器学习方法、神经网络方法和面向数据库的方法 14.6.5 时间序列方法 时间排序的一组变量,如GDP,CPI的变化,利率、汇率。 前后时刻数据的相关性,呈现某种规律变化,时间序列中蕴涵其他形式不能代替的知识。描述行为随时间变化的对象规律或趋势,对其建模。 时间序列预测、数据变换、聚类分类分析等,第14章 数据仓库与数据挖掘,【真题20130314】某商场根据购物记录找到倾向购买高清电视的顾客所具有的属性特征,能够满足此需求的数据挖掘方法是: A)关联分析 B)分类分析 C)时间序列分析 D)回归分析 答案:B,第14章 数据仓库与数据挖掘,【样题】搜索引擎在用户输入关键词后,会向用户推荐最近一段时间最可能的和该关键词一起出现的其他关键词,这用到了数据挖掘中的【关联】挖掘算法。,第14章 数据仓库与数据挖掘,阅读P295页本章小结 完成P295-P296习题,课后习题,25-2,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号