数据挖掘考试复习大纲教材课程

上传人:yuzo****123 文档编号:141114184 上传时间:2020-08-04 格式:PPT 页数:73 大小:398.50KB
返回 下载 相关 举报
数据挖掘考试复习大纲教材课程_第1页
第1页 / 共73页
数据挖掘考试复习大纲教材课程_第2页
第2页 / 共73页
数据挖掘考试复习大纲教材课程_第3页
第3页 / 共73页
数据挖掘考试复习大纲教材课程_第4页
第4页 / 共73页
数据挖掘考试复习大纲教材课程_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《数据挖掘考试复习大纲教材课程》由会员分享,可在线阅读,更多相关《数据挖掘考试复习大纲教材课程(73页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘期末复习,第一章、数据挖掘概论,数据挖掘: 数据库中的知识挖掘(KDD),数据挖掘知识挖掘的核心,数据清理,数据集成,数据库,数据仓库,Knowledge,任务相关数据,选择,数据挖掘,模式评估,体系结构:典型数据挖掘系统,数据仓库,数据清洗,过滤,数据库,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,数据集成,数据挖掘的主要功能,概念/类描述: 特性化和区分 归纳,总结和对比数据的特性。 关联分析 发现数据之间的关联规则,这些规则展示属性值频繁的在给定的数据中所一起出现的条件。 分类和预测 通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的

2、对象类。 聚类分析 将类似的数据归类到一起,形成一个新的类别进行分析。 孤立点分析 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。 趋势和演变分析 描述行为随时间变化的对象的发展规律或趋势,数据挖掘:多个学科的融合,数据挖掘,数据库系统,统计学,其他学科,算法,机器学习,可视化,数据挖掘的主要问题,挖掘方法 在不同的数据类型中挖掘不同类型的知识, e.g., 生物数据, 流式数据, Web数据 性能: 算法的有效性、可伸缩性和并行处理 模式评估: 兴趣度问题 背景知识的合并 处理噪声何不完全数据 并行, 分布式和增量挖掘算法 新发现知识与已有

3、知识的集成: 知识融合 用户交互 数据挖掘查询语言和特定的数据挖掘 数据挖掘结果的表示和显示 多个抽象层的交互知识挖掘 应用和社会因素 特定域的数据挖掘 & 不可视的数据挖掘 数据安全,完整和保密的保护,第二章、数据仓库和OLAP技术,什么是数据仓库? p67,数据仓库的定义很多,但却很难有一种严格的定义 它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。 为统一的历史数据分析提供坚实的平台,对信息处理提供支持 “数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”W. H. Inmon(数据仓库构造方面的领头设计师) 建立数据仓库(

4、data warehousing): 构造和使用数据仓库的过程。,数据仓库与异种数据库集成 p68,传统的异种数据库集成: 在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators ) 查询驱动方法当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器 缺点:复杂的信息过虑和集成处理,竞争资源 数据仓库: 更新驱动 将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析 高性能,OLTP系统和OLAP系统的比较 p69,从关系表和电子表格到数据立方体 p70,数据仓库和数据仓库技术基于多

5、维数据模型。这个模型把数据看作是数据立方体形式。多维数据模型围绕中心主题组织,该主题用事实表表示。事实是数值度量的。 数据立方体允许以多维数据建模和观察。它由维和事实定义。 维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。 事实表包括事实的名称或度量以及每个相关维表的关键字 在数据仓库的研究文献中,一个n维的数据的立方体叫做基本方体。给定一个维的集合,我们可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。0维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的方体则称为基本方体。,度量的分类 p76,一个数据立方体的度量是

6、一个数值函数,该函数可以对数据立方体的每一个点求值。度量可以根据其所用的聚集函数分为三类: 分布的(distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。 比如:count(),sum(),min(),max()等 代数的(algebraic):函数可以由一个带M个参数的代数函数计算(M为有界整数),而每个参数值都可以有一个分布的聚集函数求得。 比如:avg(),min_N(),standard_deviation() 整体的(holistic):描述函数的子聚集所需的存储没有一个常数界。 比如:median(),mode(),rank(),概念分层:l

7、ocation维的一个概念分层 p77,all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M. Wind,L. Chan,.,.,.,.,.,.,all,region,office,country,Toronto,Frankfurt,city,多维数据模型上的OLAP操作 79,上卷(roll-up):汇总数据 通过一个维的概念分层向上攀升或者通过维规约 下钻(drill-down):上卷的逆操作 由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现 切片和切块(slice and dice)

8、投影和选择操作 转轴(pivot) 立方体的重定位,可视化,或将一个3维立方体转化维一个2维平面序列 其他OLAP操作 钻过(drill_across):执行涉及多个事实表的查询 钻透(drill_through):使用关系SQL机制,钻到数据立方体的底层,到后端关系表,数据仓库设计的四种视图 82,数据仓库设计的四种视图 自顶向下视图 允许我们选择数据仓库所需的相关信息 数据源视图 揭示被操作数据库系统所捕获、存储和管理的信息 数据仓库视图 有事实表和维表所组成 商务查询视图 从最终用户的角度透视数据仓库中的数据,三种数据仓库模型 84,企业仓库 搜集关于跨越整个组织的主题的所有信息 数据集

9、市 企业范围数据的一个子集,对于特定的客户是有用的。其范围限于选定的主题,比如一个商场的数据集市 独立的数据集市 VS. 非独立的数据集市(数据来自于企业数据仓库) 虚拟仓库 操作数据库上的一系列视图 只有一些可能的汇总视图被物化,OLAP服务器类型 86,逻辑上,OLAP服务器从数据仓库或数据集市中给商业用户提供多维数据 物理上,OLAP的底层数据存储实现可以有多种不同的方式 关系OLAP服务器(ROLAP) 使用关系数据库或扩展的关系数据库存放并管理数据仓库的数据,而用OLAP中间件支持其余部分 包括每个DBMS后端优化,聚集导航逻辑的实现,附加的工具和服务 较大的可扩展性 多维OLAP服

10、务器(MOLAP) 基于数组的多维存储引擎(稀疏矩阵技术) 能对预计算的汇总数据快速索引 混合OLAP服务器(HOLAP) 结合上述两种技术,更大的使用灵活性 特殊的SQL服务器 在星型和雪花模型上支持SQL查询,方体计算的多路数组聚集方法(1),将数组分成块(chunk,一个可以装入内存的小子方) 压缩的稀疏数组寻址:(chunk_id, offset) 通过访问立方体单元,计算聚集。可以优化访问单元组的次序,使得每个单元被访问的次数最小化,从而减少内存访问和磁盘I/O的开销。,哪个是多路数组聚集的最佳遍历次序?,第三章、数据预处理,为什么要预处理数据?,现实世界的数据是“肮脏的” 不完整的

11、:有些感兴趣的属性缺少属性值,或仅包含聚集数据 含噪声的:包含错误或者“孤立点” 不一致的:在编码或者命名上存在差异 没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据 数据仓库需要对高质量的数据进行一致地集成,数据预处理的主要任务 p31,数据清理 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性 数据集成 集成多个数据库、数据立方体或文件 数据变换 规范化和聚集 数据归约 得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 数据离散化 数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要,如何处理空缺值 39,忽略元组:当类

12、标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。 人工填写空缺值:工作量大,可行性低 使用一个全局变量填充空缺值:比如使用unknown或- 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本的平均值 使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样的基于推断的方法,噪声数据 p40,噪声:一个测量变量中的随机错误或偏差 引起不正确属性值的原因 数据收集工具的问题 数据输入错误 数据传输错误 技术限制 命名规则的不一致 其它需要数据清理的数据问题 重复记录 不完整的数据 不一致的数据,如何处理噪声数据 p40,分

13、箱(binning): 首先排序数据,并将他们分到等深的箱中 然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等 聚类: 监测并且去除孤立点 计算机和人工检查结合 计算机检测可疑数据,然后对它们进行人工判断 回归 通过让数据适应回归函数来平滑数据,数据变换 45,平滑:去除数据中的噪声 (分箱、聚类、回归) 聚集:汇总,数据立方体的构建 数据概化:沿概念分层向上汇总 规范化:将数据按比例缩放,使之落入一个小的特定区间 最小最大规范化 z-score规范化 小数定标规范化 属性构造 通过现有属性构造新的属性,并添加到属性集中;以增加对高维数据的结构的理解和精确度,数据归约策略 47,数据

14、仓库中往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间 数据归约 数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果 数据归约策略 数据立方体聚集 维归约 数据压缩 数值归约 离散化和概念分层产生 用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。,分类数据的概念分层生成 p56,分类数据是指无序的离散数据,它有有限个值(可能很多个)。 分类数据的概念分层生成方法: 由用户或专家在模式级显式的说明属性的部分序。 通过显示数据分组说明分层结构的一部分。 说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有

15、意义的概念分层。 对只说明部分属性集的情况,则可根据数据库模式中的数据语义定义对属性的捆绑信息,来恢复相关的属性。,第四章、数据挖掘原语和DMQL,数据挖掘原语的组成部分,数据挖掘原语应该包括以下部分: 说明数据库的部分或用户感兴趣的数据集 要挖掘的知识类型 用于指导挖掘的背景知识 模式评估、兴趣度量 如何显示发现的知识 数据挖掘原语用于用户和数据挖掘系统通信,让用户能从不同的角度和深度审查和发现结果,并指导挖掘过程。,说明数据挖掘任务的原语,任务相关的数据 数据库(仓库)名、数据立方体、选择条件、相关属性、分组条件 挖掘的知识类型 特征化、区分、关联、分类/预测、聚类 背景知识 概念分层,关

16、联的确信度 模式兴趣度度量 简单性、确定性、实用性、新颖性 发现模式的可视化 规则、表、图表、图、判定树,兴趣度度量,没有兴趣度度量,挖掘出来的有用模式,很可能会给淹没在用户不感兴趣的模式中。 简单性 确定性 实用性 新颖性 兴趣度的客观度量方法:根据模式的结构和统计,用一个临界值来判断某个模式是不是用户感兴趣的。,第五章、特征化和比较,两种不同类别的数据挖掘,从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘 描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。 预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。,什么是概念描述?,描述性挖掘 VS. 预测性挖掘 描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。 预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。 概念描述:为数据的特征化和比较产生描述(

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号