数据挖掘考试复习资料

上传人:公**** 文档编号:564446812 上传时间:2024-01-21 格式:DOCX 页数:11 大小:28.64KB
返回 下载 相关 举报
数据挖掘考试复习资料_第1页
第1页 / 共11页
数据挖掘考试复习资料_第2页
第2页 / 共11页
数据挖掘考试复习资料_第3页
第3页 / 共11页
数据挖掘考试复习资料_第4页
第4页 / 共11页
数据挖掘考试复习资料_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《数据挖掘考试复习资料》由会员分享,可在线阅读,更多相关《数据挖掘考试复习资料(11页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘考试复习资料一、 名词解释1、数据仓库:面向主题的、集成的、非易失的、是随时间变化的数据集合, 用来支持管理决策.2、聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被 称为聚类3、数据挖掘:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先 前未知的和可能有用的模式或知识4、人工神经网络:人工神经网络是一种应用类似于大脑神经突触联接的结构 进行信息处理的数学模型。在工程与学术界也常直接简称为神经网络或类 神经网络.5、文本挖掘:文本数据挖掘( Text Mining )是指从文本数据中抽取有价 值的信息和知识的计算机处理技术6、OLAP:又称联机分析处理,是使分析人

2、员、管理人员或执行人员能够从 多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实 反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的 更深入了解的一类软件技术。定义1: OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数 据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策 人员对数据进行深入地观察。定义 2:OLAP 是使分析人员、管理人员或执行人员能够从多种角度对从原 始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的 信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技 术。)7、概念描述:就是

3、对目标类对象的内涵进行描述,并概括这类对象的有关特 征.特征化:提供给定数据汇集的简洁汇总比较:提供两个或多个数据汇集的比较描述信息熵:在信息论中,熵被用来衡量一个随机变量出现的期望值 .它代表 了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。信息 熵也称信源熵、平均自信息量。二、 简答题1、数据仓库和传统数据库的区别和联系是什么?(1)区别:数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。数据仓库 需要一个功能十分强大的数据库引擎来驱动,它更偏向于工程。数据仓库系统和 传统数据库系统相比,不同点表现在以下几方面.对比内容数抓库数拥仓库数据内容

4、当前值历史的、存档的归納的、 计算的数据数据冃标面向业务操作程序、重慕 处理面向上体域、骨理决策分 析应用数据特性劫态变化、按字段更新静态、不能百接更新、只 是定吋添加数据结构高度結构化、复杂、市和 操作计绰简单、适合分析使用频率高中到低数据切问量每个爭务只访初少貳记录有的事务时能要访问大早 i己录对相应时问的要求以秒拘单位计耳以秒、分钟、英至小时为 计註单位(2)联系:数据库是数据管理技术,是计算机科学的重要分支,其应用已从一般 管理扩大到计算机辅助设计、人工智能以及科技计算等领域 .数据仓库是一个面 向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策, 是 20 世纪末

5、到 21 世纪初数据库市场的一个新的增长点。数据仓库的数据常常来 自于多个数据源,存放模式一致,数据一般驻留在单个站点,数据仓库中的数据 已经清理、变换、集成于装载,并定期刷新,数据仓库中的数据是海量的,数据仓库 所要研究和解决的问题就是从数据库中的获取信息.数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用 关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有 千秋。2、数据挖掘的主要功能是什么? 数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功 能。(1)自动预测趋势和行为数据挖掘自动在大型数据库中进行分类和预测、寻 找预测性信息,自动地提出描

6、述重要数据类的模型或预测未来的数据趋势。(2)关联分析数据关联是数据库中存在的一类重要的可被发现的知识, 若两个或两个以上变量的取值之间存在某种规律性 ,就称为关联。(3)聚类 -聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为 多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象 差别很大。(4)概念描述-就是对目标类对象的内涵进行描述,并概括这类对 象的有关 特征.(5)偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差 很有意义。3、简述OLAP在多维数据模型中的几个基本操作?(1)切片:在多维数组的某一维上选定一维成员的动作成为切片。(2)切

7、块:在多维数组的某一维上选定某一区间的维成员的动作。(3)旋转:旋转既是改变一个报告或者页面的维方向(4)钻取.钻取处理是使用户在数据仓库的多层数据中,能够通过导航信息而获 得更多的细节性数据,钻取一般是指向下钻取。4、数据挖掘的步骤包括哪些?理解数据和数据的来源 获取相关知识与技术 整合与检查数据去除错误或不一致的数据 建立模型和假设实际数据挖掘工作 测试和验证挖掘结果 解释和应用(1)数据准备:包括数据的选择、净化、推测、转换数据缩减。数据准备包括:选择数据在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理一进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失

8、的域,删除无效数据等(2)数据挖掘:采用的技术有一一决策树、分类、聚类、粗糙集、关联规则、神经 网络、遗传算了数据挖掘根据KDD的日标,选取相应算法的参数,得到可能形成 知识的模式模型。(3)评估、解释模式模型:上面得到的模式模型,需要评估以确定哪些是有 效的 模式.结果分析对数据挖掘的结果进行解释和评价,转换成为能够最终被用 户理解的知识巩固知识.(5)运用知识。将分析所得到的知识集成到业务信息系统的组织结构中去5、数据挖掘与传统分析方法的区别是什么?数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区 别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖 掘所得到的信

9、息应具有先前未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发 现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识 ,挖掘 出的信息越是出乎意料 ,就可能越有价值 在商业应用中最典型的例子就是 一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系 6、简述事务处理与分析处理的操作特点的不同?OLAP 的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术 核心是“维这个概念,因此 OLAP 也可以说是多维数据分析工具的集合。OLTPOLAP功能日常操作决策支持DB设计面向应用的面向主题的数据最新数据 细节数据是维的 分寺的历史数据聚

10、猱数据是冬维的 集成的存取读/写,数十条记录一般只读,上百万条工作单位简单的事务复杂的査询DB100MB-GB事务处理和分析处理的性能特性不同 所有联机事务处理强调的是数据更新处理性能和系统的可靠性。在事务处 理环境中,用户的行为特点是数据的存取操作频率高,每次操作处理的时间短. 在分析处理环境中,用户的行为模式与此完全不同,强调的是数据处理和 分析的能力在传统数据库系统基础上的决策支持(DSS)应用程序可能需要连续几个 小时,从而消耗大量的系统资源。 联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到 两全,将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。事

11、务处理:存取操作频率高而每次操作处理的时间短。分析处理;某个 DSS 应用程序可能需要连续使用几个小时,从而消耗掉大量 的系统资源,将具有如此不同处理性能的两种应用放在一个环境中运行,这种行为是 不适当的7、简述数据仓库系统的体系结构?(1)数据源 是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于 RDBMS 中的各种业务处理数据和各类文档数据。 外部信息包括各类法律法规、市场信息和竞争对手的信息等等;(2)数据的存储与管理。是整个数据仓库系统的核心.数据仓库的真正关键是数据的存储和管理。数 据仓库的组织管理方式决定了它有别于传统数据库 ,同时也决

12、定了其对外部数据 的表现形式.要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓 库的技术特点着手分析.针对现有各业务系统的数据,进行抽取、清理,并有效 集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓 库和部门级数据仓库(通常称为数据集市).(3)OLAP(联机分析处理)服务器 对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多 角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP (关系型在线分析处理)、MOLAP (多维在线分析处理)和 HOLAP (混合型线上分析处 理).ROLAP基本数据和聚合数据均存放在 RDBMS之中;MOLA

13、P基本数据和 聚合数据均存放于 多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合 数据存放于多维数据库中(4)前端工具。 主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以 数据挖掘及各种基于数据仓库或数据集市的应用开发工具。其中数据分析 工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。8、OLAP 的基本特征和可构造的多维数据模型有哪些?1)基本特征:(1)快速性:用户对OLAP的快速反应能力有很多高的要求。系统应能在5 秒内对用户的大部分分析要求作出反应。(2)可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。(3)多维性:多维性是

14、OLAP 的关键属性。系统必须提供对数据的多维视 图和分析,包括对层次维和多重层次维的完全支持.(4)信息性:不论数据量有多大,OLAP也不管数据存储在何处,系统应 能及时获得信息,并且管理大容量信息。2)多维数据模型: 这种模型以星形模式、雪花模式、或事实星座模式形式存在星形模式:它的核心是一个包含主题的事实表,通过事实表将多个包含事实的非正规化描述的维度表连接起来,各个维度表都连接到中央事实表.雪花模式:是对星型模型的扩展,每一个维度都可以向外连接多个对事实进行详 细描述的类别表.事实星座:复杂的应用可能需要多个事实表共享维表。这种模式可以看作星形模式集,因此称为星系模式,或事实星座。9、

15、如何理解数据挖掘功能中的关联分析?数据关联是数据库中存在的一类重要的可被发现的知识,若两个或两 个以上变量的取值之间存在某种规律性,就称为关联。关联分析的目的是 找出数据库中隐藏的关联网,常用的两种技术为关联规则和序列模式 .关联 规则是发现一个事物与其他事物的相互关联性或相互依赖性 ;序列模式分 析将重点放在分析数据之间的前因后果关系。10、数据挖掘与神经网络的关系是什么?神经网络是属于人工智能范畴的,但可以用于数据挖掘,比如通过一批样 本数据,训练出神经网络模型,然后再去测试新数据。就是对数据挖掘中分类技 术的一个应用.数据挖掘就是从大量数据中挖掘有用的知识,神经网络就是一种有学习能力的类 似人脑活动的技术,其实也是在提炼知识。三、 论述题1、试分析数据挖掘技术在金融领域的应用情况?数据挖掘已经被广泛应用于银行和商业中,有以下的典型应用:1 )对目标市场(targeted marketing)客户的分类与聚类。例如,可以将具有 相同储蓄和货款偿还行为的客户分为一组。有效的聚类和协同过滤方法有助于识 别客户组,以及推动目标市场。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号