工程硕士《数据挖掘》考试试卷

资源描述

《工程硕士《数据挖掘》考试试卷》由会员分享，可在线阅读，更多相关《工程硕士《数据挖掘》考试试卷（3页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘考试试题一、单选题（本大题共20个子题，每个子题1分，共20分）在每小题列出的四个备选项中选择一项符合题目要求的，请将其代码填写在题后的括号内。错选、多选或未选均无分。1.以下哪个选项不属于在线事务处理（OLTP）业务is （） a、在线分析处理（OLAP） B、决策支持（DS） C、数据挖掘（DM） D和数据收集2为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？（）a、探索性数据分析B、建模描述C、预测性建模D、发现模式和规则3。当根据实际应用对模式进行分类时，以下哪项不包括（）a、描述模式B、关联模式C、聚类模式D、序列模式4。以下哪项不是常用的

2、聚类分析方法（）a、特征聚类b、cf树c、决策树d、随机搜索聚类法5.高层数据模型应该哪种表示方法（）a、E-R图B,物理数据模型C,逻辑数据模型D,低级数据类型6。以下哪项不是星图7的逻辑实体（）a、指标B、维度C、详细类别D和关系。以下哪项不是数据仓库系统的改进（）a、改正性维护b、完善性维护c、预防性维护d、应用维护8.以下两种描述分别对应哪两种对分类算法的评价标准？（）（a）警察抓住了小偷。描述一下警察抓到的有多少人是小偷（b）描述一下被警方抓获的小偷的比例。a.precision,recallb.recall,precisionc.precision,rocd.recall,

3、roc9 .下列哪个不是包中包含的集合（）a、步骤集B、连接集C、局部变量集D、任务集10。以下哪项不属于构建数据仓库系统的阶段（）a、设想阶段b、规划阶段c、开发阶段d、实施阶段11.下列哪个不属于数据挖掘的过程（）a、评估阶段B、巩固和应用阶段C、开采阶段D、维护阶段12。用户有一个感兴趣的模式，并希望在数据集中找到类似的模式。数据挖掘属于什么样的任务？（a）根据内容搜索B.建模描述C.预测建模D.查找模式和规则13假设12个销售价格记录组已经排序如下： 5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时

4、，15在第几个箱子内？()a、第一个b、第二个c、第三个d、第四个 14只有非零值才重要的二元属性被称作：()A计数属性B离散属性C非对称二进制属性d对称属性15。以下不是创建新属性的相关方法：()a特征提取b特征修改c映射数据到新的空间d特征构造16数据仓库是随着时间变化的,下面的描述不正确的是()a、随着时间的变化，数据仓库不断增加新的数据内容；b、捕获的新数据将覆盖原始快照；c、数据仓库随着事件的变化不断删除旧的数据内容；止数据仓库中包含大量的综合数据，这些综合数据会随着时间的变化不断地进行重新综合.17.以下对数据粒度的描述不正确：()A.粒度是指数据仓库中小型数据单元的详细

5、程度和级别；b、数据越详细，粒度越小，级别越高；c、数据集成度越高，粒度越大，层次越高；止粒度的具体划分将直接影响数据仓库中的数据量以及查询质量 18数据挖掘算法以()形式来组织数据a行b列c记录d表格19. 企业成功实施数据挖掘需要以下()知识或技术a.预先规划B. 了解商业风格C.全面的商业知识和技能D20. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？()a、关联规则发现B.聚类C.分类D.自然语言处理二、简答题(本大题共4小题，每小题10分，共40分)21.解释说明概念分层与数据泛化。答：数据泛化是一个从相对较低级别的概念到较高级

6、别的概念的过程，它推进了数据库中与任务相关的大量数据行抽象概述的一个分析过程。22. 什么是聚类分析方法？答：聚类通过把目标数据放入少数相对同源的组或“类”(clus ter)里。分析表达数据，(1)通过一系列的检测将待测的一组基因的变异标准化，然后成对比较线性协方差。(2)通过把用最紧密关联的谱来放基因进行样本聚类，例如用简单的层级聚类（hierarchicalclus tering ）方法。这种聚类亦可扩展到每个实验样本，利用一组基因总的线性相关进行聚类。（3）多维等级分析（multidimensionalscalinganalysis,mds）是一种在二维euclidean距离

7、”中显示实验样本相关的大约程度。（4） k-means方法聚类, 通过重复再分配类成员来使“类”内分散度最小化的方法。23. 属性归纳基本算法的四个步骤答：首先使用关系数据库查询收集任务相关的数据；然后通过考察任务相关数据中每个属性的不同值的个数，进行概化（通过属性删除或者属性概化）。聚集通过合并相等的广义元组，并累计他们相应的技术值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式，如图表或规则，提供用户。24. 什么是异常值分析？答：孤立点是指数据集中那些小模式数据，它可能是度量或执行错误所导致的,也可能是固有数据可变性的结果。霍金斯给出了它的基本定义：异常值是数据集中唯一的数据，这使人们怀疑这些数据不是随机偏差，而是来自完全不同的机制。一般的离群点挖掘有两个基本任务：一个是定义在给定的数据集中什么样的数据可以被认为是不一致的；二是寻找一种有效的方法来挖掘这些异常值。目前已有的传统的孤立点挖掘算法主要包括四类算法基于统计的方法，基于距离的方法，基于密度的方法，基于偏离的方法和基于聚类的挖掘算法。三、申请题（本大题共2个子题，每个子题得20分，共计40分）25。什么样的数据挖掘方法？解释这种方法的特点26数据挖掘项目是一项系统工程，它作为从数据库中自动发现知识的过程，仍然需要来自不同领域专家共同参与知识发现的全部过程。请说

展开阅读全文

工程硕士《数据挖掘》考试试卷

最新文档