数据挖掘试题

上传人:枫** 文档编号:562907825 上传时间:2023-12-26 格式:DOCX 页数:10 大小:21.23KB
返回 下载 相关 举报
数据挖掘试题_第1页
第1页 / 共10页
数据挖掘试题_第2页
第2页 / 共10页
数据挖掘试题_第3页
第3页 / 共10页
数据挖掘试题_第4页
第4页 / 共10页
数据挖掘试题_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《数据挖掘试题》由会员分享,可在线阅读,更多相关《数据挖掘试题(10页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘试题单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪 个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A. 探索性数据分析B. 建模描述C. 预测建

2、模D. 寻找模式和规则11 .下面哪种不属于数据预处理的方法?(D)A变量代换B离散化C聚集D估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215使用如下每种方法将它们划分成四个箱等频(等深)划分时,15在第几个箱子内?(B)A 第一个B第二个D 第四个13. 上题中,等宽划分时(宽度为50),15又在哪个箱子里? (A)A 第一个B第二个C 第三个D 第四个16. 只有非零值才重要的二元属性被称作:( C )A 计数属性B离散属性C非对称的二元属性D对称属性17. 以下哪种方法不属于特征选择的标准

3、方法:(D)A嵌入B过滤C包装D抽样18. 下面不属于创建新属性的相关方法的是:(B)A特征提取B特征修改C映射数据到新的空间D特征构造22. 假设属性in come的最大最小值分别是12000元和98000元 利用最大最小规范化的方法将属性的值映射到 0 至 1 的范围内。对属 性in come的73600元将被转化为:(D)A 0.821B 1.224C 1.458D 0.71623. 假定用于分析的数据包含属性age。数据元组中age的值如下 (按递增序):13,15,16,16,19,20,20,21,22,22,25, 25,25,30,33,33,35,35,36,40,45,46

4、,52,70,问题: 使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个 箱子值为:(A)A 18.3B 22.6C 26.8D 27.928. 数据仓库是随着时间变化的,下面的描述不正确的是(C)A. 数据仓库随时间的变化不断增加新的数据内容;B. 捕捉到的新数据会覆盖原来的快照;C. 数据仓库随事件变化不断删去旧的数据内容;D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变 化不断地进行重新综合.29. 关于基本数据的元数据是指: (D)A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关 的信息;B. 基本元数据包括与企业相关的管理方面的数据和信息;C

5、. 基本元数据包括日志文件和简历执行处理的时序调度信息;D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的 信息.30. 下面关于数据粒度的描述不正确的是: (C)A. 粒度是指数据仓库小数据单元的详细程度和级别;B. 数据越详细,粒度就越小,级别也就越高;C. 数据综合度越高,粒度也就越大,级别也就越高;D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量33. OLAP技术的核心是:(D)A. 在线性;B. 对用户的快速响应;C. 互操作性.D. 多维分析;34. 关于OLAP的特性,下面正确的是:(D)(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A.

6、 (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)35. 关于OLAP和OLTP的区别描述,不正确的是:(C)A. OLAP 主要是关于如何理解聚集的大量不同的数据.它与 OTAP 应用程序不同.B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事 务.C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP 样 均来自底层的数据库系统,两者面对的用户是相同的.37. 关于OLAP和OLTP的说法,下列不正确的是:(A)A. OL

7、AP事务量大,但事务内容比较简单且重复率高.B. OLAP的最终数据来源与OLTP不一样.C. OLTP面对的是决策人员和高层管理人员.D. OLTP以应用为核心,是应用驱动的.38. 设X=1, 2 , 3是频繁项集,则可由X产生_(C)_个关联规 则。A、4B、5C、6D、740. 概念分层图是_(B)_图。A、无向无环氏有向无环C、有向有环D、无向有环41. 频繁项集、频繁闭项集、最大频繁项集之间的关系是:(C)A、频繁项集频繁闭项集二最大频繁项集 氏频繁项集二频繁闭项集最大频繁项集C、频繁项集频繁闭项集最大频繁项集D、频繁项集二频繁闭项集二最大频繁项集44.在图集合中发现一组公共子结构

8、,这样的任务称为( B )A、频繁子集挖掘B频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘48.以下哪些算法是分类算法,A , DBSCAN B , C4.5 C,K-Mean D,EM(B)50.决策树中不包含一下哪种结点,A,根结点(root node) B内部 结点(in ter nal n ode)C外部结点(exter nal n ode)D,叶结点(leaf node)(C)53. 以下哪项关于决策树的说法是错误的(C)A. 冗余属性不会对决策树的准确率造成不利的影响B. 子树可能在决策树中重复多次C. 决策树算法对于噪声的干扰非常敏感D. 寻找最佳决策树是NP完全问题54. 在基

9、于规则分类器的中,依据规则质量的某种度量对规则排序, 保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方 案称为A. 基于类的排序方案B. 基于规则的排序方案C. 基于度量的排序方案D. 基于规格的排序方案。57. 如果对属性值的任一组合,R中都存在一条规则加以覆盖,则 称规则集R中的规则为(B) A,无序规则B,穷举规则C,互斥规则D, 有序规则58. 如果规则集中的规则按照优先级降序排列,则称规则集是(D)A, 无序规则B,穷举规则C,互斥规则D,有序规则61.以下关于人工神经网络(ANN)的描述错误的有(A)A,神经网络对训练数据中的噪声非常鲁棒B,可以处理冗余特征 C,训练A

10、NN是一个很耗时的过程D,至少含有一个隐藏层的多层神 经网络二、多选题1. 通过数据挖掘过程所推倒出的关系和摘要经常被称为:(A B)A. 模型B. 模式C. 模范D模具2 寻找数据集中的关系是为了寻找精确、方便并且有价值地总结 了数据的某一特征的表示,这个过程包括了以下哪些步骤? (A B C D)A. 决定要使用的表示的特征和结构B. 决定如何量化和比较不同表示拟合数据的好坏C. 选择一个算法过程使评分函数最优D. 决定用什么样的数据管理原则以高效地实现算法。4. 数据挖掘算法的组件包括:(A B C D)A. 模型或模型结构B. 评分函数C. 优化和搜索方法D. 数据管理策略5. 以下哪

11、些学科和数据挖掘有密切联系? (A D)A. 统计B. 计算机组成原理C. 矿产挖掘D. 人工智能6. 在现实世界的数据中,元组在某些属性上缺少值是常有的。描 述处理该问题的各种方法有:(ABCDE)A忽略元组C使用一个全局常量填充空缺值B 使用属性的平均值填充空缺值 D 使用与给定元组属同一类的所 有样本的平均值E使用最可能的值填充空缺值8.对于数据挖掘中的原始数据,存在的问题有:(ABCDE)A不一致B重复C不完整D含噪声E维度高12. 下面列出的条目中,哪些是数据仓库的基本特征: (ACD)A. 数据仓库是面向主题的B. 数据仓库的数据是集成的C. 数据仓库的数据是相对稳定的D. 数据仓

12、库的数据是反映历史变化的E. 数据仓库是面向事务的13. 以下各项均是针对数据仓库的不同说法,你认为正确的有 (BCDE )。A. 数据仓库就是数据库B. 数据仓库是一切商业智能系统的基础C .数据仓库是面向业务的,支持联机事务处理(OLTP)D数据仓库支持决策而非事务处理E. 数据仓库的主要目标就是帮助分析,做长期性的战略制定14. 数据仓库在技术上的工作过程是:(ABCD)A. 数据的抽取B. 存储和管理C. 数据的表现D. 数据仓库设计E. 数据的表现15. 联机分析处理包括以下哪些基本分析功能? (BCD)A. 聚类B. 切片C. 转轴D. 切块E. 分类16. 利用 Apriori

13、算法计算频繁项集可以有效降低计算频繁集的时 间复杂度。在以下的购物篮中产生支持度不小于 3 的候选 3-项集,在 候选2-项集中需要剪枝的是(BD )ID项集1 面包、牛奶2 面包、尿布、啤酒、鸡蛋3 牛奶、尿布、啤酒、可乐4 面包、牛奶、尿布、啤酒5 面包、牛奶、尿布、可乐A、啤酒、尿布B啤酒、面包C、面包、尿布D、啤酒、牛奶18. Apriori算法的计算复杂度受_(ABCD)?_影响。A、支持度阀值 氏项数(维度)C、事务数D、事务平均宽度19. 非频繁模式_(AD)_A、其支持度小于阈值B都是不让人感兴趣的C、包含负模式和负相关模式D、对异常数据项敏感20. 贝叶斯信念网络(BBN)有

14、如下哪些特点,A,构造网络费时费力 B,对模型的过分问题非常鲁棒C,贝叶斯网络不适合处理不完整的数据D, 网络结构确定后,添加变量相当麻烦(AB)三、判断题1. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。(对)2. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(对)3. 图挖掘技术在社会网络分析中扮演了重要的角色。(对)4. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。(错)5. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以 及模式。(错)6. 离群点可以是合法的数据对象或者值。(对)7. 离散属性总是具有有限个值。(错)8. 噪声和伪像是数据错误这一相同表述的两种叫法。(错)9. 用于分类的离散化方法之间的根本区别在于是否使用类信息。 (对)10. 特征提取技术并不依赖于特定的领域。(错)12.定量属性可以是整数值或者是连续值。(对)14. DSS 主要是基于数据仓库.联机数据分析和数据挖掘技术的应 用。(对)15. OLAP 技术侧重于把数据库中的数据进行分析、转换成辅助决 策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。(对)17. 数据仓库中间层OLAP服务器只能采用关系型OLAP (错)18数据仓库系统的组成部分包括数

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号