《大数据时代下的数据挖掘》试题及答案

资源描述

《《大数据时代下的数据挖掘》试题及答案》由会员分享，可在线阅读，更多相关《《大数据时代下的数据挖掘》试题及答案（26页珍藏版）》请在金锄头文库上搜索。

1、海量数据挖掘技术及工程实践题目一、单选题（共80题）1）（ D ）的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。A. 数据清洗B.数据集成C.数据变换D.数据归约2）某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？（A）A. 关联规则发现B.聚类C.分类D.自然语言处理3）以下两种描述分别对应哪两种对分类算法的评价标准？（A）（a）警察抓小偷，描述警察抓的人中有多少个是小偷的标准。（b）描述有多少比例的小偷给警察抓了的标准。A. Precision,Recall B.Recall,Precisi

2、onA. Precision,ROCD.Recall,ROC4）将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？（C）A. 频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘5）当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（B）A. 分类B. 聚类C.关联分析D.隐马尔可夫链6）建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？（C）A. 根据内容检索B.建模描述C.预测建模D.寻找模式和规则7）下面哪种不属于数据预处理的方法？（D）A. 变量代换B.离散化C.聚集D.估计遗漏值8）

3、假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？（B）A. 第一个B.第二个C.第三个D.第四个9）下面哪个不属于数据的属性类型：（D）A. 标称B.序数C.区间D.相异10）只有非零值才重要的二元属性被称作：（C ）A. 计数属性B.离散属性C.非对称的二元属性D.对称属性11）以下哪种方法不属于特征选择的标准方法：（D）A. 嵌入B.过滤C.包装D.抽样12）下面不属于创建新属性的相关方法的是：（B）A. 特征提取B.特征修改映射

4、数据到新的空间D.特征构造13）下面哪个属于映射数据到新的空间的方法？（A）A. 傅立叶变换B.特征加权C.渐进抽样D.维归约14）假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：（D）15）一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是：（A）A. 一年级B.二年级C.三年级D.四年级16）下列哪个不是专门用于可视化时间空间数据的技术：（B）A. 等高线图B.饼图C.曲面图D.矢量场图17）在抽样方法中，当合

5、适的样本容量很难确定时，可以使用的抽样方法是：（D）A. 有放回的简单随机抽样B. 无放回的简单随机抽样C. 分层抽样D渐进抽样18）数据仓库是随着时间变化的，下面的描述不正确的是（C）A. 数据仓库随时间的变化不断增加新的数据内容B. 捕捉到的新数据会覆盖原来的快照C. 数据仓库随事件变化不断删去旧的数据内容D. 数据仓库中包含大量的综合数据，这些综合数据会随着时间的变化不断地进行重新综合19）下面关于数据粒度的描述不正确的是：（C）A. 粒度是指数据仓库小数据单元的详细程度和级别B. 数据越详细，粒度就越小，级别也就越高C. 数据综合度越高，粒度也就越大,级别也就越高D. 粒度的具体划分

6、将直接影响数据仓库中的数据量以及查询质量20）有关数据仓库的开发特点，不正确的描述是：（A）A. 数据仓库开发要从数据出发B. 数据仓库使用的需求在开发出去就要明确C. 数据仓库的开发是一个不断循环的过程，是启发式的开发D. 在数据仓库环境中，并不存在操作型环境中所固定的和较确切的处理流，数据仓库中数据分析和处理更灵活，且没有固定的模式21）关于OLAP的特性，下面正确的是：（D）（1）快速性（2）可分析性（3）多维性（4）信息性（5）共享性A. （1）（2）（3）B. （2）（3）（4）C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)22) 关于OLA

7、P和OLTP的区别描述,不正确的是：(C)A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务C. OLAP的特点在于事务量大，但事务内容比较简单且重复率高D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP 一样均来自底层的数据库系统，两者面对的用户是相同的23) 关于OLAP和OLTP的说法，下列不正确的是：(A)A. OLAP事务量大，但事务内容比较简单且重复率高B. OLAP的最终数据来源与OLTP不一样C. OLTP面对的是决策人员和高层管理人员D. OLTP以应用为核心，是应用

8、驱动的24) 设X=1，2, 3是频繁项集，则可由X产生(C )个关联规则。A. 4B.5C.6D.725) 考虑下面的频繁3-项集的集合：1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定数据集中只有5个项，采用合并策略，由候选产生过程得到4-项集不包含(C)A.1,2,3,4B.1,2,3,5C.1,2,4,5D.1,3,4,526) 下面选项中t不是s的子序列的是(C )A. s= t=B. s= t=C. s= t=D. s= t=27) 在图集合中发现一组公共子结构，这样的任务称为(B )A.频繁子集挖掘B.频繁子图挖掘C.频繁数据项

9、挖掘D.频繁模式挖掘28）下列度量不具有反演性的是（D）A. 系数B.几率C.Cohen度量D.兴趣因子29）下列（A ）不是将主观信息加入到模式发现任务中的方法。A. 与同一时期其他数据对比B. 可视化C. 基于模板的方法D. 主观兴趣度量30）下面购物蓝能够提取的3-项集的最大数量是多少（C）TID项集1牛奶，啤酒，尿布2面包，黄油，牛奶3牛奶，尿布，饼干4面包，黄油，饼干5啤酒，饼干，尿布6牛奶，尿布，面包，黄油7面包，黄油，尿布8啤酒，尿布9牛奶，尿布，面包，黄油10啤酒，饼干A.1B.2C.3D.431）以下哪些算法是分类算法（B）A.DBSCAN B.C4.5 C.K-Mean D

10、.EM32）以下哪些分类方法可以较好地避免样本的不平衡问题（A）A.KNN B.SVM C.BayesD.神经网络33）决策树中不包含一下哪种结点（C ）A. 根结点（root node）B. 内部结点（internal node）C. 外部结点（external node）D. 叶结点（leaf node）34）以下哪项关于决策树的说法是错误的（C）A. 冗余属性不会对决策树的准确率造成不利的影响B. 子树可能在决策树中重复多次C. 决策树算法对于噪声的干扰非常敏感D. 寻找最佳决策树是NP完全问题35）在基于规则分类器的中，依据规则质量的某种度量对规则排序，保证每一个测试记录都是由覆盖它

11、的“最好的”规格来分类，这种方案称为（B）A. 基于类的排序方案B. 基于规则的排序方案C. 基于度量的排序方案D. 基于规格的排序方案。36）以下哪些算法是基于规则的分类器（A）A. C4.5B. KNNC. Naive Bayes D. ANN37）可用作数据挖掘分析中的关联规则算法有（C）。A. 决策树、对数回归、关联模式B. K均值法、SOM神经网络C. Apriori 算法、FP-Tree 算法D. RBF神经网络、K均值法、决策树38）如果对属性值的任一组合,R中都存在一条规则加以覆盖，则称规则集R中的规则为（B ） A.无序规则B.穷举规则C.互斥规则D.有序规则39）用于分类与

12、回归应用的主要算法有：（D ）A. Apriori 算法、HotSpot 算法B. RBF神经网络、K均值法、决策树C. K均值法、SOM神经网络D. 决策树、BP神经网络、贝叶斯40）如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票，然后计票确定测试记录的类标号，称为（A）A.无序规则B.穷举规则C.互斥规则D.有序规则41）考虑两队之间的足球比赛：队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场，而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为（C）42）以下关于人工神

13、经网络（ANN）的描述错误的有（A）A. 神经网络对训练数据中的噪声非常鲁棒B. 可以处理冗余特征C. 训练ANN是一个很耗时的过程D. 至少含有一个隐藏层的多层神经网络43）通过聚集多个分类器的预测来提高分类准确率的技术称为（A）A.组合（ensemble） B.聚集（aggregate）C.合并（combination） D.投票（voting）44）简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作（B）A.层次聚类B.划分聚类非互斥聚类D.模糊聚类45）在基本K均值算法里，当邻近度函数采用（A）的时候，合适的质心是簇中各点的中位数。A.曼哈顿距离B

14、.平方欧几里德距离C.余弦距离D.Bregman散度46）（ C）是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。A.边界点8.质心C.离群点D.核心点47）BIRCH 是一种（B）。A.分类器B.聚类算法C.关联分析算法D.特征选择算法48）检测一元正态分布中的离群点，属于异常检测中的基于（A）的离群点检测。A.统计方法C.密度B. 邻近度D. 聚类技术49）（ C ）将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度，它是一种凝聚层次聚类技术。A.MIN （单链）B.MAX （全链）C. 组平均D.Ward方法50）（ D）将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量，它是一种凝聚层次聚类技术。A.MIN （单链）B.MAX （全链）C.组平均D.Ward方法51）下列算法中，不属于外推法的是（B）。A.移动平均法B.回归分析法C.指数平滑法D.季节指数法52）关联规则的评价指标是：（C）。A. 均方误差、均方根误差B.

展开阅读全文