数据挖掘试题(110道)

上传人:玩*** 文档编号:201936567 上传时间:2021-10-13 格式:DOCX 页数:24 大小:21.67KB
返回 下载 相关 举报
数据挖掘试题(110道)_第1页
第1页 / 共24页
数据挖掘试题(110道)_第2页
第2页 / 共24页
数据挖掘试题(110道)_第3页
第3页 / 共24页
数据挖掘试题(110道)_第4页
第4页 / 共24页
数据挖掘试题(110道)_第5页
第5页 / 共24页
亲,该文档总共24页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数据挖掘试题(110道)》由会员分享,可在线阅读,更多相关《数据挖掘试题(110道)(24页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘试题(110道)单项选择题1.某超市讨论销售纪录数据后发觉,买啤酒的人很也许率也会购置尿布,这种属于数据挖掘的哪类问题?(A)A.xx规章发觉B.聚类C.分类D.自然语言处理2.以下两种描绘分别对应哪两种对分类算法的评价标准?(A)(a)警察抓小偷,描绘警察抓的人中有多少个是小偷的标准。(b)描绘有多少比例的小偷给警察抓了的标准。A. Precision,RecallB. Recall,PrecisionA. Precision,ROC D. Recall,ROC3.将原始数据进展集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A.频繁形式挖掘B.分类和预报C.数据预处理D

2、.数据流挖掘4.当不知道数据所带标签时,可以用法哪种技术促使带同类标签的数据与带其他标签的数据相分别?(B)A.分类B.聚类C.关联分析D.隐马尔可夫链5.什么是KDD?(A)A.数据挖掘与学问发觉B.领域学问发觉C.文档学问发觉D.动态学问发觉6.用法交互式的和可视化的技术,对数据进展探究属于数据挖掘的哪一类任务?AA.探究性数据分析B.建模描绘C.预报建模D.查找形式和规章7.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A.探究性数据分析B.建模描绘C.预报建模D.查找形式和规章8.建立一个模型,通过这个模型依据已知的变量值来预报其他某个变量值属于数据挖掘

3、的哪一类任务?(C)A.依据内容检索B.建模描绘C.预报建模D.查找形式和规章9.用户有一种感爱好的形式并且盼望在数据集中找到相像的形式,属于数据挖掘哪一类任务?(A)A.依据内容检索B.建模描绘C.预报建模D.查找形式和规章11.下面哪种不属于数据预处理的方法?(D)A变量代换B离散化C 聚集D 估量遗漏值12.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215用法如下每种方法将它们划分成四个箱。等频等深划分时,15在第几个箱子内?(B)A 第一个B 其次个C 第三个D 第四个13.上题中,等宽划分时宽度为50

4、,15又在哪个箱子里?(A)A 第一个B 其次个C 第三个D 第四个14.下面哪个不属于数据的属性类型:(D)A 标称B 序数C 区间D相异15.在上题中,属于定量的属性类型是:(C)A 标称B 序数C区间D 相异16.只有非零值才重要的二元属性被称作:( C )A 计数属性B 离散属性C非对称的二元属性D 对称属性17.以下哪种方法不属于特征选择的标准方法:(D)A嵌入B 过滤C 包装D 抽样18.下面不属于创立新属性的相关方法的是:(B)A特征提取B特征修改C映射数据到新的空间D特征构造19.考虑值集1、2、3、4、5、90,其截断均值p=20%是(C)A 2B 3C 3.5D 520.下

5、面哪个属于映射数据到新的空间的方法?(A)A 傅立叶变换B特征加权C 渐进抽样D维归约21.熵是为消退不确定性所需要获得的信息量,投掷匀称正六面体骰子的熵是:(B)A 1比特B 2.6比特C 3.2比特D 3.8比特22.假设属性income的最大最小值分别是12000元和98000元。利用最大最小标准化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D)A 0.821B 1.224C 1.458D 0.71623.假定用于分析的数据包含属性age。数据元组中age的值如下按递增序:13,15,16,16,19,20,20,21,22,22,25,25,25

6、,30,33,33,35,35,36,40,45,46,52,70,问题:用法按箱平均值平滑方法对上述数据进展平滑,箱的深度为3。其次个箱子值为:(A)A 18.3B 22.6C 26.8D 27.924.考虑值集12 24 33 2 4 55 68 26,其四分位数极差是:(A)A 31B 24C 55D 325.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。那么年级属性的众数是:(A)A 一年级B二年级C 三年级D 四年级26.以下哪个不是特地用于可视化时间空间数据的技术:(B)A 等高线图B饼图C 曲面图D 矢量场图27.在抽样方法中,当适

7、宜的样本容量很难确定时,可以用法的抽样方法是:(D)A 有放回的简洁随机抽样B无放回的简洁随机抽样C分层抽样D 渐进抽样28.数据仓库是随着时间改变的,下面的描绘不正确的选项是(C)A.数据仓库随时间的改变不断增加新的数据内容;B.捕捉到的新数据会掩盖原来的快照;C.数据仓库随大事改变不断删去旧的数据内容;D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的改变不断地进展重新综合.29.关于根本数据的元数据是指: (D)A.根本元数据与数据源,数据仓库,数据集市和应用程序等构造相关的信息;B.根本元数据包括与企业相关的管理方面的数据和信息;C.根本元数据包括日志文件和简历执行处理的时序调

8、度信息;D.根本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.30.下面关于数据粒度的描绘不正确的选项是: (C)A.粒度是指数据仓库小数据单元的具体程度和级别;B.数据越具体,粒度就越小,级别也就越高;C.数据综合度越高,粒度也就越大,级别也就越高;D.粒度的详细划分将挺直影响数据仓库中的数据量以及查询质量.31.有关数据仓库的开发特点,不正确的描绘是: (A)A.数据仓库开发要从数据动身;B.数据仓库用法的需求在开发出去就要明确;C.数据仓库的开发是一个不断循环的过程,是启发式的开发;D.在数据仓库环境中,并不存在操作型环境中所固定的和较准确的处理流,数据仓库中数据分析和处理更

9、敏捷,且没有固定的形式32.在有关数据仓库测试,以下说法不正确的选项是: (D)A.在完成数据仓库的施行过程中,需要对数据仓库进展各种测试.测试工作中要包括单元测试和系统测试.B.当数据仓库的每个单独组件完成后,就需要对他们进展单元测试.C.系统的集成测试需要对数据仓库的全部组件进展大量的功能测试和回来测试.D.在测试之前没必要制定具体的测试方案.33. OLAP技术的核心是: (D)A.在线性;B.对用户的快速响应;C.互操作性.D.多维分析;34.关于OLAP的特性,下面正确的选项是: (D)(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A. (1) (2) (3)B. (

10、2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)35.关于OLAP和OLTP的区分描绘,不正确的选项是: (C)A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B.与OLAP应用程序不同,OLTP应用程序包含大量相对简洁的事务.C. OLAP的特点在于事务量大,但事务内容比拟简洁且重复率高.D. OLAP是以数据仓库为根底的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是一样的.36. OLAM技术一般简称为数据联机分析挖掘,下面说法正确的选项是: (D)A. OLAP和OLAM都基于客

11、户机/效劳器形式,只有后者有与用户的交互性;B.由于OLAM的立方体和用于OLAP的立方体有本质的区分.C.基于WEB的OLAM是WEB技术与OLAM技术的结合.D.OLAM效劳器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体作肯定的操作.37.关于OLAP和OLTP的说法,以下不正确的选项是: (A)A. OLAP事务量大,但事务内容比拟简洁且重复率高.B. OLAP的最终数据来源与OLTP不一样.C. OLTP面对的是决策人员和高层管理人员.D. OLTP以应用为核心,是应用驱动的.38.设X=1,2,3是频繁项集,那么可由X产生_(C)_个关联规章。A、4B、5C、6

12、D、740.概念分层图是_(B)_图。A、无向无环B、有向无环C、有向有环D、无向有环41.频繁项集、频繁闭项集、最大频繁项集之间的关系是:(C)A、频繁项集频繁闭项集=最大频繁项集B、频繁项集=频繁闭项集最大频繁项集C、频繁项集频繁闭项集最大频繁项集D、频繁项集=频繁闭项集=最大频繁项集42.考虑下面的频繁3-项集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定数据集中只有5个项,采纳合并策略,由候选产生过程得到4-项集不包含CA、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,543.下面选项中t不是s的子序列的是

13、( C )A、s= t=B、s= t=C、s= t=D、s= t=44.在图集合中发觉一组公共子构造,这样的任务称为( B )A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁形式挖掘45.以下度量不具有反演性的是(D)A、系数B、几率C、Cohen度量D、爱好因子46.以下_(A)_不是将主观信息参加到形式发觉任务中的方法。A、与同一时期其他数据比照B、可视化C、基于模板的方法D、主观爱好度量47.下面购物篮可以提取的3-项集的最大数量是多少CID 购置项1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿

14、布8啤酒,尿布9牛奶,尿布,面包,黄油10啤酒,饼干A、1B、2C、3D、448.以下哪些算法是分类算法,A,DBSCAN B,C4.5C,K-Mean D,EM B49.以下哪些分类方法可以较好地避开样本的不平衡问题,A,KNN B,SVM C,Bayes D,神经网络A50.决策树中不包含一下哪种结点,A,根结点root node)B,内部结点internal nodeC,外部结点external nodeD,叶结点leaf node(C)51.不纯性度量中Gini计算公式为其中c是类的个数(A)A,B,C,D,A53.以下哪项关于决策树的说法是错误的(C)A.冗余属性不会对决策树的精确率

15、造成不利的影响B.xx可能在决策树中重复屡次C.决策树算法对于噪声的干扰特别敏感D.查找最正确决策树是NP完全问题54.在基于规章分类器的中,根据规章质量的某种度量对规章排序,保证每一个测试记录都是由掩盖它的“最好的规格来分类,这种方案称为(B)A.基于类的排序方案B.基于规章的排序方案C.基于度量的排序方案D.基于规格的排序方案。55.以下哪些算法是基于规章的分类器(A)A.C4.5B. KNNC. Na?ve BayesD. ANN56.假如规章集R中不存在两条规章被同一条记录触发,那么称规章集R中的规章为C;A,无序规章B,穷举规章C,互斥规章D,有序规章57.假如对属性值的任一组合,R中都存在一条规章加以

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号