南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业-2辅导资料答案

上传人:279****70 文档编号:87795646 上传时间:2019-04-12 格式:DOC 页数:7 大小:33.50KB
返回 下载 相关 举报
南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业-2辅导资料答案_第1页
第1页 / 共7页
南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业-2辅导资料答案_第2页
第2页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业-2辅导资料答案》由会员分享,可在线阅读,更多相关《南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业-2辅导资料答案(7页珍藏版)》请在金锄头文库上搜索。

1、南开19春学期(1709、1803、1809、1903)数据挖掘在线作业-2 一、单选题共20题,40分1、( )用替代的、较小的数据表示形式替换原数据。A维归约B数量归约C离散D聚集正确答案是:B2、只有非零值才重要的二元属性被称作( )。A计数属性B离散属性C非对称的二元属性D对称属性正确答案是:C3、职位可以按顺序枚举,对于教师有:助教、讲师、副教授、教授。职位属性是( )。A标称属性B序数属性C数值属性D二元属性正确答案是:B4、( )去掉数据中的噪声,这类技术包括分箱、回归和聚类。A光滑B聚集C规范化D属性构造正确答案是:A5、在基于规则分类器的中,依据规则质量的某种度量对规则排序,

2、保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为( )。A基于类的排序方案B基于规则的排序方案C基于度量的排序方案D基于规格的排序方案正确答案是:B6、分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。如:4-分位数是( )个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。A1B2C3D4正确答案是:C7、决策树学习:决策树算法对数据处理过程中,将数据按( )结构分成若干分枝形成决策树,从根到树叶的每条路径创建一个规则。A树状B网状C星形D雪花形正确答案是:A8、以下属于可伸缩聚类算法的是( )。ACUREBDENC

3、LUECCLIQUEDOPOSSUM正确答案是:A9、( )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。AMIN(单链)BMAX(全链)C组平均DWard方法正确答案是:C10、如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为( )。A无序规则B穷举规则C互斥规则D有序规则正确答案是:C11、( )是KDD。A数据挖掘与知识发现B领域知识发现C文档知识发现D动态知识发现正确答案是:A12、在有关数据仓库测试,下列说法不正确的是( )。A在完成数据仓库的实施过程中,需要对数据仓库进行各种测试。测试工作中要包括单元测试和系统测试B当数据仓库

4、的每个单独组件完成后,就需要对他们进行单元测试C系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试D在测试之前没必要制定详细的测试计划正确答案是:D13、假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用等频(等深)划分成四个箱时,15在第( )个箱子内。A第一个B第二个C第三个D第四个正确答案是:B14、决策树中不包含以下哪种结点?( )A根结点(root node)B内部结点(internal node)C外部结点(external node)D叶结点(leaf node)正确答案是:C15、( )是说属性的最

5、低和最高值之间没有缺失的值,并且所有的值还必须是唯一的A唯一性规则B连续性规则C空值规则D解释性规则正确答案是:B16、在( )的数据集上挖掘将更有效,而且会产生相同或几乎相同的分析结果。A归约后B集成后C离散后D规范后正确答案是:A17、检测一元正态分布中的离群点,属于异常检测中的基于( )的离群点检测。A统计方法B邻近度C密度D聚类技术正确答案是:A18、假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平

6、滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为( )。A18.3B22.6C26.8D27.9正确答案是:A19、OLAM技术一般简称为“数据联机分析挖掘”,下面说法正确的是( )。AOLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性B由于OLAM的立方体和用于OLAP的立方体有本质的区别C基于WEB的OLAM是WEB技术与OLAM技术的结合DOLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体作一定的操作正确答案是:D20、以下哪项关于决策树的说法是错误的?( )A冗余属性不会对决策树的准确率造成不利的影响B子树可能在决策树中重复多次C决

7、策树算法对于噪声的干扰非常敏感D寻找最佳决策树是NP完全问题正确答案是:C二、多选题共10题,20分1、现实世界的数据一般是( )。数据预处理技术可以改进数据的质量,提高挖掘过程的准确率和效率。A脏的B正确的C不完整的D不一致的正确答案是:ACD2、联机分析处理包括以下哪些基本分析功能( )?A聚类B切片C转轴D切块正确答案是:BCD3、离群点检测的挑战包括:( )。A发现合适的数据模型B离群点检测系统对应的依赖性C找到区别离群点与噪声的方法D提供为什么对象被识别为离群点的解释正确答案是:ABCD4、数据挖掘可用于任何类型的数据,对于挖掘的应用,数据的最基本形式是( )。A数据库数据B数据仓库

8、数据C事务数据D文本数据正确答案是:ABC5、以下哪些学科和数据挖掘有密切联系( )?A统计B计算机组成原理C矿产挖掘D人工智能正确答案是:AD6、( )都是某种形式的数据变换(data transformation)。A规范化B数据离散化C概念分层产生D数据归约正确答案是:ABC7、分类是一种重要的数据分析形式,其应用包括( )。A欺诈检测B目标营销C性能预测D制造正确答案是:ABCD8、衡量一个聚类分析算法质量,包括( )。A相似度测量机制是否合适B是否能发现数据背后潜在的知识C是否能发现手工难以发现的知识D算法是否简单正确答案是:ABC9、( )都是定性的。A标称属性B序数属性C数值属性

9、D二元属性正确答案是:ABD10、以下属于分类器评价或比较尺度的有( )。A预测准确度B召回率C模型描述的简洁度D计算复杂度正确答案是:ACD三、判断题共20题,40分1、好的数据库和数据输入设计将有助于在第一现场把缺失值或错误的数量降至最低。A对B错正确答案是:A2、基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。A对B错正确答案是:A3、关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。A对B错正确答案是:A4、分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization e

10、rror)。A对B错正确答案是:A5、两个属性,如果一个蕴含另一个,则他们是相关的。A对B错正确答案是:A6、为了找出原属性的一个“好的”子集,对于n个属性,有2n个可能的子集。穷举搜索找出属性的最佳子集是很现实的。A对B错正确答案是:B7、SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)。A对B错正确答案是:B8、频繁项集导致发现大型事务或关系数据集中项之间有趣的关联或相关性。A对B错正确答案是:A9、对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。A对

11、B错正确答案是:A10、数据挖掘是通过构建模型来完成的。从某种词义来看,模型是对事物如何工作的一种解释或说明,其足以反映现实,从而可以用来对现实世界进行推理。A对B错正确答案是:A11、数据变换是缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。A对B错正确答案是:B12、先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。A对B错正确答案是:B13、在数据挖掘之前对数据进行预处理,可以显著地提高挖掘模式的总体质量,减少实际挖掘所需要的时间。A对B错正确答案是:A14、特征提取技术并不依赖于特定的领域。A对B错正确答案是:B15、数据

12、集成包括填充空缺值,识别孤立点,去掉噪声和无关数据。A对B错正确答案是:B16、高维数据的离群点检测方法可以划分成三种主要方法,包括扩充的传统离群点检测、找出子空间的离群点和对高维离群点建模。A对B错正确答案是:A17、决策树分类器的构造不需要任何领域知识或参数设置,因此适合于探测式知识发现。A对B错正确答案是:A18、如果将顾客按信用风险分类,则可以用具有相同信用风险的顾客的平均收入替换income中的缺失值。A对B错正确答案是:A19、观察大型数据表令人乏味,通过浓缩数据,切尔诺夫脸使数据容易被用户消化理解,用的是基于图符的可视化技术。A对B错正确答案是:A20、数据挖掘技术的一个突出的特点是处理巨大的、复杂的数据集,这对聚类分析技术提出了特殊的挑战,要求算法具有可伸缩性、处理不同类型属性的能力、发现任意形状的类、处理高维数据的能力等。根据潜在的各项应用,数据挖掘对聚类分析方法提出了不同要求。A对B错正确答案是:A

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号