南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业-1辅导资料答案

上传人:279****70 文档编号:87795626 上传时间:2019-04-12 格式:DOC 页数:7 大小:33KB
返回 下载 相关 举报
南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业-1辅导资料答案_第1页
第1页 / 共7页
南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业-1辅导资料答案_第2页
第2页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业-1辅导资料答案》由会员分享,可在线阅读,更多相关《南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业-1辅导资料答案(7页珍藏版)》请在金锄头文库上搜索。

1、南开19春学期(1709、1803、1809、1903)数据挖掘在线作业-1 一、单选题共20题,40分1、以下哪些算法是基于规则的分类器?( )AC4.5BKNNCNaive BayesDANN正确答案是:A2、离群点分析使用基于( )的技术,把可能的离群点看做与其他对象高度相异的对象。A分类B聚类C离散D可视化正确答案是:B3、倘若属性smoker描述患者对象,1表示患者抽烟,0表示患者不抽烟,smoker的属性类型是( )。A标称属性B二元属性C序数属性D数值属性正确答案是:B4、为了发现任意形状的聚类结果,提出了( )的聚类方法。这类方法将簇看作是数据空间中被低密度区域分割开的高密度对

2、象区域。A基于密度B基于网格C基于模型D层次方法正确答案是:A5、( )的基本思想,是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。A数据可视化技术B数据库系统C基于图符的可视化技术D像素可视化技术正确答案是:A6、考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择( )的相似度计算方法。A平方欧几里德距离B余弦距离C直接相似度D共享最近邻正确答案是:D7、下面哪个属于映射数据到新的空间的方法?( )A

3、傅立叶变换B特征加权C渐进抽样D维归约正确答案是:A8、考虑值集12,24,33,2,4,55,68,26,其四分位数极差是( )。A31B24C55D3正确答案是:A9、( )是KDD。A数据挖掘与知识发现B领域知识发现C文档知识发现D动态知识发现正确答案是:A10、决策树中不包含以下哪种结点?( )A根结点(root node)B内部结点(internal node)C外部结点(external node)D叶结点(leaf node)正确答案是:C11、( )是一种属性,其可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。A标称属性B序数属性C数值属性D离

4、散属性正确答案是:B12、数据分析主要采用的是( )的技术。A统计学B机器学习C人工智能D数据库正确答案是:A13、( )使用少量图符表示多维数据值。如:切尔诺夫脸和人物线条画。A数据可视化技术B几何投影技术C基于图符的可视化技术D像素可视化技术正确答案是:C14、以下哪种方法不属于特征选择的标准方法?( )A嵌入B过滤C包装D抽样正确答案是:D15、使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?( )A探索性数据分析B建模描述C预测建模D寻找模式和规则正确答案是:A16、以下关于人工神经网络(ANN)的描述错误的有( )。A神经网络对训练数据中的噪声非常鲁棒B可以处理冗

5、余特征C训练ANN是一个很耗时的过程D至少含有一个隐藏层的多层神经网络正确答案是:A17、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值,属于数据挖掘的( )任务。A根据内容检索B建模描述C预测建模D寻找模式和规则正确答案是:C18、数据仓库和OLAP工具基于( )数据模型。该模型将数据看作数据立方体(data cube)形式。A单个B二维C多维D三维正确答案是:C19、如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为( )。A无序规则B穷举规则C互斥规则D有序规则正确答案是:A20、( )也影响数据的质量。如

6、:假设你正在监控某一个高端销售代理的月销售红利分布,旦一些销售代理未能在月末及时提交销售记录。A时效性B可信性C可解释性D正确性正确答案是:A二、多选题共10题,20分1、数据分类的评价准则包括( )。A精确度B查全率和查准率CF-MeasureD几何均值正确答案是:ABCD2、数据清理过程的第一步是偏差检测(discrepancy detection)。导致偏差的因素可能有多种,包括:( )。A具有很多可选字段的设计糟糕的输入表单B人为的数据输入错误C有意的错误D数据退化正确答案是:ABCD3、通过( ),并解决不一致性来“清理”数据。A填写缺失的值B光滑噪声数据C识别离群点D删除离群点正确

7、答案是:ABCDpriori算法的计算复杂度受( )影响。A支持度阀值B项数C事务数D事务平均宽度正确答案是:ABCD5、属性子集选择是一种维归约方法,其中( )的属性或维被检测和删除。A不相关B弱相关C冗余D强相关正确答案是:ABC6、( )都导致不正确的数据。A缺失值B噪声C不一致性D分层正确答案是:ABC7、存放数据归约表示的非参数方法包括:( )。A直方图B聚类C抽样D数据立方体聚集正确答案是:ABCD8、下表是一个购物篮,假定支持度阈值为40%,其中( )是频繁闭项集。TID项:1.abc;2.abcd;3.bce;4.acde;5.de.AabcBadCcdDde正确答案是:AD9

8、、对于数据挖掘中的原始数据,存在的问题有:( )。A不一致B重复C不完整D含噪声正确答案是:ABCD10、( )都属于分裂的层次聚类算法。A二分K均值BMSTCChameleonD组平均正确答案是:AB三、判断题共20题,40分1、数据质量包括:准确性、完整性、一致性、实效性、可信性和可解释性,其中,数据质量的三要素是:准确性、完整性和一致性。A对B错正确答案是:A2、年龄的原始值可以用较高层的概念(如青年、中年和老年)取代。A对B错正确答案是:A3、对于基于逻辑的数据挖掘方法,如决策树归纳,反复地在排序后的数据上进行比较,这充当了一种形式的数据归约。A对B错正确答案是:A4、K均值是一种产生

9、划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。A对B错正确答案是:B5、一个标称属性的值不具有有意义的序,不能定量进行处理,如均值,中值等。A对B错正确答案是:A6、数据分类包括学习阶段(构造分类模型)和分类阶段(使用模型预测给定数据的类标号)。在学习阶段,建立描述预先定义的数据类或概念集的分类器,训练集由数据库元组和与他们相关联的类标号组成。A对B错正确答案是:A7、神经网络训练的最终目标:获得一个权重集使得训练数据中的所有元组都能被正确的分类。A对B错正确答案是:A8、线性回归涉及找出拟合两个属性或变量的最佳直线,使得一个属性可以用来预测另一个。A对B错正确答案是:A9、构成训练

10、数据集的元组称为训练元组,从所分析的数据库中随机选取。A对B错正确答案是:A10、标称、二元和序数属性都是定性的,描述对象的特征,而不给出实际大小或数量。这种定性属性的值通常代表类别的词,如:0表示小杯饮料,1表示中号杯,2表示大号杯。数值属性是定量的,是可度量的,用整数或实数值表示。可以计算平均数等。A对B错正确答案是:A11、抽样可以作为一种数据归约技术使用,因为它允许用数据的小得多的随机样本(子集)表示大型数据集。A对B错正确答案是:A12、数据审计工具通过分析数据发现规则和联系,并检测违反这些条件的数据来发现偏差。例如,可以使用统计分析来发现相关性,或通过聚类识别离群点。A对B错正确答

11、案是:A13、在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。A对B错正确答案是:B14、用于分类的离散化方法之间的根本区别在于是否使用类信息。A对B错正确答案是:A15、给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。A对B错正确答案是:B16、噪声和伪像是数据错误这一相同表述的两种叫法。A对B错正确答案是:B17、在聚类、离群点分析和最近邻分类等数据挖掘应用中,需要评估对象之间相互比较的相似或不相似程度。例如,商店希望搜索顾客对象簇,得出具有类似的收入、居住区域和年龄等的顾客组。A对B错正确答案是:A18、Web数据挖掘是通过数据库中的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。A对B错正确答案是:B19、数据清洗是将多个数据源中的数据结合起来存放在一个一致的数据存储中。A对B错正确答案是:B20、离群点分析(outlier analysis):可以通过如聚类来检测离群点。聚类将类似的值组织成群或“簇”。直观地,落在簇集合之外的值被视为离群点 。A对B错正确答案是:A

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号