南开19春学期(1503、1509、1603、1609、1703)《数据挖掘》在线作业-2(答案)

上传人:279****70 文档编号:87165367 上传时间:2019-03-28 格式:DOC 页数:7 大小:35.50KB
返回 下载 相关 举报
南开19春学期(1503、1509、1603、1609、1703)《数据挖掘》在线作业-2(答案)_第1页
第1页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《南开19春学期(1503、1509、1603、1609、1703)《数据挖掘》在线作业-2(答案)》由会员分享,可在线阅读,更多相关《南开19春学期(1503、1509、1603、1609、1703)《数据挖掘》在线作业-2(答案)(7页珍藏版)》请在金锄头文库上搜索。

1、南开19春学期(1503、1509、1603、1609、1703)数据挖掘在线作业-2 一、单选题共20题,40分1、通常,在为数据仓库准备数据时,数据清理和集成将作为( )步骤进行。还可以再次进行数据清理,检测和删去可能由集成导致的冗余。A预处理B分析C存储D挖掘【南开】本题答案:A2、考虑下面的频繁3-项集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含( )。A1,2,3,4B1,2,3,5C1,2,4,5D1,3,4,5【南开】本题答案:C3、( )可能使挖掘过程

2、陷入混乱,导致不可靠的输出。A脏数据B一致性数据C可信性数据D可解释性数据【南开】本题答案:A4、在基本K均值算法里,当邻近度函数采用( )的时候,合适的质心是簇中各点的中位数。A曼哈顿距离B平方欧几里德距离C余弦距离DBregman散度【南开】本题答案:A5、以下哪项关于决策树的说法是错误的?( )A冗余属性不会对决策树的准确率造成不利的影响B子树可能在决策树中重复多次C决策树算法对于噪声的干扰非常敏感D寻找最佳决策树是NP完全问题【南开】本题答案:C6、以下是( )聚类算法的算法流程:构造k-最近邻图。使用多层图划分算法划分图。repeat:合并关于相对互连性和相对接近性而言,最好地保持簇

3、的自相似性的簇。until:不再有可以合并的簇。AMSTBOPOSSUMCChameleonDJarvisPatrick(JP)【南开】本题答案:C7、简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( )。A层次聚类B划分聚类C非互斥聚类D模糊聚类【南开】本题答案:B8、聚类技术把( )看做对象。A数据B数据库C簇D数据元组【南开】本题答案:D9、( )是数据挖掘类型之一,不仅寻找数据中的任何模式,而且还会寻找能够解释目标值的模式。A无指导数据挖掘B有指导数据挖掘C聚类D数据分析【南开】本题答案:B10、如果规则集R中不存在两条规则被同一条记录触发,则称

4、规则集R中的规则为( )。A无序规则B穷举规则C互斥规则D有序规则【南开】本题答案:C11、( )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。AMIN(单链)BMAX(全链)C组平均DWard方法【南开】本题答案:C12、( )说明空白、问号、特殊符号或指示空值条件的其他串的使用(例如,一个给定属性的值何处不能用),以及如何处理这样的值。A唯一性规则B连续性规则C空值规则D解释性规则【南开】本题答案:C13、一个离散的( )类似于标称变量,它对记录那些难以客观度量的主观评价是非常有用的。A标称变量B二元变量C区间变量D序数型变量【南开】本题答案:D14、有

5、关数据仓库的开发特点,不正确的描述是( )。A数据仓库开发要从数据出发B数据仓库使用的需求在开发出去就要明确C数据仓库的开发是一个不断循环的过程,是启发式的开发D在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式【南开】本题答案:A15、( )的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。在缩小的属性集上挖掘还有其他的优点:它减少了出现在发现模式上的属性数目,使得模式更易于理解。A变换B归约C集成D属性子集选择【南开】本题答案:D16、数据仓库是随着时间变化的,下面的描述不正确的是( )。A数据仓

6、库随时间的变化不断增加新的数据内容B捕捉到的新数据会覆盖原来的快照C数据仓库随事件变化不断删去旧的数据内容D数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合【南开】本题答案:C17、数据仓库和OLAP工具基于( )数据模型。该模型将数据看作数据立方体(data cube)形式。A单个B二维C多维D三维【南开】本题答案:C18、假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法

7、对上述数据进行平滑,箱的深度为3。第二个箱子值为( )。A18.3B22.6C26.8D27.9【南开】本题答案:A19、将原始数据进行集成、变换、维度归约、数值归约是在以下( )步骤的任务。A频繁模式挖掘B分类和预测C数据预处理D数据流挖掘【南开】本题答案:C20、当不知道数据所带标签时,可以使用( )技术促使带同类标签的数据与带其他标签的数据相分离。A分类B聚类C关联分析D隐马尔可夫链【南开】本题答案:B二、多选题共10题,20分1、在数据挖掘的分析方法中,直接数据挖掘包括( )。A分类B关联C估值D预言【南开】本题答案:ACD2、通过数据挖掘过程所推导出的关系和摘要经常被称为:( )。A

8、模型B模式C模范D模具【南开】本题答案:AB3、数据挖掘应用了许多应用领域的大量的技术,包括( )、信息检索、可视化、算法、高性能计算等。A统计学B机器学习C模式识别D数据库和数据仓库【南开】本题答案:ABCD4、数据质量涉及许多因素,包括准确性、完整性、( )。A一致性B时效性C可信性D可解释性【南开】本题答案:ABCD5、数据仓库包含了海量数据。要求OLAP服务器在若干秒内回答决策支持查询。因此,数据仓库系统要支持高效的( )。A变换B数据立方体计算技术C存取方法D查询处理技术【南开】本题答案:BCD6、统计学研究数据的( )。A收集B分析C解释D表示【南开】本题答案:ABCD7、数据预处

9、理的原因:数据多半来自多个异种数据源,极易受( )数据的侵扰,低质量的数据将导致低质量的挖掘结果。因此需要对数据进行预处理。A受噪声B不一致C缺失值D正确【南开】本题答案:ABC8、数据仓库在技术上的工作过程是:( )。A数据的抽取B存储和管理C数据的表现D数据仓库设计【南开】本题答案:ABCD9、数据分类的评价准则包括( )。A精确度B查全率和查准率CF-MeasureD几何均值【南开】本题答案:ABCD10、电信数据的( )等是利用数据挖掘改进电信服务的具体应用。A多维分析B盗用模式分析C异常模式识别D单模式分析【南开】本题答案:ABCD三、判断题共20题,40分1、K均值是一种产生划分聚

10、类的基于密度的聚类算法,簇的个数由算法自动地确定。A对B错【南开】本题答案:B2、重复元组不需要数据清理。A对B错【南开】本题答案:B3、在等宽直方图中,每个桶的宽度区间是一致的。例如,每个桶的宽度为10美元。A对B错【南开】本题答案:A4、利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。A对B错【南开】本题答案:A5、不正确的数据也可能是由命名约定或所用的数据代码不一致,或输入字段的格式不一致而导致的。A对B错【南开】本题答案:A6、数据挖掘模型可以满足两个目的:一是产生得分,其可用来指导决策。二是为了洞察用于构建模型和目标的解释变量之间的关系。A对B错【南开】本题答案:A7、中

11、位数是一种中心趋势度量,中位数总是唯一的。A对B错【南开】本题答案:B8、关系数据库是表的汇集,每个表都有一个唯一的名字,每个表都包含一组属性(列或字段),并且通常存放大量元祖(记录或行)。A对B错【南开】本题答案:A9、寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。A对B错【南开】本题答案:B10、术语“客户生存周期”有两种不同的意思:一是客户的个人生存周期,二是客户关系的生存周期。从数据挖掘的观点来看,后者通常更为重要。A对B错【南开】本题答案:A11、维归约和数量归约也可以视为某种形式的数据压缩。A对B错【南开】本题答案:A12、在一个系统中,discount可能用于订单

12、,而在另一个系统中,它用于订单内的商品。如果在集成之前未发现,则目标系统中的商品可能被不正确地打折。A对B错【南开】本题答案:A13、聚类分析是一种流行的离散化方法。通过将属性A的值划分成簇或组,聚类算法可以用来离散化数值属性A。A对B错【南开】本题答案:A14、支持向量机是一种用于线性和非线性数据的分类方法。把源数据变换到较高维空间,使用称做支持向量的基本元组,从中发现分离数据的超平面。A对B错【南开】本题答案:A15、在某些情况下,缺失值并不意味数据有错误。例如,在申请信用卡时,可能要求申请人提供驾驶执照号。没有驾驶执照的申请者可能自然地不填写该字段。A对B错【南开】本题答案:A16、数据

13、清理(data cleaning)例程通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来“清理”数据。A对B错【南开】本题答案:A17、支持向量机中常用的核函数有多项式核函数、径向基核函数和S型核函数。A对B错【南开】本题答案:A18、在聚类、离群点分析和最近邻分类等数据挖掘应用中,需要评估对象之间相互比较的相似或不相似程度。例如,商店希望搜索顾客对象簇,得出具有类似的收入、居住区域和年龄等的顾客组。A对B错【南开】本题答案:A19、相异度矩阵(dissimilarity matrix,或称为对象一对象结构):存储n个对象两两之间的近似性,表现形式是一个nn的矩阵。A对B错【南开】本题答案:A20、如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。A对B错【南开】本题答案:A

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 资格认证/考试 > 成考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号