南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业辅导资料答案

上传人:279****70 文档编号:87795349 上传时间:2019-04-12 格式:DOC 页数:7 大小:33KB
返回 下载 相关 举报
南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业辅导资料答案_第1页
第1页 / 共7页
南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业辅导资料答案_第2页
第2页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业辅导资料答案》由会员分享,可在线阅读,更多相关《南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业辅导资料答案(7页珍藏版)》请在金锄头文库上搜索。

1、南开19春学期(1709、1803、1809、1903)数据挖掘在线作业 一、单选题共20题,40分1、聚类技术把( )看做对象。A数据B数据库C簇D数据元组正确答案是:D2、下面哪个不属于数据的属性类型?( )A标称B序数C区间D相异正确答案是:D3、一个离散的( )类似于标称变量,它对记录那些难以客观度量的主观评价是非常有用的。A标称变量B二元变量C区间变量D序数型变量正确答案是:D4、有关数据仓库的开发特点,不正确的描述是( )。A数据仓库开发要从数据出发B数据仓库使用的需求在开发出去就要明确C数据仓库的开发是一个不断循环的过程,是启发式的开发D在数据仓库环境中,并不存在操作型环境中所固

2、定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式正确答案是:A5、通常,在为数据仓库准备数据时,数据清理和集成将作为( )步骤进行。还可以再次进行数据清理,检测和删去可能由集成导致的冗余。A预处理B分析C存储D挖掘正确答案是:A6、( )是一种数据变换策略,对数据进行汇总或聚集。例如,可以聚集日销售数据来计算月和年销售量。通常,这一步用来为多个抽象层的数据分析构造数据立方体。A离散化B属性构造C聚集D规范化正确答案是:C7、( )是一种数据变换策略,把数值属性(例如,年龄)的原始值用区间标签(例如,010,1120等)或概念标签(例如,youth、adult、senior

3、)替换。这些标签可以递归地组织成更高层概念,导致数值属性的概念分层。A离散化B属性构造C聚集D规范化正确答案是:A8、下列( )不是将主观信息加入到模式发现任务中的方法。A与同一时期其他数据对比B可视化C基于模板的方法D主观兴趣度量正确答案是:A9、( )的首要挑战是设法解决如何在二维显示上可视化高维空间。A数据可视化技术B几何投影技术C基于图符的可视化技术D像素可视化技术正确答案是:B10、一个( )只有两个状态:0或1,0表示该变量为空,1表示该变量存在。A二元变量B标称变量C数值变量D区间变量正确答案是:A11、以下关于人工神经网络(ANN)的描述错误的有( )。A神经网络对训练数据中的

4、噪声非常鲁棒B可以处理冗余特征C训练ANN是一个很耗时的过程D至少含有一个隐藏层的多层神经网络正确答案是:A12、某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的( )问题。A关联规则发现B聚类C分类D自然语言处理正确答案是:A13、数据挖掘是一个基于( )的学习过程,一位好的数据挖掘人员必须对新思想持开放态度。A过程B分析C数据D素质正确答案是:C14、顾客数据包含年龄和年薪属性。年薪属性的取值范围可能比年龄大得多。这样,如果属性未( ),则距离度量在年薪上所取的权重一般要超过距离度量在年龄上所取的权重。A挖掘B归约C存储D规范化正确答案是:D15、以下哪些算

5、法是基于规则的分类器?( )AC4.5BKNNCNaive BayesDANN正确答案是:A16、( )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。A边界点B质心C离群点D核心点正确答案是:C17、考察数据时,( )是说给定属性的每个值都必须不同于该属性的其他值。A唯一性规则B连续性规则C空值规则D离散规则正确答案是:A18、互联网从入口为王、流量为王、应用为王,渐渐转向( )为王的时代。A数据B分析C挖掘D分类正确答案是:A19、( )去掉数据中的噪声,这类技术包括分箱、回归和聚类。A光滑B聚集C规范化D属性构造正确答案是:A20、在( )的数据集上挖掘将更

6、有效,而且会产生相同或几乎相同的分析结果。A归约后B集成后C离散后D规范后正确答案是:A二、多选题共10题,20分1、数据仓库包含了海量数据。要求OLAP服务器在若干秒内回答决策支持查询。因此,数据仓库系统要支持高效的( )。A变换B数据立方体计算技术C存取方法D查询处理技术正确答案是:BCD2、数据预处理的原因:数据多半来自多个异种数据源,极易受( )数据的侵扰,低质量的数据将导致低质量的挖掘结果。因此需要对数据进行预处理。A受噪声B不一致C缺失值D正确正确答案是:ABC3、下面哪些属于可视化高维数据技术( )?A矩阵B平行坐标系C星形坐标DChernoff脸正确答案是:ABCD4、数据归约

7、(data reduction)得到数据集的简化表示,虽然小得多,但能够产生同样或几乎同样的分析结果。数据归约策略包括( )。A维归约B数值归约C层归约D数据变换正确答案是:AB5、联机操作数据库系统的主要任务是执行( ),这种系统称为联机事务处理(OLTP)系统。A联机事务B查询处理C分析D聚类正确答案是:AB6、当前的应用领域所使用的数据技术与算法主要有:( )等等。A关联规则B分类和预测C聚类分析D孤立点检测正确答案是:ABCD7、如下哪些是最近邻分类器的特点( )。A它使用具体的训练实例进行预测,不必维护源自数据的模型B分类一个测试样例开销很大C最近邻分类器基于全局信息进行预测D可以生

8、产任意形状的决策边界正确答案是:ABD8、电信数据的( )等是利用数据挖掘改进电信服务的具体应用。A多维分析B盗用模式分析C异常模式识别D单模式分析正确答案是:ABCD9、设一个标称属性的状态数目是M。这些状态可以用( )表示。注意这些整数只是用于数据处理,并不代表任何特定的顺序。A字母B符号C一组整数D文字正确答案是:ABC10、利用数据挖掘技术来帮助电信行业( )。A解商业行为B确定电信模式C捕捉盗用行为D更好地利用资源和提高服务质量正确答案是:ABCD三、判断题共20题,40分1、观察大型数据表令人乏味,通过浓缩数据,切尔诺夫脸使数据容易被用户消化理解,用的是基于图符的可视化技术。A对B

9、错正确答案是:A2、可视化技术对于分析的数据类型通常不是专用性的。A对B错正确答案是:B3、数据规范化指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。A对B错正确答案是:A4、构成训练数据集的元组称为训练元组,从所分析的数据库中随机选取。A对B错正确答案是:A5、数据挖掘是指对数据进行处理和研究,并从数据中提取有用的信息和发现知识的过程。A对B错正确答案是:A6、中位数是一种中心趋势度量,中位数总是唯一的。A对B错正确答案是:B7、对于记录不能客观度量的主观质量评估,序数属性是有用的。因此,序数属性通常用于等级评定调查。如:顾客满意度调查。A对B

10、错正确答案是:A8、聚类分析可以作为其它算法的预处理步骤:利用聚类进行数据预处理,可以获得数据的基本概况,在此基础上进行特征抽取或分类就可以提高精确度和挖掘效率。A对B错正确答案是:A9、频繁项集指满足最小支持度的项集,是挖掘关联规则的基本条件之一。A对B错正确答案是:A10、年龄的原始值可以用较高层的概念(如青年、中年和老年)取代。A对B错正确答案是:A11、分箱也可以作为一种离散化技术使用。A对B错正确答案是:A12、在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。A对B错正确答案是:B13、抽样可以作为一种数据归约技术使用,因为它允许用数据的小得多的随机样本(子集)表

11、示大型数据集。A对B错正确答案是:A14、噪声和伪像是数据错误这一相同表述的两种叫法。A对B错正确答案是:B15、数据资源可以重复使用,在共享中不断产生新的价值。A对B错正确答案是:A16、听觉数据挖掘使用音频信号指示数据挖掘结果中的模式或特征。A对B错正确答案是:A17、由标称数据产生概念分层是一种数据变换策略,属性,如street,可以泛化到较高的概念层,如city或country。许多标称属性的概念分层都蕴含在数据库的模式中,可以在模式定义级自动定义。A对B错正确答案是:A18、聚类规则同时满足最小支持度阈值和最小可信度阈值的规则。A对B错正确答案是:B19、标签云有两种用法:对于单个术语,可使用标签的大小表示该标签被不同的用户用于该术语的次数。在多个术语上可视化标签统计量时,可使用标签的大小表示该标签的人气。A对B错正确答案是:A20、模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。A对B错正确答案是:B

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号