南开19春学期(1503、1509、1603、1609、1703)《数据挖掘》在线作业-01【满分答案】

上传人:279****70 文档编号:88540832 上传时间:2019-04-30 格式:DOC 页数:7 大小:36KB
返回 下载 相关 举报
南开19春学期(1503、1509、1603、1609、1703)《数据挖掘》在线作业-01【满分答案】_第1页
第1页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《南开19春学期(1503、1509、1603、1609、1703)《数据挖掘》在线作业-01【满分答案】》由会员分享,可在线阅读,更多相关《南开19春学期(1503、1509、1603、1609、1703)《数据挖掘》在线作业-01【满分答案】(7页珍藏版)》请在金锄头文库上搜索。

1、南开19春学期(1503、1509、1603、1609、1703)数据挖掘在线作业-1 一、单选题共20题,40分1、在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为( )。A基于类的排序方案B基于规则的排序方案C基于度量的排序方案D基于规格的排序方案本题选择是:B2、( )是定量的,是可度量的量,用整数或实数值表示,也可以是区间标度的或比率标度的。A标称属性B序数属性C数值属性D二元属性本题选择是:C3、( )的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。在缩小的属性集上挖掘还有其他

2、的优点:它减少了出现在发现模式上的属性数目,使得模式更易于理解。A变换B归约C集成D属性子集选择本题选择是:D4、( )也影响数据的质量。如:假设你正在监控某一个高端销售代理的月销售红利分布,旦一些销售代理未能在月末及时提交销售记录。A时效性B可信性C可解释性D正确性本题选择是:A5、互联网从入口为王、流量为王、应用为王,渐渐转向( )为王的时代。A数据B分析C挖掘D分类本题选择是:A6、简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( )。A层次聚类B划分聚类C非互斥聚类D模糊聚类本题选择是:B7、分位数是取自数据分布的每隔一定间隔上的点,把数据划分成

3、基本上大小相等的连贯集合。如:4-分位数是( )个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。A1B2C3D4本题选择是:C8、( )使用少量图符表示多维数据值。如:切尔诺夫脸和人物线条画。A数据可视化技术B几何投影技术C基于图符的可视化技术D像素可视化技术本题选择是:C9、以下哪项关于决策树的说法是错误的?( )A冗余属性不会对决策树的准确率造成不利的影响B子树可能在决策树中重复多次C决策树算法对于噪声的干扰非常敏感D寻找最佳决策树是NP完全问题本题选择是:C10、( )将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。AMI

4、N(单链)BMAX(全链)C组平均DWard方法本题选择是:D11、( )的首要挑战是设法解决如何在二维显示上可视化高维空间。A数据可视化技术B几何投影技术C基于图符的可视化技术D像素可视化技术本题选择是:B12、( )是一种数据变换策略,把属性数据按比例缩放,使之落入一个特定的小区间,如-1.01.0或0.01.0。A离散化B属性构造C聚集D规范化本题选择是:D13、使用( )填充缺失值:例如,利用数据集中其他顾客的属性,可以构造一棵决策树,来预测income的缺失值。通过考虑其他属性的值,有更大的机会保持income和其他属性之间的联系。A平均值B中位数C最可能的值D全局常量本题选择是:C

5、14、关于基本数据的元数据是指( )。A基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息B基本元数据包括与企业相关的管理方面的数据和信息C基本元数据包括日志文件和简历执行处理的时序调度信息D基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息本题选择是:D15、( )是数据挖掘最常见、最丰富的信息源,因此它是数据挖掘研究的一种主要数据形式。A事务数据B数据仓库C关系数据库D文本数据本题选择是:C16、( )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。A边界点B质心C离群点D核心点本题选择是:C17、( )把所有维划分成子集(即子空间),

6、这些子空间按层次可视化。A层次可视化技术B几何投影技术C基于图符的可视化技术D像素可视化技术本题选择是:A18、关于K均值和DBSCAN的比较,以下说法不正确的是( )。AK均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。BK均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。CK均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。DK均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。本题选择是:A19、以下哪种方法不属于特征选择的标准方法?( )A嵌入B过滤C包装D抽样本题选择是:D20、( )是数据

7、挖掘类型之一,不仅寻找数据中的任何模式,而且还会寻找能够解释目标值的模式。A无指导数据挖掘B有指导数据挖掘C聚类D数据分析本题选择是:B二、多选题共10题,20分1、空间数据库系统通常处理的是由( )和其组合组成的向量数据。如:地图、设计图、蛋白质分子链的3-D排列、卫星图象、遥感数据和计算机x线断层摄影图象等。A点B线C四边形D多边形本题选择是:ABD2、数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上,数据仓库通过数据( )来构造数据。A数据清理B数据变换C数据集成D数据装入本题选择是:ABCD3、分类是一种重要的数据分析形式,其应用包括( )。A欺

8、诈检测B目标营销C性能预测D制造本题选择是:ABCD4、离群点检测的挑战包括:( )。A发现合适的数据模型B离群点检测系统对应的依赖性C找到区别离群点与噪声的方法D提供为什么对象被识别为离群点的解释本题选择是:ABCD5、贝叶斯信念网络(BBN)有如下哪些特点( )。A构造网络费时费力B对模型的过分问题非常鲁棒C贝叶斯网络不适合处理不完整的数据D网络结构确定后,添加变量相当麻烦本题选择是:AB6、通过( ),并解决不一致性来“清理”数据。A填写缺失的值B光滑噪声数据C识别离群点D删除离群点本题选择是:ABCD7、当前的应用领域所使用的数据技术与算法主要有:( )等等。A关联规则B分类和预测C聚

9、类分析D孤立点检测本题选择是:ABCD8、机器学习考察计算机如何基于数据学习或提高它们的性能,与数据挖掘高度相关的、经典的机器学习问题有( )。A监督学习B无监督学习C半监督学习D主动学习本题选择是:ABCD9、下列属于不同的有序数据的有:( )。A时序数据B序列数据C时间序列数据D事务数据本题选择是:ABCD10、同一个人的名字可能在第一个数据库中登记为“Bill”,在第二个数据库中登记为“William”,而在第三个数据库中登记为“B”,导致( )。A不一致性B冗余C备份D复用本题选择是:AB三、判断题共20题,40分1、聚类分析的基本思想认为所研究的样本或指标(变量)之间存在着程度不同的

10、相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位。A对B错本题选择是:A2、对于记录不能客观度量的主观质量评估,序数属性是有用的。因此,序数属性通常用于等级评定调查。如:顾客满意度调查。A对B错本题选择是:A3、从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。A对B错本题选择是:B4、数据挖掘是对数据进行处理和研究,并从数据中提取有用信息和发现知识的过程。A对B错本题选择是:A5

11、、如果将顾客按信用风险分类,则可以用具有相同信用风险的顾客的平均收入替换income中的缺失值。A对B错本题选择是:A6、包含大量冗余数据可能降低知识发现过程的性能或使之陷入混乱。A对B错本题选择是:A7、标称、二元和序数属性都是定性的,描述对象的特征,而不给出实际大小或数量。这种定性属性的值通常代表类别的词,如:0表示小杯饮料,1表示中号杯,2表示大号杯。数值属性是定量的,是可度量的,用整数或实数值表示。可以计算平均数等。A对B错本题选择是:A8、一个属性(例如,年收入)如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的。属性或维命名的不一致也可能导致结果数据集中的冗余。A对B错本题

12、选择是:A9、除了数据清理之外,必须采取措施避免数据集成时的冗余。A对B错本题选择是:A10、神经网络训练的最终目标:获得一个权重集使得训练数据中的所有元组都能被正确的分类。A对B错本题选择是:A11、分类的目的是构造一个分类函数或分类模型(分类器),该模型能把数据库中的数据项映射到某一个给定类别。A对B错本题选择是:A12、属性可以分为标称、二元、序数和数值类型。可以用许多方法来组织属性类型,如:机器学习领域开发的分类算法通常把属性分成离散的或连续的。A对B错本题选择是:A13、对于正常的(对称的)数据分布而言,可以使用均值填充缺失值,而倾斜数据分布应该使用中位数。例如,假定顾客收入的数据分

13、布是对称的,并且平均收入为56000美元,则使用该值替换income中的缺失值。A对B错本题选择是:A14、年龄的原始值可以用较高层的概念(如青年、中年和老年)取代。A对B错本题选择是:A15、除了检测属性间的冗余外,还应当在元组级检测重复。例如:对于给定的唯一数据实体,存在两个或多个相同的元组。A对B错本题选择是:A16、采用抽样进行数据归约的优点是,得到样本的花费正比例于样本集的大小,也正比于数据集的大小。A对B错本题选择是:B17、概念分层是一种数据离散化形式,也可以用于数据光滑。例如,price的概念分层可以把实际的price的值映射到便宜、适中和昂贵,从而减少了挖掘过程需要处理的值的数量。A对B错本题选择是:A18、数据清理(data cleaning)例程通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来“清理”数据。A对B错本题选择是:A19、两个属性,如果一个蕴含另一个,则他们是相关的。A对B错本题选择是:A20、聚类分析有很广泛的应用,包括市场或客户分割,模式识别,生物学研究,空间数据分析,Web文档分类等。聚类分析可以用作独立的数据挖掘工具,来获得对数据分布的了解,也可以作为其他数据挖掘算法的预处理步骤。A对B错本题选择是:A

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号