数据挖掘模拟卷答案

上传人:cl****1 文档编号:497794029 上传时间:2022-12-24 格式:DOCX 页数:4 大小:35.38KB
返回 下载 相关 举报
数据挖掘模拟卷答案_第1页
第1页 / 共4页
数据挖掘模拟卷答案_第2页
第2页 / 共4页
数据挖掘模拟卷答案_第3页
第3页 / 共4页
数据挖掘模拟卷答案_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《数据挖掘模拟卷答案》由会员分享,可在线阅读,更多相关《数据挖掘模拟卷答案(4页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘模拟卷答案一、填空题(每格 1分,共20分)1、划分方法、层次方法、基于密度的方法。2、星型模式、雪花模式和事实星座模式。3、描述性的数据挖掘和预测性的数据挖掘。4、不物化、全物化和部分物化。5、数据库技术、统计学、机器学习。6、模式分层、集合分组分层、操作导出的分层和基于规则的分层。7、数据立方体方法(或OLAP)和面向属性的归纳方法。二、单选题(请选择一个正确答案填入括号内,每题 2分,共20分)1、C 2、 B3、 D 4、 C 5、 C6、A 7、 B8、 B9、E10、C三、多选题(请选择两个或两个以上正确答案填入括号内,每题3分,共15 分)1、BD 2、 BD 3、ABC

2、D 4、 ABC5、ABCD四、简答题(共 25分) 1简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。( 7 分) 答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过 考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。 聚集通过合并相等的广义元组,并累计他们相应的计数值进行。这压缩了概化后的数据集合。 结果广义关系可以映射到不同形式,如图表或规则,提供用户。(3 分) 使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在此属 性上没有概化操作符,或(2)它的较高层概念用其他属性表

3、示;(2分) 使用属性概化的情况:如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在 着概化操作符。( 2 分)2. 为什么在进行联机分析处理(OLAP )时,我们需要一个独立的数据仓库,而不是直接在日 常操作的数据库上进行。(6 分)答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:(1)提高两个系统的性能操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP 查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的OLAP查询, 多维视图,汇总等OLAP功能提供了优化。(2)两者有着不同的功能操作数据库支持多事务的并行处理,而

4、数据仓库往往只是对数据记录进行只读访问;这时如 果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。(3)两者有着不同的数据 数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。3对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?(6 分)答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括: 逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其 父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要 的关联;(2 分)层交叉k-项集过滤:一个第i层的k-项集被考察,当

5、且仅当它在第(i-1)层的对应父节点的k- 项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;(2 分) 层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的。它是 上述两个极端策略的折中。(2 分)4跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?(6 分) 答:跟其他应用领域相比,在电子商务中进行数据挖掘的优势包括:电子商务提供海量的数据:“点击流”(Clickstreams)将会产生电子商务挖掘的大量数据; 丰富的记录信息:良好的 WEB 站点设计将有助于获得丰富的关于商品、分类、访客等等信息; 干净的数据:从电子商务站点收集的都是电子

6、数据,无需人工输入或者是从历史系统进行整合; 研究成果容易转化:在电子商务中,很多知识发现都可以进行直接应用; 投资收益容易衡量:所有数据都是电子化的,可以非常方便的生成各种报表和计算各种收益。五、算法题(共 20分)1 、答:( 1 ) Aprior 算法的基本步骤包括:连接与剪枝( 2 )TidItems10A, C,D20BC E30A, B, C, E40B,E第一次扫描ItemsetsupA2B3C3D1E3ItemsetsupA,C2B,C2B, E3C, E2Itemsetsup(A, B1A, C2仇E1B, C2B, E3C, E2第二次扫描ItemsetA, BA, CJA

7、;eTB, CB, EC, EItemsetB, C, E第三次扫描 SItemsetsupB, C, E2使用Apiori性质由L2产生C31 连接:C3=L2 X L2=A,C,B,C,B,EC,EAV A,C,B,C,B,EC,E = A,B,C,A,C,E,B,C,E2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删 除其子集为非频繁的选项:A,B,C的2项子集是A,B,A,C,B,C,其中A,B不是L2的元素,所以删除这个选项; A,C,E的2项子集是A,C,A,E,C,E,其中A,E不是L2的元素,所以删除这个选项; B,C,E的2项子集是B,

8、C,B,E,C,E,它的所有2项子集都是L2的元素,因此保留这 个选项。3这样,剪枝后得到C3=B,C,E枝后得到 C3=B,C,E 2、答:1)判定树归纳算法的基本策略如下:树以代表单个训练样本的节点开始。如果样本都在同一个类,则该节点成为树叶,并用该类标记。否则,算法使用成为信息增益的基于熵的度量作为启发信息,选择能够最好的将样本分 类的属性。对测试属性每个已知的值,创建一个分枝,并据此划分样本。算法使用同样的过程,递归的形成每个划分上的样本判定树。一旦一个属性出现在一个 节点上,就不必考虑该节点的任何后代上。递归划分步骤仅当下列条件之一成立时停止a) 给定节点的所有样本属于同一类;b) 没有剩余属性可以用来进一步划分样本,在此情况下,使用多数表决所得的类编号将节点转化为树叶。(c) 如果某个分枝没有样本,则以其划分前的训练样本的多数类创建一个树叶2)判定树 buys_PCGame 如下所示:age?23excellentcredit_ratingyesstudent?fairyesnoyesnoyesno

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号