数据挖掘模拟卷答案

资源描述

《数据挖掘模拟卷答案》由会员分享，可在线阅读，更多相关《数据挖掘模拟卷答案（4页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘模拟卷答案一、填空题（每格 1分，共20分）1、划分方法、层次方法、基于密度的方法。2、星型模式、雪花模式和事实星座模式。3、描述性的数据挖掘和预测性的数据挖掘。4、不物化、全物化和部分物化。5、数据库技术、统计学、机器学习。6、模式分层、集合分组分层、操作导出的分层和基于规则的分层。7、数据立方体方法（或OLAP）和面向属性的归纳方法。二、单选题（请选择一个正确答案填入括号内，每题 2分，共20分）1、C 2、 B3、 D 4、 C 5、 C6、A 7、 B8、 B9、E10、C三、多选题（请选择两个或两个以上正确答案填入括号内，每题3分，共15 分）1、BD 2、 BD 3、ABC

2、D 4、 ABC5、ABCD四、简答题（共 25分） 1简述面向属性归纳的基本思想，并说明什么时候使用属性删除，什么时候使用属性概化。（ 7 分）答：面向属性归纳的基本思想是：首先使用关系数据库查询收集任务相关的数据；然后通过考察任务相关数据中每个属性的不同值的个数，进行概化（通过属性删除或者属性概化）。聚集通过合并相等的广义元组，并累计他们相应的计数值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式，如图表或规则，提供用户。（3 分）使用属性删除的情况：如果初始工作关系的一个属性上有大量的不同值，但是（1）在此属性上没有概化操作符，或（2）它的较高层概念用其他属性表

3、示；（2分）使用属性概化的情况：如果初始工作关系的一个属性上有大量的不同值，并且该属性上存在着概化操作符。（ 2 分）2. 为什么在进行联机分析处理（OLAP ）时，我们需要一个独立的数据仓库，而不是直接在日常操作的数据库上进行。（6 分）答：使用一个独立的数据仓库进行OLAP处理是为了以下目的：（1）提高两个系统的性能操作数据库是为OLTP而设计的，没有为OLAP操作优化，同时在操作数据库上处理OLAP 查询，会大大降低操作任务的性能；而数据仓库是为OLAP而设计，为复杂的OLAP查询, 多维视图，汇总等OLAP功能提供了优化。（2）两者有着不同的功能操作数据库支持多事务的并行处理，而

4、数据仓库往往只是对数据记录进行只读访问；这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作，就会显著降低OLAP的性能。（3）两者有着不同的数据数据仓库中存放历史数据；日常操作数据库中存放的往往只是最新的数据。3对于具有递减支持度的多层关联规则挖掘，分别都有哪些搜索策略？各有什么特点？（6 分）答：具有递减支持度的多层关联规则挖掘中使用的搜索策略包括：逐层独立：完全的宽度搜索，没有频繁项集的背景知识用于剪枝。考察每一个节点，不管其父节点是否频繁。特点是条件很松，可能导致在低层考察大量非频繁的项，找出一些不重要的关联；（2 分）层交叉k-项集过滤：一个第i层的k-项集被考察，当

5、且仅当它在第（i-1）层的对应父节点的k- 项集是频繁的。特点是限制太强，有些有价值的模式可能被该方法过滤掉；（2 分）层交叉单项过滤：一个第i层的项被考察，当且仅当它在第（i-1）层的父节点是频繁的。它是上述两个极端策略的折中。（2 分）4跟其他应用领域相比，在电子商务中进行数据挖掘有哪些优势？（6 分）答：跟其他应用领域相比，在电子商务中进行数据挖掘的优势包括：电子商务提供海量的数据：“点击流”（Clickstreams）将会产生电子商务挖掘的大量数据；丰富的记录信息：良好的 WEB 站点设计将有助于获得丰富的关于商品、分类、访客等等信息；干净的数据：从电子商务站点收集的都是电子

6、数据，无需人工输入或者是从历史系统进行整合；研究成果容易转化：在电子商务中，很多知识发现都可以进行直接应用；投资收益容易衡量：所有数据都是电子化的，可以非常方便的生成各种报表和计算各种收益。五、算法题（共 20分）1 、答：（ 1 ） Aprior 算法的基本步骤包括：连接与剪枝（ 2 ）TidItems10A, C,D20BC E30A, B, C, E40B,E第一次扫描ItemsetsupA2B3C3D1E3ItemsetsupA,C2B,C2B, E3C, E2Itemsetsup(A, B1A, C2仇E1B, C2B, E3C, E2第二次扫描ItemsetA, BA, CJA

7、；eTB, CB, EC, EItemsetB, C, E第三次扫描 SItemsetsupB, C, E2使用Apiori性质由L2产生C31 连接：C3=L2 X L2=A,C,B,C,B,EC,EAV A,C,B,C,B,EC,E = A,B,C,A,C,E,B,C,E2.使用Apriori性质剪枝：频繁项集的所有子集必须是频繁的，对候选项C3,我们可以删除其子集为非频繁的选项：A,B,C的2项子集是A,B,A,C,B,C，其中A,B不是L2的元素，所以删除这个选项; A,C,E的2项子集是A,C,A,E,C,E,其中A,E不是L2的元素，所以删除这个选项; B,C,E的2项子集是B,

8、C,B,E,C,E，它的所有2项子集都是L2的元素，因此保留这个选项。3这样，剪枝后得到C3=B,C,E枝后得到 C3=B,C,E 2、答：1)判定树归纳算法的基本策略如下：树以代表单个训练样本的节点开始。如果样本都在同一个类，则该节点成为树叶，并用该类标记。否则，算法使用成为信息增益的基于熵的度量作为启发信息，选择能够最好的将样本分类的属性。对测试属性每个已知的值，创建一个分枝，并据此划分样本。算法使用同样的过程，递归的形成每个划分上的样本判定树。一旦一个属性出现在一个节点上，就不必考虑该节点的任何后代上。递归划分步骤仅当下列条件之一成立时停止a) 给定节点的所有样本属于同一类;b) 没有剩余属性可以用来进一步划分样本，在此情况下，使用多数表决所得的类编号将节点转化为树叶。（c）如果某个分枝没有样本，则以其划分前的训练样本的多数类创建一个树叶2）判定树 buys_PCGame 如下所示：age?23excellentcredit_ratingyesstudent?fairyesnoyesnoyesno

展开阅读全文