数据挖掘作业－金锄头文库

资源描述

《数据挖掘作业》由会员分享，可在线阅读，更多相关《数据挖掘作业（38页珍藏版）》请在金锄头文库上搜索。

1、真诚为您提供优质参考资料，若有不当之处，请指正。数据挖掘作业第一章引言一、填空题（1）数据库中的知识挖掘(KDD)包括以下七个步骤：、、、、、和（2）数据挖掘的性能问题主要包括：、和（3）当前的数据挖掘研究中，最主要的三个研究方向是：、和（4）在万维网(WWW)上应用的数据挖掘技术常被称为：（5）孤立点是指：二、单选题（1）数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于：A、所涉及的算法的复杂性；B、所涉及的数据量；C、计算结果的表现形式；D、是否使用了人工智能技术（2）孤立点挖掘适用于下列哪种场合？A、目标市场分析B、购物篮分析C、模式识别

2、D、信用卡欺诈检测（3）下列几种数据挖掘功能中，（）被广泛的应用于股票价格走势分析A. 关联分析 B.分类和预测 C.聚类分析 D. 演变分析（4）下面的数据挖掘的任务中，（）将决定所使用的数据挖掘功能A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示（5）下列几种数据挖掘功能中，（）被广泛的用于购物篮分析A、关联分析 B、分类和预测 C、聚类分析 D、演变分析（6）根据顾客的收入和职业情况，预测他们在计算机设备上的花费，所使用的相应数据挖掘功能是（）A.关联分析 B.分类和预测 C. 演变分析 D. 概念描述（7）帮助市场分析人员从客户的基本信息库中发现

3、不同的客户群，通常所使用的数据挖掘功能是（）A.关联分析 B.分类和预测 C.聚类分析 D. 孤立点分析 E. 演变分析（8）假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述，通常所使用的数据挖掘功能是（）A.关联分析 B.分类和预测 C. 孤立点分析D. 演变分析 E. 概念描述三、简答题（1）什么是数据挖掘？（2）一个典型的数据挖掘系统应该包括哪些组成部分？（3）请简述不同历史时代数据库技术的演化。（4）请列举数据挖掘应用常见的数据源。（或者说，我们都在什么样的数据上进行数据挖掘）（5）什么是模式兴趣度的客观度量和主观度量？（6）在哪些情况下，我们认为所挖掘出来的模式是有趣的？

4、（7）根据挖掘的知识类型，我们可以将数据挖掘系统分为哪些类别？第2章数据预处理一、填空题（1）进行数据预处理时所使用的主要方法包括：、、和（2）处理噪声数据的方法主要包括：、、和（3）模式集成的主要问题包括：和（4）数据概化是指：（5）数据压缩可分为：和两种类型。（6）进行数值归约时，三种常用的有参方法是：、和（7）数据离散度的最常用度量是、和二、单选题（1）数据归约的目的是（）A、填补数据种的空缺值B、集成多个数据源的数据C、得到数据集的压缩表示 D、规范化数据（2）下面哪种数据预处理技术可以用来平滑数据，消除数据噪声？A.数据清理B.数据集成C.

5、数据变换D.数据归约（3）进行数据规范化的目的是（）A.去掉数据中的噪声 B.对数据进行汇总和聚集 C.使用概念分层，用高层次概念替换低层次“原始”数据 D.将属性按比例缩放，使之落入一个小的特定区间（4）数据的噪声是指（）A、孤立点B、空缺值C、测量变量中的随即错误或偏差D、数据变换引起的错误（5）那种数据变换的方法将数据沿概念分层向上汇总A、平滑B、聚集C、数据概化D、规范化（6）（）通过将属性域划分为区间，从而减少给定连续值的个数。 A.概念分层 B.离散化 C.分箱 D. 直方图三、多选题（1）下面哪些问题是我们进行数据预处理的原因？A.数据中的空缺值 B.噪声数据C.数据中的不一致

6、性 D.数据中的概念分层（2）下面的度量中，哪些是数据离散度的度量？A.中位数B.标准差C.模D.中间四分位数区间（3）数据清理的目的是处理数据中的（）A、空缺值B、噪声数据C、不一致数据D、敏感数据（4）下列哪些是数据变换可能涉及的内容？A、数据压缩B、数据概化C、维归约D、规范化（5）以下哪些原因可能引起空缺值A、设备异常B、命名规则的不一致C、与其他已有数据不一致而被删除D、在输入时，有些数据因为得不到重视而没有被输入四、简答题（1）常用的数值属性概念分层的方法有哪些？（2）典型的生成分类数据的概念分层的方法有哪些？（3）在现实世界的数据中，元组在某些属性上缺少值是常有的。描述处理该

7、问题的各种方法。（4）常见的数据归约策略包括哪些？第四章数据挖掘原语、语言和系统结构一、填空题（1）概念分层有四种类型，分别是：、、和（2）常用的四种兴趣度的客观度量是：、、和（3）同时满足和的关联规则称为强关联规则。二、单选题（1）以下DMQL片断： mine associations as buyingHabitsmatching P(X : customer, W) Q(X, Y) = buys (X, Z)所指定的挖掘知识类型是：A、特征化B、区分C、关联D、分类（2）以下哪种数据挖掘系统与数据库/数据仓库系统集成方式将会使数据挖掘系统达到最好的性能？A、不耦合B

8、、松散耦合C、半紧密耦合D、紧密耦合三、多选题（1）以下哪些OLAP操作是和概念分层紧密相关的？A、上卷B、切片C、下钻D、切块四、简答题（1）定义数据挖掘任务的原语，主要应该包括哪些部分？（2）为什么需要数据挖掘原语和语言来指导数据挖掘？（3）描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别：不耦合、松散耦合、半紧密耦合和紧密耦合。（4）数据挖掘的GUI可能包含哪些部分？第五章概念描述：特征化与比较一、填空题（1）概念描述由和组成。（2）一般来说，进行类比较的过程应该包括以下几个步骤：、、和（3）从数据分析的角度看，数据挖掘可以分为两类：和（4）属性相关分析

9、的基本思想是计算某种度量，用于量化属性与给定类或概念的相关性。可采用的度量包括：、、和（5）数据离散度的最常用度量包括：、和二、单选题（1）类比较的过程中，我们在哪个步骤得到主目标类关系/方体和主对比类关系/方体？A、数据收集B、维相关分析C、同步概化D、导出比较的表示（2）哪种图形显示方法常用于描述两个变量间的依赖模式？A、直方图B、分位数图C、散布图D、LOESS曲线（3）哪种图形显示方法常用于确定两个量化的变量之间看上去是否有联系、模式或者趋势？A、直方图B、分位数图C、散布图D、LOESS曲线（4）哪种图形显示方法用于显示所有的数据，允许用户评估总的情况和不寻常情

10、况的出现？A、直方图B、分位数图C、散布图D、LOESS曲线（5）中心趋势度量模（mode）是指A、算术平均值B、数据集中出现频率最高的值C、最大值D、最小值三、多选题（1）下面哪些是常用的数据概化方法？A、离散化 B、数据立方体（OLAP技术）C、判定归纳树 D、面向属性的归纳（2）使用数据立方体方法进行数据概化的优点包括：A、数据概化的一种有效实现B、可以计算各种不同的度量值C、受数据类型和度量类型的约束比较少D、概化和特征分析通过一系列的数据立方体操作完成，简单高效（3）以下哪些是属于中心趋势的度量A、平均值B、标准差C、五数概括D、中位数四、简答题（1）简述类比较的过程。（2）简述面向

11、属性归纳的基本思想，并说明什么时候使用属性删除，什么时候使用属性概化。（3）简述概念描述的属性相关分析的基本步骤。（4）简要叙述概念描述和OLAP之间的主要区别。（5）为什么进行属性相关分析？（6）简述进行概念描述时，面向数据库的方法和机器学习的主要区别。（7）什么是概念描述的增量挖掘？第六章大型数据库中的关联规则挖掘一、填空题（1）关联规则挖掘中，两个主要的兴趣度度量是：和（2）Aprior算法包括和两个基本步骤（3）项集的频率是指（4）大型数据库中的关联规则挖掘包含两个过程：和（5）根据规则中所处理的值类型，关联规则可分为：和（6）Apriori性质是指：（7）挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法：、和（8）对于频繁项集挖掘，在挖掘过程中使用的约束包括以下五种类型：、

展开阅读全文