数据挖掘用例.doc－金锄头文库

资源描述

《数据挖掘用例.doc》由会员分享，可在线阅读，更多相关《数据挖掘用例.doc（5页珍藏版）》请在金锄头文库上搜索。

1、1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( 关联规则发现)2. 什么是 KDD? (数据挖掘与知识发现)3. OLAP 技术的核心是: 多维分析4. 决策树中不包含一下哪种结点?( 外部结点(external node)5. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(数据预处理)6. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(聚类)7. 考虑下面的频繁3-项集的集合：1，2，3，1，2，4，1，2，5，1，3，4，1，3，5，2，3，4，2，3，5，3，4，5假定

2、数据集中只有5个项，采用合并策略，由候选产生过程得到4-项集不包含(1，2，4，5 )8. 设X=1，2，3是频繁项集，则可由X产生_6_个关联规则。9. 以下哪个算法是分类算法， C4.5 分类 10. 简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作（划分聚类）数据挖掘：就是从大量数据中获取有效地、新颖的、潜在有用的、最终可理解的模式的过程。简单地说，数据挖掘就是从大量的数据中提取或“挖掘”知识，又被称为数据库中的知识发现（KDD）。数据挖掘数据的来源：数据库、数据仓库。KDD的步骤：数据清理（数据集成、数据选择）、数据变换、数据挖掘、模式评估、知

3、识表示。数据仓库：就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据的集合，通常用于辅助决策支持。特点：面向对象的、集成的、相对稳定的、反映历史变化的。数据仓库的组成：数据仓库数据库、数据抽取、元数据、访问工具、数据集市、数据仓库管理、信息发布系统。数据仓库处理：联机事务处理（OLTP）和联机分析处理（OLAP在线分析处理）。OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重于决策支持，并且提供直观易懂的查询结果。OLAP组成：多维数据集、维度、度量值、多维分析（核心）。分类：基于关系数据库的ROLAP、基于多维数据库的MOLAP、基于混合数据组织的HOLAP。数据挖掘概念：

4、从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。简单地说，数据挖掘就是从大量数据中提取或“挖掘”知识，又被成为数据库中的知识发现（knowledge discovery in database，KDD）。数据仓库的概念：数据仓库就是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的、反映历史变化的数据集合。通常用于辅助决策支持。数据仓库的元数据分为：技术元数据、业务元数据。数据处理分为：联机事务处理和联机分析处理。数据仓库组成：数据仓库数据库、数据抽取工具、元数据：技术元数据与业务元数据、访问工具、数据集市（Data M

5、arts）、数据仓库管理、信息发布系统数据仓库中的数据分为：早期细节级、当前细节级、轻度综合级和高度综合级。数据仓库的数据结构：操作型数据、调和数据、导出数据。建立数据仓库系统步骤：收集和分析业务需求、建立数据模型和数据仓库的物理设计、定义数据源、选择数据仓库技术和平台、从操作型数据库中抽取，清洗及转换数据到数据仓库、选择访和报表工具，选择数据库连接软件，选择数据分析和数据展示软件、更新数据库数据仓库系统的体系结构：两层架构、独立型数据集市、依赖型数据集市和操作型数据存储操作型数据存储：实际上是一个集成的、面向主题的、可更新的、当前值的、但是可“挥发的”企业级的详细的数据库，也叫运营数

6、据存储。“实时数据仓库”是意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。数据仓库的发展演变分为：以报表为主，以分析为主，以预测模型为主，以运营导向为主和以实时数据仓库和自动决策为主。调和数据是存储在企业级数据仓库和操作型数据存储中的数据。抽取、转换、加载过程的目的是：为决策支持应用提供一个单一的权威数据源，因此我们要求ELT过程产生的数据是（调和数据）详细的、历史的、规划范的、可理解的、即时的和质量可控制的。数据抽取：静态抽取和增量抽取，静态抽取用于最初填充数据仓库，增量抽取用于进行数据仓库的维护。粒度：是对数据仓库中数据的综合程度高低的一个衡量，

7、粒度越小细节程度越低，综合程度越高，回答查询的种类越小。多维数据模型主要解决如何对大量数据进行快速查询和多角度展示，以便得出有利于管理决策的信息和知识。多维数据模型的应用领域主要有数据仓和OLAP和数据挖掘3个方面。其中多维数据结构是OLAP的核心。多维分析：是指对以“维”形式组织起来的数据（多维数据集）采取切片、切块、钻取和旋转等各种分析动作，以求剖析数据，使用户能从不同角度、不同侧面观察数据仓库中的数据，从而深入理解多维数据集中的信息。最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在多维数据建模是以维度为中心的建模，以便于从多个角度（维

8、）分析有关数据（度量值）数据仓库实施中三个关键环节（开发过程）：数据抽取、数据存储与管理、数据表现数据ETL 是用来实现异构数据源的数据集成，即完成数据的抓取/抽取（Capture/Extract）、清洗（Scrub or datacleansing）、转换（Transform）、装载与索引（Load and Index）等数据调和工作数据仓库三种应用：信息处理、分析处理、数据挖掘关联规则(Association Rule Mining)挖掘是从事务数据库、关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。FP-树结构的优点完整性:不会破坏任何交

9、易的长模式，为频繁模式挖掘保存了完整的信息。简洁性：减少了不相关的信息非频繁项集被删掉，频繁项集按支持度递减顺序排列:越是频繁的项集越有可能被共享，不会比原数据库大(如果不算节点链和计数)关联规则分类：1、基于规则中涉及到的数据的维数，关联规则可以分为单维的和多维的。2、基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。3、基于规则中处理的变量的类型不同，关联规则可以分为布尔型和数值型。Adventure Works DW数据库关联规则发现的详细步骤如下：创建 Analysis Services 项目、创建数据源、创建数据源视图、创建关联挖掘结构、建立好挖掘模型后，需要设置关联规则

10、挖掘的参数、建立关联规则挖掘模型、查看挖掘结果数据分类是指把数据样本映射到一个事先定义的类中的学习过程，即给定一组输入的属性向量及其对应的类，用基于归纳的学习算法得出分类。分类过程：获取数据：输入数据、对数据进行量化。预处理：去除噪声数据、对空缺值进行处理，数据集成或者变换。分类器设计：划分数据集、分类器构造、分类器测试。分类决策：对未知类标号的数据样本进行分类。分类评价标准：精确度（代表测试集中被正确分类的数据样本所占的比例）、查全率（表示在本类样本中被正确分类的样本所占的比例）、查准率（表示被分类为该类的样本中，真正属于该类的样本所占的比例）F-measure（是查全率和查准

11、率的组合表）。几何均值：（能够合理地评价数据集的整体分类性能）。决策树分类是用属性值对样本集逐级划分，直到一个节点仅含有同一类的样本为止。决策树的优点：（1）进行分类器设计时，决策树分类方法所需时间相对较少（2）决策树的分类模型是树状结构，简单直观，比较符合人类的理解方式（3）可以将决策树中到达每个叶节点的路径转换为IFTHEN形式的分类规则，这种形式更有利于理解。ETL过程：抽取、清洗、转换、加载与索引ROLAP是基于关系数据库的OLAP实现。而MOLAP是基于多维数据结构组织的OLAP实现。聚类分析包括：划分聚类方法、层次聚类方法、基于密度的聚类法、基于网络的聚类方法。连续型属性的数据样

12、本之间的距离有欧式、曼哈顿、明考斯基层次聚类方法分为：凝聚型层次聚类、分解型层次聚类。聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程，聚类之后的每个类别中任意两个数据样本之间具有较高的相似度，而不同类别的数据样本之间具有较低的相似度。遗传算法：是一种有效的全局搜索方法，是一种基于达尔文自然选择和遗产变异等生物进化机制而发展起来的仿生算法。遗传算法在设计时需要考虑：（1）确定编码方式，以便对问题的解进行编码即用个体表示问题的可能解（2）确定种群大小规模（3）确定适应度函数，决定个体适应度的评估标准（4）确定选择的方法及选择率（5）确定交叉的方法及交叉率（6）确定变异的方法及变异

13、率（7）确定进化的终止条件事实表：是数据分析所对应的主要数据项，一般是企业或事业组织内的某项业务或某个事件。Web挖掘分为三类： web内容挖掘、web结构挖掘、web使用挖掘。数据仓库实施的关键和技术：数据抽取、数据存储与管理（关键环节）和数据表现等（多维分析是数据仓库的重要表现形式）。数据仓库的体系结构：基于独立数据集市的数据仓库体系结构、基于依赖型数据集市和操作型数据存储的数据仓库体系结构、基于逻辑型数据集市和实时数据仓库体系结构、独立数据库体系结构（两层体系结构）。数据仓库的数据结构：操作型数据、调和数据、导出数据、企业数据模型、元数据。数据仓库的数据可以分为：状态数据和事件数据。数据

14、仓库的数据ETL过程的主要功能：数据的抽取、数据的转换、数据的加载。数据的ETL过程就是负责将操作型数据转换成调和数据的过程。数据仓库中导出数据层的数据存储方式通常有两种：一种是存储在多维数据库中，也就是按照多维数组的方式存储，对应MOLAP；另一种是存储在关系数据库中，采用星型模式及其变体，对应ROLAP。多维数据模型的应用领域主要有数据仓库、OLAP和数据挖掘3个方面。其中，多维数据结构是OLAP的核心。多维数据模型：维、维类别、维属性、度量、粒度、分割。维表：维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联，称为维表。事实表：事实表包括事实的名称或度量以及每个相关维表的关

15、键字。事实指的是一些数字度量。维类别：维分层，即同一维还可以存在细节程度不同的各个类别属性。维属性：是维的一个取值。度量：是多维数据空间中的单元格，用以存放数据，也叫事实。星型模式（Star schema）: 事实表在中心，周围围绕地连接着维表（每维一个），事实表含有大量数据，没有冗余。雪花模式（Snowflake schema）: 是星型模式的变种，其中某些维表是规范化的，因而把数据进一步分解到附加表中。结果，模式图形成类似于雪花的形状。事实星座（Fact constellations）: 复杂应用可能需要多个事实表共享维表, 这种模式可以看作星型模式的汇集，因此称为星系模式（galaxy

16、schema），或者事实星座（fact constellation）。项目：设I=i1,i2,im是m个不同项目的集合，每个ik(k=1，2，m)称为一个项目(Item)。项集：项目的集合I称为项目集合(Itemset)，简称为项集。其元素个数称为项集的长度，长度为k的项集称为k-项集(k-Itemset)。交易T：交易T（事务 transaction）每笔交易T(Transaction)是项集I上的一个子集，即TI，但通常TI。对应每一个交易有一个唯一的标识交易号，记作TID。交易的全体构成了交易数据库D，或称交易记录集D，简称交易集D。交易集D中包含交易的个数记为|D|。、项集的最小支持度与频繁集：发现关联规则要求项集必须满足的最小支持阈值，称为项集的最小支持度(Minimum Su

展开阅读全文