数据仓库与数据挖掘课件第4章数据挖掘概述

资源描述

《数据仓库与数据挖掘课件第4章数据挖掘概述》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘课件第4章数据挖掘概述（84页珍藏版）》请在金锄头文库上搜索。

1、第4章数据挖掘概述4.1 什么是数据挖掘4.2 数据挖掘系统4.3 数据挖掘过程4.4 数据挖掘的未来展望 4.1 4.1 什么是数据挖掘什么是数据挖掘从技术角度看，数据挖掘（Data Mining，简称DM）是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。从商业应用角度看，数据挖掘是一种崭新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理，从中提取辅助商业决策的关键知识。4.1.1 数据挖掘的定义从大量数据中挖掘出有用的知识4.1.2 数据挖掘的知识表示1. 规则规则

2、知识由前提条件和结论两部分组成，前提条件由字段（或属性）的取值的合取（与，AND，）析取（或，OR，）组合而成，结论为决策字段（或属性）的取值或者类别组成。如：if A=a B=b then C=c，或者A(a) AND B(b) C(c)。2. 决策树决策树采用树的形式表示知识，叶子结点表示结论属性的类别，非叶子结点表示条件属性，每个非叶子结点引出若干条分支线，表示该条件属性的各种取值。一棵决策树可以转换成若干条规则。 if A=a1 B=b1 then D=d1if A=a1 B=b2 then D=d2if A=a2 then D=d3if A=a3 C=c1 then D=d4if A

3、=a3 C=c2 then D=d53. 知识基通过数据挖掘原表中的冗余属性和冗余记录，得到对应的浓缩数据，称为知识基。它是原表的精华，很容易转换成规则知识。 ABCDa1b1d1a1b2d2a2d3a3c1d4a3c2d5if A=a1 B=b1 then D=d1if A=a1 B=b2 then D=d2if A=a2 then D=d3if A=a3 C=c1 then D=d4if A=a3 C=c2 then D=d54. 网络权值神经网络方法得到的知识是一个网络结构和各边的权值，这组网络权值表示对应的知识。4.1.3 数据挖掘的主要任务根据发现知识的不同，可以将数据挖掘的任务归纳

4、为以下几类：关联分析：关联是某种事物发生时其他事物会发生的这样一种联系。例如每天购买啤酒的人也有可能购买香烟，比重有多大，可以通过关联的支持度和置信度来描述。关联分析的目的是挖掘隐藏在数据间的满足一定条件的关联关系，如：buy(computer)buy(software)关联规则表示顾客购买计算机和软件之间的关联关系。时序分析：与关联分析不同，时序分析产生的时序序列是一种与时间相关的纵向联系。例如今天银行调整利率，明天股市的变化。分类：按照分析对象的属性、特征，建立不同的组类来描述事物。例如银行部门根据以前的数据将客户分成了不同的类别，现在就可以根据这些来区分新申请贷款的客户，以采取相应的贷款

5、方案。聚类：识别出分析对内在的规则，按照这些规则把对象分成若干类。例如将申请人分为高度风险申请者，中度风险申请者，低度风险申请者。预测：把握分析对象发展的规律，对未来的趋势做出预见。例如对未来经济发展的判断。4.1.4 数据挖掘的发展数据挖掘一词是在1989年8月于美国底特律市召开的第十一界国际联合人工智能学术会议上正式形成的。1995年开始，每年主办一次KDD（Knowledge Discovery in Database）和DM的国际学术会议，将KDD和DM方面的研究推向了高潮，从此，“数据挖掘”一词开始流行。在中文文献中，DM有时还被翻译为数据采掘、数据开采、知识提取、数据考古等。数据挖

6、掘常常与KDD混用，关于两者的关系，有许多不同的看法。归纳起来有这样几种观点：无论哪种观点都认为数据挖掘是KDD的核心。本书也不明确区分KDD和DM两者。将KDD看成数据挖掘的一个特例，将数据挖掘作为KDD过程的一个步骤，认为KDD与数据挖掘含义相同。4.1.5 数据挖掘的对象1. 关系数据库2. 数据仓库3. 事务数据库4. 高级数据库 4.1.6 数据挖掘的分类1. 按数据库类型分类从关系数据库中发现知识从面向对象数据库中发现知识从多媒体数据库中发现知识从空间数据库中发现知识从历史数据库中发现知识从Web数据库中发现知识2. 按挖掘的知识类型分类按挖掘的知识类型分类主要有关联规则、特征规则

7、、分类规则、偏差规则、聚集规则、判别式规则及时序规则等类型。按知识的抽象层次可分为归纳知识、原始级知识、多层次知识。3. 按利用的技术类型分类按数据挖掘方式分类主要有自发知识挖掘、数据驱动挖掘、查询驱动挖掘和交互式数据挖掘。按数据挖掘途径可分为基于归纳的挖掘、基于模式的挖掘、基于统计和数学理论的挖掘及集成挖掘等。4. 按挖掘的深度分类在较浅的层次上，利用现有数据库管理系统的查询及报表功能，与多维分析、统计分析方法相结合，进行OLAP，从而得出可供决策参考的统计分析数据。在深层次上，从数据库中发现前所未知的、隐含的知识。4.1.7 数据挖掘与数据仓库及OLAP的关系1. 数据挖掘与数据仓库的关系

8、融合和互补的关系：数据仓库中的数据可以作为数据挖掘的数据源数据挖掘的数据源不一定必须是数据仓库共同之处：都是从数据库的基础上发展起来的，它们都是决策支持新技术 2. 数据挖掘与OLAP的关系数据挖掘与OLAP都是数据分析工具。数据挖掘是挖掘型的，建立在各种数据源的基础上，重在发现隐藏在数据深层次的对人们有用的模式，并做出有效的预测性分析。OLAP是验证型的，OLAP更多地依靠用户输入问题和假设，建立在多维数据的基础之上。相同点：不同点：4.1.8 数据挖掘的应用1. 科学研究中的数据挖掘2. 市场营销的数据挖掘3. 金融数据分析的数据挖掘4. 电信业的数据挖掘5. 产品制造中的数

9、据挖掘6. Internet应用中的数据挖掘4.2 4.2 数据挖掘系统数据挖掘系统4.2.1 数据挖掘系统的结构4.2.2 数据挖掘系统的设计1. 数据挖掘系统怎样与数据源系统的集成不耦合：是指数据挖掘系统不利用数据源系统的任何功能；松散耦合：是指利用数据源系统的某些功能。半紧密耦合：是指将数据挖掘系统连接到数据源系统，在数据源系统中实现并存储一些基本数据挖掘计算和中间结果；紧密耦合：是指数据挖掘系统平滑地集成到数据源系统，数据挖掘系统作为数据源系统的一个功能组件，数据挖掘任务根据数据源系统的功能进行优化与实现。2. 数据挖掘系统怎样指定目标数据集指定目标数据集就是说明与数据挖掘任务相关的数

10、据、用户感兴趣的数据或者要进行挖掘的数据。 3. 数据挖掘系统怎样指定数据挖掘任务指定数据挖掘任务就是说明用户感兴趣的知识类型或者要挖掘得到的知识类型。目前，知识类型包括特征规则、比较规则、分类规则、关联规则、聚类规则和预测规则等。 4. 数据挖掘系统怎样解释与评价模式一个数据挖掘系统可以挖掘出数以千计的模式，并非所有的模式都是用户感兴趣的。因此数据挖掘系统应该提供帮助用户评估模式的功能，目前常用的手段是通过用户设置兴趣度阈值来选择感兴趣的模式，没有兴趣度度量，挖掘出来的有用模式很可能会淹没在用户不感兴趣的模式中。下面介绍四种兴趣度的客观度量方法，所谓客观的是指根据模式的结构和统计，用一个阈值

11、来判断某个模式是不是用户感兴趣的。简洁性确定性实用性新颖性 5. 数据挖掘系统怎样利用领域知识在数据挖掘中，领域知识可以指导数据挖掘过程及模式的评估。最多的领域知识是概念分层，利用它可以进行数据概化和数据归约，提高挖掘效率。领域知识一般由系统用户、领域专家提供。 6. 数据挖掘系统怎样呈现知识数据挖掘的结果需要呈现给用户，因此数据挖掘系统应该提供多种直观、易于理解的知识表示功能。通常采用图、表等可视化方式将结果提交给用户，有时还需要提供交互功能，便于用户指导进一步挖掘。由于数据挖掘功能的复杂性和灵活性，数据挖掘系统通常采用提供一种数据挖掘查询语言来满足上述要求。例如，DBMiner系统就

12、提供了一套较完整的类似于SQL的数据挖掘查询语言DMQL，使用这个语言，用户可以定义数据挖掘任务和相关数据，又可以与数据挖掘系统交互进行交互式挖掘。 use database SDWin relevance to P.型号,P.单价,C.年龄层次,from Locates L,Products P,Sales S, Customers Cwhere S.prod_key=L.prod_key and S.locate_key=L.locate_key and L.cust_key=C.cust_key and L.地区=华北4.2.3 常用的数据挖掘系统及其发展1. 常见的数据挖掘系统（产品）

13、一般分析目的数据挖掘系统针对特定功能或产业的数据挖掘系统整合决策支持/OLAP/数据挖掘的大型分析系统目前市场上有多种较为成熟的数据挖掘系统（产品）供人们用于数据挖掘任务设计，归纳起来，分为以下三类：2. 数据挖掘系统的发展代特征数据挖掘算法集成功能分布计算模型数据模型第1代作为一个独立的应用支持一个或多个算法独立的系统单台机器向量数据第2代和数据库及数据仓库集成多个算法数据管理系统，包括数据库和数据仓库同质、局部区域的计算机集群有些系统支持对象、文本和连续的多媒体数据第3代和预测模型系统集成多个算法数据管理系统和预言模型系统Intranet/Extranet网络计算支持半结构化数据和W

14、eb数据第4代同移动数据、各种计算数据联合多个算法分布在多个节点数据管理系统、预言模型系统和移动系统移动设备和各种计算设备普遍存在的计算模型4.3 4.3 数据挖掘过程数据挖掘过程4.3.1 数据挖掘步骤数据预处理数据源目标数据集挖掘算法模式评估模式知识1. 数据预处理数据预处理主要包括数据清理、数据集成、数据变换和数据归约等，通过数据预处理，使数据转换为可以直接应用数据挖掘工具进行挖掘的高质量数据。2. 数据挖掘算法根据数据挖掘任务和数据性质选择合适的数据挖掘算法挖掘模式。数据挖掘算法不仅与目标数据集有关，也与数据挖掘的任务相关。3. 模式评估与表示去除无用的或冗余的模式，将有趣的模式以用户

15、能理解的方式表示，并储存或提交给用户。4.3.2 数据清理1. 处理空缺值忽略元组，当类标号缺少时通常这么做（假定挖掘任务涉及分类或描述），当每个属性缺少值的百分比变化很大时，它的效果非常差。人工填写空缺值，这种方法工作量大，可行性低。使用一个全局变量填充空缺值，例如使用unknown或-。使用属性的平均值填充空缺值。使用与给定元组属同一类的所有样本的平均值。使用最可能的值填充空缺值，使用像Bayesian公式或判定树这样的基于推断的方法。2. 消除噪声数据噪声是指一个测量变量中的随机错误或偏差。引起噪声数据的原因可能有数据收集工具的问题、数据输入错误、数据传输错误、技术限制或命名规则的不一致

16、。（1）分箱其基本过程是，首先排序数据，并将它们分到等深的箱中，然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等。例如，某商品价格的排序后数据是4，8，15，21，21，24，25，28，34。箱1：4，8，15箱2：21，21，24箱3：25，28，34采用深度为3的等深方法划分为3个箱：箱1：该箱平均值为9，均用9平滑，4，8，159，9，9箱2：该箱平均值为22，均用22平滑，21，21，2422，22，22箱3：该箱平均值为29，均用29平滑，25，28，3429，29，29采用箱平均值平滑的结果如下：箱1：该箱左边界4，中间值8用4平滑，4，8，154，4，15箱2：该箱左边界21，中间值21用21平滑，21，21，2421，21，24箱3：该箱左边界25，中间值28用25平滑，25，28，3425，25，34 采用箱边界平滑的结果如下：（2）聚类通过聚类分析查找孤立点，去除孤立点以消除噪声。聚类算法可以得到若干数据类（簇），在所有类外的数据可视为孤立点。（3）计算机和人工检查结合通过计算机检测可疑数据，然后对它们进行人工判断。（4）回归通过回归分析得到回归函数，让数

展开阅读全文

数据仓库与数据挖掘课件第4章 数据挖掘概述

最新文档

数据仓库与数据挖掘课件第4章数据挖掘概述