【pdf】数据挖掘技术介绍

资源描述

《【pdf】数据挖掘技术介绍》由会员分享，可在线阅读，更多相关《【pdf】数据挖掘技术介绍（16页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘技术?数据挖掘技术?林源洪林源洪集美大学理学院集美大学理学院（School of Sciences，Jimei University） 1第一章第一章引言引言 1 什么激发了数据挖掘，为什么它是重要的什么激发了数据挖掘，为什么它是重要的需要是发明之母。数据挖掘之所以引起信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛地用于各种应用，包括商务管理、生产控制、市场分析、工程设计和科学探索。所以，数据挖掘是信息技术自然演化的结果，因而是重要的。 2 什么是数据挖掘什么是数据挖掘简单地说，数据挖掘

2、是从大量数据中提取或“挖掘”知识。从广义上来说，数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。基于这种观点，典型的数据挖掘系统具有以下主要成分： 1）数据库、数据仓库或其他信息库）数据库、数据仓库或其他信息库 2）数据库或数据仓库服务器）数据库或数据仓库服务器 3）知识库）知识库 4）数据挖掘引擎（用于特征化、关联、分类、聚类分析以及演变与偏差分析）数据挖掘引擎（用于特征化、关联、分类、聚类分析以及演变与偏差分析） 5）模式评估模块）模式评估模块 6）图形用户界面）图形用户界面 23 在何种数据上进行数据挖掘在何种数据上进行数据挖掘原则上讲，数据挖掘可以在任

3、何类型的信息存储上进行。它包括以下几个方面： 1）关系数据库）关系数据库 2）数据仓库）数据仓库 3）事务数据库）事务数据库 4）高级数据库系统）高级数据库系统 5）展开文件和）展开文件和 WWW 4 数据挖掘功能数据挖掘功能-可以挖掘什么类型的模式可以挖掘什么类型的模式数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分为两类：描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断，并加以预测。通常我们把它们分为以下几个类型： 1）概念）概念/类描述：特征化和区分（类描述：特征化和区分（Characterization a

4、nd Discrimination） 2）关联分析（）关联分析（Association Analysis） 3）分类和预测（）分类和预测（Classification and Predict） 4）聚类分析（）聚类分析（Clustering Analysis） 5）孤立点分析（）孤立点分析（Outlier Analysis） 6）演变分析（）演变分析（Evolution Analysis） 5 所有模式都是有趣的吗所有模式都是有趣的吗答案显然是否定的。实际上，对于给定的用户，在可能产生的模式中，只有一小部分是他感兴趣的。这就对数据挖掘系统提出了一系3列的问题。你可能会想： “什么样的模式是有

5、趣的？数据挖掘系统能够产生所有有趣的模式吗？数据挖掘系统能够仅产生有趣的模式吗？” 模式是有趣的，通常它含以下几点：（1）它易于被人理解；（2）在某种程度上，对于新的或测试数据是有效的；（3）是潜在有用的；（4）是新颖的。这样就存在一些模式兴趣度的客观度量。这些度量基于所发现模式的结构和关于它们的统计。第二个问题涉及数据挖掘算法的完全性。期望数据挖掘系统产生所有可能的模式是不现实和低效的。实际上，应当根据用户提供的限制和兴趣度对搜索聚焦。第三个问题是数据挖掘的优化问题。对于数据挖掘系统，仅产生有趣的模式是非常期望的。这对于用户和数据挖掘系统是非常有效的，因为这样就不需要搜索所产生

6、的模式，以便识别真正有趣的模式。在这方面目前已经有了进展，然而，在数据挖掘中，这种优化仍然是个挑战。 6 数据挖掘系统的分类数据挖掘系统的分类数据挖掘是一个交叉学科领域，受多个学科影响，包括数据库系统、统计学、机器学习不、可视化和信息科学。根据不同的标准，数据挖掘系统可以分类如下： 1）根据挖掘的数据库类型分类(不同标准如数据模型、涉及应用类型) 2）根据挖掘的知识类型分类（不同功能如特征化、区分、关联等） 3）根据所用的技术分类（如机器学习、统计学、可视化、模式识别） 44）根据应用分类（如金融、电信、股票市场、DNA、e-mail 等） 7 数据挖掘的主要问题数据挖掘的主要问题 1

7、）挖掘方法和用户交互问题）挖掘方法和用户交互问题 a在数据库中挖掘不同类型的知识 b多个抽象层的交互知识挖掘 c结合背景知识 d数据挖掘查询语言和特定的数据挖掘 e数据挖掘结果的表示和显示 f处理噪声和不完全数据 g模式评估-兴趣度问题 h数据挖掘算法的有效性和可伸缩性 I并行、分布式和增量挖掘算法 2）关于数据库类型的多样性）关于数据库类型的多样性 a关系的和复杂的数据类型的处理 b由异种数据库和全球信息系统挖掘信息 5第第 2 章章挖掘大型数据库中的关联规则挖掘大型数据库中的关联规则关联规则挖掘的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中不同商品之间的联系，分析顾客的

8、购买习惯。通过了解哪些商品频繁地被顾客同时购买，这种关联的发现可以帮助零售商制定营销策略。这就是说，数据是事务的或关系的，如何由大量的数据中发现关联规则？什么样的关联规则最有趣？我们如何帮助或指导挖掘过程发现有趣的关联规则？对于关联规则挖掘，什么样的语言结构对于定义关联挖掘查询是有用的？ 1 关联规则挖掘关联规则挖掘 1）购物篮分析：一个引发关联规则挖掘的例子图 1 62）基本概念设是项的集合.设任务相关的数据是数据库事务的集合,其中每个事务,21niiiIL= =DT是项的集合,使得IT 。每个事务都有标识符,称作。设TIDA是一个项集，事务T包含A当且仅当。关联规则是形如的蕴涵式

9、，其中，并且TA BAIBI,A= = BA。规则在事务集中成立，具有支持度，其中是中事务包含BADssDBA 的百分比，它是概率。规则在事务集中具有置信度，如果中包含)(BAP BADcDA的事务同时也包含B的百分比是。这是条件概率c)(ABP。即是 support()=, confidenceconfidence()=)=BA)(BAP BA)(ABP 同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则。项的集合称为项集(itemset)。包含个项的项集称为k-项集。项集的出现频率是包含项集的时务数，简称为项集的频率、支持计数或计数。项集

10、满足最小支持度 min_sup，如果项集的出现频率大于或等于 min_sup 与中事务总数的乘积。如果项集满足最小支持度，则它称为频繁项集(frequent itemset)。频繁项集的集合通常记为项集. kDkkL关联规则的挖掘是一个两步的过程：（1）找出所有频繁项集；（2）由频繁项集产生强关联规则。 3）关联规则挖掘：一个路线图购物篮分析只是关联规则挖掘的一种形式。事实上，有许多种关7联规则。根据下面的标准，关联规则有多种分类方法：（1）根据规则中所处理的值类型（如项的在与不在布尔关联规则）（2）根据规则中涉及的数据维（分为单维关联规则和多维关联规则）（3）根据规则集所涉及的

11、抽象层（如 age(X,“3039”)buys(X,“laptop computer”) （4）根据关联挖掘的各种扩充（如相关分析） 2 由事务数据库挖掘单维布尔关联规则由事务数据库挖掘单维布尔关联规则 1）Apriori 算法：使用侯选项集找频繁项集 Apriori 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。 Apriori 性质：频繁项集的所有非空子集都必须也是频繁的。Apriori 性质基于如下观察：根据定义，如果项集I不满足最小支持度阈值 min_sup，则I不是频繁的，即（3）划分（为找侯选项集划分数据）图 4 （4）选样（在给定数据的一个子集挖掘）选取给定数据库的

12、随机样本，然后，在而不是在中搜索频繁项集。 DSSD11（5）动态项集计数（在扫描的不同点添加侯选项集）动态项集计数技术将数据库划分为标记开始点的块。该技术动态地评估已被计数的所有项集的支持度，如果一个项集的所有子集已被确定为频繁的，则添加它作为新的侯选。结果算法需要的数据库扫描比 Apriori 少。 4）不产生侯选挖掘频繁项集（1）它可能需要产生大量侯选项集。（2）它可能需要重复地扫描数据库，通过模式匹配检查一个很大的候选集合。能否设计一种方法，挖掘全部频繁项集而不产生候选吗？频繁模式增长（frequent-pattern growth）简称 FP-增长就这样产生。它采取如下

13、分治策略：将提供频繁项集的数据库压缩到一棵频繁模式树（或FP 树），但仍保留项集有关信息；然后，将这种压缩后的数据库分成一组条件数据库，每个关联一个频繁项，并分别挖掘每个数据库。图 5 125）冰山查询给定关系 R，它具有属性 a_1, a_2,a_n 和 b，一个聚集函数agg_f，冰山查询形如 Elect R.a_1, R.a_2, R.a_n,agg_f(R.b) From relation R Group by R.a_1, R.a_2, R.a_n Having agg_f(R.b)=threshold 给定销售数据，你想产生这样的一个顾客-商品对的列表，这些顾客购买商品的数量

14、达到 3 件或更多。这可以用下面的冰山查询表示。 Elect P.cust_ID,P.item_ID,SUM(p.qty) From Purchases P Group by P.cust_ID, P.item_ID Having SUM(p.qty)=3 3 由事务数据库挖掘多层关联规则由事务数据库挖掘多层关联规则 1）多层关联规则例 3 某计算机部的销售数据。 13图 6 2）挖掘多层关联规则的方法（1）对于所有层使用一致的最小支持度（一致支持度）。（2）在较低层使用递减的最小支持度（递减支持度）。 3）检查冗余的多层关联规则 Desktop computerb/w printe

15、r support=8%.confidence=70% IBM desktop computerb/w printer support=2%.confidence=72% 4 由关系数据库和数据仓库挖掘多维关联规则由关系数据库和数据仓库挖掘多维关联规则 1）多维关联规则 2）使用量化属性的静态离散化挖掘多维关联规则 14图 7 3）挖掘量化关联规则图 8 4）挖掘基于距离的关联规则 5 由关联挖掘到相关分析由关联挖掘到相关分析 1）强关联规则不一定是有趣的： 152）由关联分析到相关分析 6 基于约束的关联挖掘基于约束的关联挖掘 1）关联规则的元规则制导挖掘 2）用附加的规则约束制导的挖掘 16

展开阅读全文