数据挖掘技术、关联规则知识概述.doc

资源描述

《数据挖掘技术、关联规则知识概述.doc》由会员分享，可在线阅读，更多相关《数据挖掘技术、关联规则知识概述.doc（3页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘技术与关联规则的相关重要概念1 数据挖掘的概念数据挖掘的概念是指从大量数据中挖掘出用户感兴趣的或有价值的数据，即从杂乱无章的数据海洋中，查找出数据之间的规律，并总结规律，最后形成便于人们理解的公式，增强信息的检索能力，同时也为决策者提供技术支持。在人工智能研究领域，数据挖掘有时又被称为数据库中的知识发现，即可以把数据挖掘认为是数据库中知识发现中三个阶段（即是：数据准备、数据挖掘、结果表达和解释）中的1个阶段。数据挖掘具体能够做很多事情，基本上可以归纳为以下六种：a估计（Estimation）。是分类的前序工作，估出的是连续值，而分类主要指的离散的值，比如：银行可以根据不同客户的贷款额度

2、的大小，为每个客户记予相应的分值（0-1），根据预先设定的阈值，可给每个客户划分为不同级别；b分类（Classification）。属于直接数据挖掘的一种，是数据挖掘技术在训练集中的应用，通过在已经分好类的训练集上建立分类模型，分类出没有分类的数据，是预先定义好的；c预测（Prediction）。是在估值和分类的基础上得出一个新的模型，这种模型可以对未来可能发生的事情做出一种预测，这种预测也并不完全是准确的，是需要通过一段时间验证的；d相关性分组或关联规则（Affinity grouping or association rules）。是指一种事件发生后，会引起另外一种事件将要发生e聚类（Cl

3、ustering）。是指对相似记录的一种分组，通过分组可得出相关预测或暗示；f复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)。是对多媒体数据的挖掘，它相对于普通文本数据挖掘要复杂的很多。2 数据挖掘的主要过程如果根据数据挖掘的基本原理，数据挖掘过程就是知识发现的过程，大体可以分为下几个步骤。（1）定义问题：根据工作需要，确定到底需要解决什么问题，明确数据挖掘的目标。（2）数据准备：它包括数据选择、预算理、变换三个过程，即在不同的数据库中提取出所需的目标数据集，并进行简单的预处理，使编码、格式等统一，对一些不完整或无用的数据进行补充或删除。（3）数据挖掘：根据预期的目标和数据分

4、布的特点等选择适当的数据挖掘算法，对数据进行挖掘。（4）结果分析：直接挖掘出来的数据用户一般很难看懂，为了让用户能清晰、直观的了解，需利用一些辅助工具软件对数据进行解释和评价，把最终结果用图形界面的形式直观显示给用户。3 数据挖掘的几种方法在数据挖掘技术中的比较常见的几种方法是：（1）神经网络方法：按照人的神经系统结构与功能，构建一个基于学习的模式识别。（2）遗传算法：根据生物遗传、进化等自然规律，而设计的一种算法。（3）决策树方法：根据数据集的分类，建立一棵决策树。（4）统计分析法：利用数学中的统计学等原理对数据进行统计与分析，找出数据之间的联系。（5）最近邻算法：通过某条记录最邻近的若干条

5、数据记录，来推测下一条记录。（6）粗糙集方法：主要用于对不完整的数据进行知识发现。（7）模糊逻辑：它是模糊数学的应用，主要对一些不易量化的数据进行分析与归类。4 关联规则1）关联规则的定义:通常所说的关联规则一般是指从海量数据库中找出不同数据项之间的关联度。假设有数据集合I=i1,i2,i3,i4，其中i1,i2,i3,i4，为数据项是集合I的元素；另设所有交易记录T的集合为D，其中T包含于I。TID作为每个交易的唯一编号。若有数据集合M，如果M包含于T，则称交易T包含M。（1）支持度（Support）关联规则中的支持度是指，在所有交易集合D中，其中某个交易集A和另一个交易集B同时出现的概率。

6、（2）置信度（Confidence）置信度是指在所有交易集合D中，某个交易集合B在另一交易集合A已发生的情况下，交易集合B发生的概率。它表示了关联规则的强度。置信度的公式表示如下：要判断一个关联规则在相关实例中是否有价值体现，其中很重要的是，一要看它的置信度是否大于或等于原先指定的最小置信度（min_conf），另外还要看它的支持度是否大于或等于原先指定的最小支持度（min_sup），只有这两个度都大于最小指定阈值，此关联规则才有效。在判断关联规则“好”与“差”时，只看关联规则中的置信度和支持度是不够的，即使置信度和支持度都满足原先指定的相关条件，但如果不是用户感兴趣的，那也不是一个好的关联规

7、则，所以我们还要考虑关联规则的兴趣度，即：项目集之间的相关程度。当I.M.在区间-1，0)上，则称A与B负关联，即：A出现的概率越高，则B出现的概率越低；当I.M.在区间（0，1上，则称A与B正关联，即：A出现的概率越高，则B出现的概率越高；当I.M.=0时，则称A与B无关联，即：A出现的概率高低与B出现的概率高低无关。2）关联规则挖掘的过程:关联规则挖掘过程大体主要按两步进行：（1）高频项目集的产生。所谓的高频项目集是指该项目集出现的频率（即：支持度）大于或等于原先指定的最小支持度。这一步所要完成的任务就是从全部交易集合中找出所有高频项目集。（2）关联规则的产生。在前面产生的所有高频项目中，

8、按照置信度公式计算，选出所有满足min_conf的规则，这些规则被称为Association Rules。3）关联规则的相关算法:在关联规则挖掘过程中，我们谈到关联规则挖掘分为两个过程完成，其中最关键的一步就是如何找出所有高频项目集？针对这个问题，常见的有以下几种不同的算法。（1）Apriori算法：Apriori是一种比较典型的布尔关联规则高频项目集的挖掘算法，该算法选择高频项目集的基本思想是：首先，从原始所有交易事务记录中，计算出交易集中每一个数据项出现的频率，根据原先设定的最小支持度，对数据库进行全面扫描，筛选出频率大于或等于最小支持度的所有一维项目集，并产生出二维的候选项目集。第2步，

9、根据上一步所产生的候选项目集，再对数据库进行全面扫描，筛选出频率大于或等于最小支持度的所有二维项目集，并产生出三维候选项目集，依次类推，完成所有维数的高频项目集的挖掘。Apriori算法的优点是：简单、容易。缺点是：每次产生候选集时，都要对数据库进行一次全面扫描，需花费较多的时间：（2）FP-tree频集算法：由于Apriori算法在每次产生候选项集时都需要完全扫描一次数据库，开销很大，所以，J.Han等人在2000年的时候又提出了另一种算法：FP-树频集算法，该算法不产生候选频繁项集，它把数据库直接压缩成一个FP-tree（频繁模式树），该算法总共只需对数据库进行2次扫描就可生成关联规则。产生一维频繁项集时需对数据库进行一次扫描，第二次扫描是在一维频繁项集的基础上筛选掉数据库中的非频繁项，此时FP-tree已生成。该算法比Apriori算法性能提高了很多（3）基于划分的算法：此种算法是由Savasere等人提出来的，它是把数据库分成若干个互不相交的块，在每个块中产生出本块内的所有频集，每个块可以由独立的处理器完成，所有块的频集可以并行产生，当每个块中频集全部产生出来后，再把每个块产生的频集进行合并，重新再分块，再在每个新块中产生所有频集，依次类推，最后能够产生所有的频集。4）数据挖掘技术的应用领域:如今，数据挖掘技术在各种领域中已经得到了广泛的应用。

展开阅读全文

数据挖掘技术、关联规则知识概述.doc

最新文档