数据挖掘CHAPTER4数据挖掘原语、语言和系统结构

资源描述

《数据挖掘CHAPTER4数据挖掘原语、语言和系统结构》由会员分享，可在线阅读，更多相关《数据挖掘CHAPTER4数据挖掘原语、语言和系统结构（18页珍藏版）》请在金锄头文库上搜索。

1、第四章数据挖掘原语、语言和系统结构关于数据挖掘，一个流行的错误观点是：期望数据挖掘系统能够自动地挖掘出埋藏在给定的大型数据库中的所有有价值的知识，而不需要人的干预或指导。尽管有一个自动数据挖掘系统看上去是吸引人的，但在实践中，它将不可能涵盖大部分模式集。所产生的全部模式的大小很容易超过给定的数据库。让数据挖掘系统“放纵”地去发现模式，而不提供用户希望探查数据库的哪些部分，什么样的模式用户感兴趣，就是放纵数据挖掘“怪物”。所发现的大部分模式与用户的分析任务无关。此外，尽管有些模式与分析任务有关，但是它们可能太难理解，或缺乏有效性、新颖性或实用性使得它们不令人感兴趣。这样，产生、存放

2、或提供由给定的数据库可能发现的所有模式既不现实，又不是所期望的。一个更现实的做法是：希望用户能够通过使用一组数据挖掘原语与数据挖掘系统通讯，以支持有效的和有成果的知识发现。这组原语包括说明数据库的部分或用户感兴趣的数据集（包括感兴趣的数据库属性或数据仓库维），要挖掘的知识类型，用于指导挖掘过程的背景知识，模式评估兴趣度量和如何显示所发现的知识。这些原语允许用户在知识发现时与数据挖掘系统通讯，从不同的角度和深度审查发现结果，并指导挖掘过程。可以设计数据挖掘查询语言集成这些原语，允许用户自由地与数据挖掘系统交互。数据挖掘查询语言也为建立友好的图形用户界面提供了基础。此外，为了实现数据挖

3、掘系统，一个精心设计的系统结构是非常重要的。这将有助于数据挖掘系统与其它信息系统通讯，有利于它与整个信息处理环境的集成。本章，你将详细学习数据挖掘原语，研究根据这些原则设计数据挖掘查询语言。此外，你还将学习数据挖掘系统的系统结构。4.1 数据挖掘原语：什么定义数据挖掘任务？每个用户脑袋里都有一个数据挖掘任务，即，他想要进行的数据分析形式。一个数据挖掘任务可以用数据挖掘查询的形式说明，它是数据挖掘系统的输入。数据挖掘查询用以下原语定义，如图 4.1 所示。图 4.1 定义数据挖掘任务或查询任务相关的数据：这是要考察的数据库部分。例如，假定你是 AllElectronics 的经理，负

4、责美国和加拿大的销售。特殊地，你想研究加拿大顾客的购买趋势。你可能说明只提取加拿大顾客的购买数据，以及相关顾客的简要信息，而不是挖掘整个数据库。你还可以说明挖掘过程中需要考虑的感兴趣的属性。这些属性称为相关属性1。例如，如果你只关心顾客购买的商品与其年收入和年龄之间的可能联系，则关系item的属性name，关系customer的属性income 和 age 可能被说明为挖掘任务相关的属性。要挖掘什么类型的知识：这是说明要执行的数据挖掘函数，如特征、区别、关联、分类、聚类或演变分析。例如，如果研究加拿大顾客的购买习惯，你可能选择挖掘顾客和他们喜爱买的商品之间的关联规则。背景知识：用户

5、可以说明背景知识，或关于挖掘领域的知识。对于指导知识发现过程和评估发现的模式，这些知识是非常有用的。有多种类型的背景知识。本章，我们将注意力集中在一种称作概念分层的流行的背景知识上。概念分层是有用的，它允许在多个抽象层上挖掘数据。其它例子包括用户对数据联系的确信。这些根据模式的非预期程度（这里，非预期的模式被认为是感兴趣的）或预期程度（这里，验证了某种用户假定的模式是有趣的）评估发现的模式。任务相关数据数据库或数据仓库容数据库表或数据仓库的数据方数据选择条件相关属性或维数据分组条件挖掘的知识类型槻念分层用户对数据联系的确信複式冥旌度度星简洁性可信性（如，置信度）实用性（如，支持度）

6、新颖性塩現模式的可視化规则、表、报告、閣表、閣、判定树和数据方下钻或上卷图 4.2 说明数据挖掘任务的原语兴趣度度量：这些功能用于将不感兴趣的模式从知识中分开。它们可以用于指导挖掘过程，或在挖掘之后，评估发现的模式。不同类型的知识需要不同的兴趣度度量。例如，对于关联1如果挖掘在多维数据方上进行，用户可以指定相关维。规则，兴趣度度量包括支持度（出现规则模式的任务相关元组所占的百分比）和置信度（规则的蕴涵强度估计）。其支持度和置信度小于用户指定的阈值的规则被认为是不感兴趣的。发现模式的提供和可视化：这涉及发现模式的显示形式。用户可以选择不同的知识表现形式，如规则、表、图、判定树和数据方。

7、下面，我们仔细考察这些原语。这些原语的说明总结在图4.2 中。4.1.1 任务相关的数据第一个原语是说明待挖掘的数据。通常，用户感兴趣的只是数据库的一个子集。不加区分地挖掘整个数据库是不现实的，特别是由于所产生的模式可能随数据库的大小指数地增长，使得挖掘过程效率很低。此外，所发现的许多模式与用户的兴趣无关。在关系数据库中，任务相关的数据集可以通过涉及如选择、投影、连接和聚集等操作的关系查询来收集。这种数据提取可以认为是数据挖掘任务的一个“子任务”。数据收集过程产生一个新的数据关系，称作初始数据关系。初始数据关系可以根据查询中指定的条件排序或分组。在用于数据挖掘分析之前，数据可能被清理

8、或转换（例如，在某些属性上聚集）。初始关系可以对应于，也可以不对应于数据库中的物理关系。由于虚拟关系在数据库领域称为视图，这种用于数据挖掘的任务相关的数据集称作可挖掘的视图。例 4.1 如果数据挖掘任务是研究在 AllElectronics 经常购买的商品和加拿大顾客之间的关联，则任务相关的数据可以由以下信息指定：所用的数据库或数据仓库的名字（如，AllElectronics_db）, 包含相关数据的表或数据方的名字（如，item, customer, purchass和item_sold），选择相关数据的条件（如，提取关于当年在加拿大进行购买的数据），相关的属性或维（如，来自i

9、tem表的name和price，来自customer表的income和age ）。此外，用户可能说明提取的数据按某些属性分组，如“group by date”。给出这些信息，可以用一个SQL查询提取任务相关的数据。在数据仓库中，数据通常存放在称为数据方的多维数据库中。数据方可以使用多维数组结构、关系结构或二者的结合来实现，我们在第 2 章已讨论。任务相关的数据集可以通过基于条件的过滤，数据方的切片（对于给定的属性值提取数据）或切块（提取若干片的交）来指定。注意，在数据挖掘查询中，数据选择条件可以在比数据库或数据仓库中的数据更高的概念层上。例如，用户可以使用概念type = “home

10、entertainment” AllElectronics的商品上指定选择，尽管数据库中的商品可能不是按类型存放，而是按较低层的概念，如“ TV”、“ CD 播放机”或 “VCR”存放。在商品上的概念分层将“home entertainment”说明为较高层概念，由较低层概念 “TV”，“CD播放机”，“VCR” 组成，可以用于收集任务相关的数据。对于用户，说明相关属性或维可能是一个困难的任务。对于可能进行的探查，什么属性是感兴趣的，用户可能只有一个粗略的想法。此外，在说明待挖掘的数据时，用户可能会忽略与之有很强语义联系的数据。例如，某些商品的销售可能与诸如圣诞节或鬼节，或特定的人群等特

11、定的事件密切相关，但这些因素可能没有包含在一般的数据分析请求中。对于这种情况，有些机制可以帮助给出任务相关数据的更精确说明。此外，搜索具有强语义联系属性的技术也可以用来加强用户说明的初始数据集。4.1.2 要挖掘的知识的类型说明挖掘什么类型的知识是非常重要的，因为这决定使用什么数据挖掘功能。知识类型包括概念描述（特征和区别）、关联、分类、预测、聚类和演变分析。对于给定的数据挖掘任务，除说明要挖掘的知识类型外，用户可能想进一步说明和提供所有发现模式必须匹配的模式模板。这些模板，或元模式（又称元规则或元查询）可以用于指导发现过程。这些元模式的使用在以下例子中解释。例 4.2 一个研究

12、 AllElectronics 的顾客购买习惯的用户可能选择挖掘如下形式的关联规则P(X : customer, W) a Q(X, Y) n buys (X, Z)其中，X是关系customer的关键字；P和Q是谓词变量，它们可以被例示为作为任务相关数据的一部分说明的相关属性或维；而W，Y和Z是对象变量，它们可以在关于顾客X的谓词上取值。关联规则的搜索限于匹配给定的元规则的那些，如age(X,30.39)aincome(X,40K.49K)nbuys(X,VCR)2.2%,60%(4.1)和occupation(X,student)aage(X,20.29)nbuys(X,computer

13、) 1.4%,70%(4.2)前一个规则是说30多岁的顾客，其年收入在40K和49K之间，多半(置信度60%)会买VCR, 这种情况占事务总数的2.2%。后一个规则是说20多岁的学生多半(置信度70%)会买计算机，这种情况占事务总数的1.4%。口4.1.3 背景知识：概念分层背景知识是关于挖掘领域的知识，它们在发现过程中是非常有用的。本小节，我们将我们的注意力放在一种简单但功能很强，称作概念分层的背景知识上。概念分层允许在多个抽象层上发现知识。正如第 2 章介绍的，概念分层定义了一组由低层概念集到高层概念集的映射。一个关于 location 维的概念分层如图 4.3 所示，将较低层的概

14、念(即，城市)映射到较高层更一般的概念(即，国家)。注意，概念分层结构以组织成树的结点集表示，其中每个结点本身代表一个概念。一个特殊的结点 all 作为树根，它表示给定维的最一般的值。如果不显式给出，它是蕴涵的。该概念分层结构由4层组成。为方便计，概念分层结构中的层自顶向下编号，结点all为0层。在我们的例子中，层1表示概念country，而层2和3分别表示概念province_or_state和city。概念分层的树叶对应于维的原始数据值( 原始层数据)。这些是给定属性或维的最细节的值或概念。尽管概念分层结构图4.3维location的一个概念分层概念分层是一种有用的背景知识形式，它使

15、得原始数据可以在较高的、一般化的抽象层上进行处理。数据的泛化或上卷可以通过用较高层概念(如location的国家，age的诸如“ 20.39”， “40.59”和“60+” 这样的区间)替换较低层的概念(如 location 的城市， age 的数值值)来实现。这使得用户可以在更有意义、更明显的抽象层观察数据，使得发现的模式更易于理解。泛化的另一个优点是压缩数据。与在大的、未压缩的数据上挖掘相比，在压缩的数据集上挖掘需要较少的 I/O 操作，并将更有效。如果结果数据过于一般化，概念分层也允许特化或下钻，概念值用较低层的概念替代。使用上卷和下钻，用户可以用不同的视图来观察数据，洞察隐藏的数据联系。概念分层结构可以由系统用户、领域专家或知识工程师提供。通常，这些映射是面向特定数据或应用的。正如我们在下面将看到的，许多概念分层结构蕴涵在数据库模式中。此外，概念分层结构通常可以自动地发现，或根据数据分布的统计分析动态地提炼。概念分层结构的自动产生已在第3章详细讨论。对于给定的属性或维，根据不同用户的观点，可能有多个概念分层结构。例如，假定AllElectronics的地区销售经理想要研究不同地方顾客的购买习惯，对于这样的挖掘任务，图4.3关于location的概念分层结构应当是有用的。然而，市场部经理可能更希望location按语言组织，以利于商业广告的分发。

展开阅读全文