数据挖掘系列讲座四、数据挖掘原语、语言和系统结构讲述

资源描述

《数据挖掘系列讲座四、数据挖掘原语、语言和系统结构讲述》由会员分享，可在线阅读，更多相关《数据挖掘系列讲座四、数据挖掘原语、语言和系统结构讲述（36页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘系列讲座四 9-10 王灿数据挖掘 sjwj 0703004 数据挖掘原语、语言和系统结构为什么要数据挖掘原语和语言？ n一个完全自动（不需要人为干预或指导）的数据挖掘机器只可能是“一只疯了的怪兽”。 q会产生大量模式（重新把知识淹没） q会涵盖所有数据，使得挖掘效率低下 q大部分有价值的模式集可能被忽略 q挖掘出的模式可能难以理解，缺乏有效性、新颖性和实用性令人不感兴趣。 n没有精确的指令和规则，数据挖掘系统就没法使用。 n用数据挖掘原语和语言来指导数据挖掘。数据挖掘原语的组成部分 n数据挖掘原语应该包括以下部分： q说明数据库的部分或用户感兴趣的数据集 q要挖掘的知识

2、类型 q用于指导挖掘的背景知识 q模式评估、兴趣度量 q如何显示发现的知识 n数据挖掘原语用于用户和数据挖掘系统通信，让用户能从不同的角度和深度审查和发现结果，并指导挖掘过程。说明数据挖掘任务的原语 n任务相关的数据 q数据库（仓库）名、数据立方体、选择条件、相关属性、分组条件 n挖掘的知识类型 q特征化、区分、关联、分类/预测、聚类 n背景知识 q概念分层，关联的确信度 n模式兴趣度度量 q简单性、确定性、实用性、新颖性 n发现模式的可视化 q规则、表、图表、图、判定树任务相关的数据 n用户感兴趣的只是数据库或数据仓库的一个子集。 q相关的操作：DB选择、投影、连接、聚集等；DW切

3、片、切块 q初始数据关系 n数据子集选择过程产生的新的数据关系 q可挖掘的视图 n用于数据挖掘相关任务的数据集任务相关的数据例子 n挖掘加拿大顾客和他们常在AllElectronics购买的商品间的关联规则 q数据库（仓库）名（e.g. AllElectronics_db） q包含相关数据的表或数据立方体名（e.g. item, customer, purchases, item_sold） q选择相关数据的条件（今年、加拿大） q相关的属性或维（item表的name和price， customer表的income和age）要挖掘的知识类型 n要挖掘的知识类型将决定使用什么数据挖掘功

4、能。 q概念描述（特征化和区分），关联规则，分类/预测，聚类和演化分析等 n模式模板 q又称元模式或元规则，用来指定所发现模式所必须匹配的条件，用于指导挖掘过程。关联规则元模式例子 n研究AllElectronics的顾客购买习惯，使用如下关联规则： qP(X: customer, W) Q(X, Y) =buys(X, Z) nX-customer表的关键字 nP,Q-谓词变量 nW, Y, Z-对象变量 n模板具体化 qage(X, “3039”) income(X, “40k49k”)=buys(X, “VCR”) 2.2%, 60% qoccupation(x, “stude

5、nt”) age(X, “2029”)=buys(X, “computer”)1.4%, 70% 背景知识：概念分层 n背景知识是关于挖掘领域的知识 q概念分层是背景知识的一种，它允许在多个抽象层上发现知识。 n概念分层以树形结构的节点集来表示，其中每个节点本身代表一个概念，根节点称为all，而叶节点则对应于维的原始数据值。 q概念分层中，自顶向底进行层的标识，即all为0层，向下依次为1，2，3等层概念分层上卷和下钻 n在概念分层中应用上卷操作（概化），使得用户可以使用较高层次概念替代较低层次概念 q可以在更有意义，更高、更抽象的层次观察数据，从而使发现的模式更加容易理解。

6、q上卷操作使得数据得到压缩，在这个压缩的数据集上进行挖掘可以减少I/O操作，使得挖掘的效率提高。 n概念分层的下钻操作使用较低层概念代替较高层概念，从而使用户能够对过于一般化的数据做更详细分析。 n上卷和下钻操作让用户以不同视图观察数据，洞察隐藏的数据联系。 n概念分层的自动生成。 n在同一个维上，可能根据用户的观点不同，存在多个概念分层。概念分层的类型 n四种常用的概念分层类型 q模式分层 nE.g., street B)=(包含A和B的元组值)/(包含A的元组值)，e.g. buys(X, “computer)=buys(X, “software”)30%, 80% q100%

7、置信度：准确的。实用性和新颖性 n实用性 q可以用支持度来进行度量：支持度(A=b) = (包含A和 B的元组数 )/(元组总数) e.g. buys(X, “computer)=buys(X, “software”) 30%, 80% q同时满足最小置信度临界值和最小支持度临界值的关联规则称为强关联规则。 n新颖性 q提供新信息或提高给定模式集性能的模式 q通过删除冗余模式来检测新颖性（一个模式已经为另外一个模式所蕴涵） qLocation(X, “Canada”)=buys(X, “Sony_TV”) 8%, 70% qLocation(X, “Vancouver”)=buys(X,

8、 “Sony_TV”) 2%, 70% 发现模式的表示和可视化 n以多种形式显示挖掘出来的模式：表、图、判定树、数据立方体等等，以适合不同背景的用户的需要。 n使用概念分层，用更有意义，更容易理解的高层概念来替代低层概念；并通过上卷、下钻等操作从不同的抽象级审视所发现的模式。 n特定知识类型的表示。一种数据挖掘查询语言DMQL nDMQL的设计目的 q支持特别的和交互的数据查询，以便利于灵活和有效的知识发现 n提供一种类似于SQL的标准化查询语言 n希望达到SQL在关系数据库中的地位 n系统开发和演化的基础 n方便的信息交互，广泛的技术支持，商业化，广为认可 n设计挑战 q数据挖掘

9、任务涉及面宽 n数据特征、关联规则、分类、演变分析每种任务都有不同的需求 DMQL的语法 n采用与SQL相类似的语法，便于与SQL的集成。 n允许在多个抽象层上，由关系数据库和数据仓库进行多类型知识的特殊挖掘 nDMQL的设计基于数据挖掘原语，相应的，其语法中应该包括对以下任务的指定： q说明数据库的部分或用户感兴趣的数据集 q要挖掘的知识类型 q用于指导挖掘的背景知识 q模式评估、兴趣度量 q如何显示发现的知识任务相关数据说明的语法 n任务相关数据说明应包括的内容： q包含相关数据的数据库或数据仓库 q相关的表名或数据立方体的名字 q选择相关数据的条件 q探察的相关属性或维 q关于检

10、索数据的排序和分组指令任务相关数据说明子句 n说明相关的数据库或数据仓库 quse database 或use data warehouse n指定涉及的表或数据立方体，定义检索条件 qFrom where n列出要探察的属性或维 qIn relevance to n相关数据的排序 qorder by n相关数据的分组 qgroup by n相关数据的分组条件： qhaving 任务相关数据说明示例 n挖掘加拿大顾客与在AllElectronics经常购买的商品之间的关联规则 use database AllElectronics_db in relevance to I.name, I.

11、price, C.income, C.age from customer C, item I, purchases P, items_sold S where I.item_ID=S. item_ID and S.trans_ID=P.trans_ID and P.cust_ID=C.cust_ID and C.country=“Canada” group by P.date 指定挖掘知识类型 n要挖掘的知识类型将决定所使用的数据挖掘功能。 n几种主要的数据挖掘功能 q特征化 n目标数据的一般特征或特性汇总 q数据区分 n将目标对象的一般特性与一个或多个对比类对象的特性相比较 q关联分析 n发

12、现关联规则，这些规则展示属性值频繁的在给定数据中集中一起出现的条件 q分类 n找出区分数据类或概念的模型（或函数），以便用之标志未知的对象类。 q聚类分析、孤立点分析、演变分析指定挖掘知识类型特征化 n目标数据的一般特征或特性汇总 q语法 Mine_Knowledge_Specification := mine characteristics as pattern_name analyze measure(s) nanalyze子句指定聚集度量（count, sum, count%），通过这些度量对每个找到的数据特征进行计算 n示例：顾客购买习惯的特征描述，对于每一特征，显示满足特征

13、的任务相关元组的百分比 mine characteristics as custPurchasinganalyze count% 指定挖掘知识类型数据区分 n将目标对象的一般特性与一个或多个对比类对象的特性相比较 q语法 Mine_Knowledge_Specification := mine comparison as pattern_name for target_class where target_condition versus contrast_class_i where contrast_condition_i analyze measure(s) nanalyze子句指定聚集度

14、量（count, sum, count%），将对每个描述进行计算或显示 n示例：用户将客户区分为大顾客与小顾客，并显示满足每个区分的元组数 Mine_Knowledge_Specification := mine comparison as purchaseGroups for bigSpenders where avg(I.price) $100 versus budgetSpenders where avg(I.price) $100 analyze count 指定挖掘知识类型关联 n发现关联规则，这些规则展示属性值频繁的在给定数据中集中一起出现的条件 q语法 Mine_Knowl

15、edge_Specification := mine associations as pattern_name nmatching 子句后面往往可以跟元模式，用来指定用户有兴趣探察的数据束或假定 n示例：使用元模式指导的挖掘来指定用于描述顾客购买习惯的关联规则挖掘 Mine_Knowledge_Specification := mine associations as buyingHabbits matching P(X: customer, W) Q(X, Y) =buys(X, Z) 指定挖掘知识类型分类 n找出区分数据类或概念的模型（或函数），以便用之标志未知的对象类 q语法 Mi

16、ne_Knowledge_Specification := mine classification as pattern_name analyze classifying_attribute_or_dimension nanalyze子句说明根据某个属性或维进行分类，通常每个分类属性的或维的值就代表一个分类 n示例：挖掘客户的信用等级模式 mine classification as classifyCustCreditRating analyze credit_rating 概念分层说明的语法 n每个属性或维可能有多个概念分层，已适应用户从不同角度看待问题的需要；用户可以使用如下语句指定使用哪个概念分层： use hierarchy for n示例1：定义模式分层location，location中包含一个概念分层的全序（street= 100 with noise threshold = 0.05 display

展开阅读全文

数据挖掘系列讲座四、数据挖掘原语、语言和系统结构讲述

最新文档