《数据挖掘原语语言和系统结构ppt课件》由会员分享,可在线阅读,更多相关《数据挖掘原语语言和系统结构ppt课件(35页珍藏版)》请在金锄头文库上搜索。
1、经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用9-10王王 灿灿数据挖掘数据挖掘0703004经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用数据挖掘原语、语言和系统结构经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用为什么要数据挖掘原语和语言?n一个完全自动(不需要人为干预或指导)的数据挖掘机器只可能是“一只疯了的怪兽”。q会产生大量模式(重新把知
2、识淹没)q会涵盖所有数据,使得挖掘效率低下q大部分有价值的模式集可能被忽略q挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性令人不感兴趣。n没有精确的指令和规则,数据挖掘系统就没法使用。n用数据挖掘原语和语言来指导数据挖掘。经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用数据挖掘原语的组成部分n数据挖掘原语应该包括以下部分:q说明数据库的部分或用户感兴趣的数据集q要挖掘的知识类型q用于指导挖掘的背景知识q模式评估、兴趣度量q如何显示发现的知识n数据挖掘原语用于用户和数据挖掘系统通信,让用户能从不同的角度和深度
3、审查和发现结果,并指导挖掘过程。经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用说明数据挖掘任务的原语n任务相关的数据q数据库(仓库)名、数据立方体、选择条件、相关属性、分组条件n挖掘的知识类型q特征化、区分、关联、分类/预测、聚类n背景知识q概念分层,关联的确信度n模式兴趣度度量q简单性、确定性、实用性、新颖性n发现模式的可视化q规则、表、图表、图、判定树经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用任务相关的数据n用户感兴趣的
4、只是数据库或数据仓库的一个子集。q相关的操作:DB选择、投影、连接、聚集等;DW切片、切块q初始数据关系n数据子集选择过程产生的新的数据关系q可挖掘的视图n用于数据挖掘相关任务的数据集经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用任务相关的数据例子n挖掘加拿大顾客和他们常在AllElectronics购买的商品间的关联规则q数据库(仓库)名(e.g.AllElectronics_db)q包含相关数据的表或数据立方体名(e.g.item,customer,purchases,item_sold)q选择相关数据的条
5、件(今年、加拿大)q相关的属性或维(item表的name和price,customer表的income和age)经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用要挖掘的知识类型n要挖掘的知识类型将决定使用什么数据挖掘功能。q概念描述(特征化和区分),关联规则,分类/预测,聚类和演化分析等n模式模板q又称元模式或元规则,用来指定所发现模式所必须匹配的条件,用于指导挖掘过程。经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用关联规则元模式
6、例子n研究AllElectronics的顾客购买习惯,使用如下关联规则:qP(X:customer,W)Q(X,Y)=buys(X,Z)nX-customer表的关键字nP,Q-谓词变量nW,Y,Z-对象变量n模板具体化qage(X,“3039”)income(X,“40k49k”)=buys(X,“VCR”) 2.2%,60%qoccupation(x,“student”)age(X,“2029”)=buys(X,“computer”)1.4%,70%经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用背景知识:概
7、念分层n背景知识是关于挖掘领域的知识q概念分层是背景知识的一种,它允许在多个抽象层上发现知识。n概念分层以树形结构的节点集来表示,其中每个节点本身代表一个概念,根节点称为all,而叶节点则对应于维的原始数据值。q概念分层中,自顶向底进行层的标识,即all为0层,向下依次为1,2,3等层经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用概念分层上卷和下钻n在概念分层中应用上卷操作(概化),使得用户可以使用较高层次概念替代较低层次概念q可以在更有意义,更高、更抽象的层次观察数据,从而使发现的模式更加容易理解。q上卷操作
8、使得数据得到压缩,在这个压缩的数据集上进行挖掘可以减少I/O操作,使得挖掘的效率提高。n概念分层的下钻操作使用较低层概念代替较高层概念,从而使用户能够对过于一般化的数据做更详细分析。n上卷和下钻操作让用户以不同视图观察数据,洞察隐藏的数据联系。n概念分层的自动生成。n在同一个维上,可能根据用户的观点不同,存在多个概念分层。经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用概念分层的类型n四种常用的概念分层类型q模式分层nE.g.,streetcityprovincecountryq集合分组分层nE.g.,20-39
9、=young,40-59=middle_agedq操作导出的分层nEmail:q基于规则的分层nlow_profit_margin(X)=price(X,P1)andcost(X,P2)and(P1-P2)$50nhigh_profit_margin(X)$250经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用兴趣度度量n没有兴趣度度量,挖掘出来的有用模式,很可能会给淹没在用户不感兴趣的模式中。n兴趣度的客观度量方法:根据模式的结构和统计,用一个临界值来判断某个模式是不是用户感兴趣的。n常用的四种兴趣度的客观度量
10、:q简单性q确定性q实用性q新颖性经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用简单性和确定性n简单性(simplicity)q模式是否容易被人所理解q模式结构的函数(模式的长度、属性的个数、操作符个数)。e.g.规则长度或者判定树的节点个数。n确定性(certainty)q表示一个模式在多少概率下是有效的。q置信度(A=B)=(包含A和B的元组值)/(包含A的元组值),e.g.buys(X,“computer)=buys(X,“software”)30%,80%q100%置信度:准确的。经营者提供商品或者服务
11、有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用实用性和新颖性n实用性q可以用支持度来进行度量:支持度(A=b)=(包含A和B的元组数)/(元组总数)e.g.buys(X,“computer)=buys(X,“software”) 30%,80%q同时满足最小置信度临界值和最小支持度临界值的关联规则称为强强关联规则关联规则。n新颖性q提供新信息或提高给定模式集性能的模式q通过删除冗余模式来检测新颖性(一个模式已经为另外一个模式所蕴涵)qLocation(X,“Canada”)=buys(X,“Sony_TV”)8%,70%qLocat
12、ion(X,“Vancouver”)=buys(X,“Sony_TV”)2%,70%经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用发现模式的表示和可视化n以多种形式显示挖掘出来的模式:表、图、判定树、数据立方体等等,以适合不同背景的用户的需要。n使用概念分层,用更有意义,更容易理解的高层概念来替代低层概念;并通过上卷、下钻等操作从不同的抽象级审视所发现的模式。n特定知识类型的表示。经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用一
13、种数据挖掘查询语言DMQLnDMQL的设计目的q支持特别的和交互的数据查询,以便利于灵活和有效的知识发现n提供一种类似于SQL的标准化查询语言n希望达到SQL在关系数据库中的地位n系统开发和演化的基础n方便的信息交互,广泛的技术支持,商业化,广为认可n设计挑战q数据挖掘任务涉及面宽n数据特征、关联规则、分类、演变分析每种任务都有不同的需求经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用DMQL的语法n采用与SQL相类似的语法,便于与SQL的集成。n允许在多个抽象层上,由关系数据库和数据仓库进行多类型知识的特殊挖掘
14、nDMQL的设计基于数据挖掘原语,相应的,其语法中应该包括对以下任务的指定:q说明数据库的部分或用户感兴趣的数据集q要挖掘的知识类型q用于指导挖掘的背景知识q模式评估、兴趣度量q如何显示发现的知识经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用任务相关数据说明的语法n任务相关数据说明应包括的内容:q包含相关数据的数据库或数据仓库q相关的表名或数据立方体的名字q选择相关数据的条件q探察的相关属性或维q关于检索数据的排序和分组指令经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的
15、金额为消费者购买商品的价款或接受服务的费用任务相关数据说明子句n说明相关的数据库或数据仓库qusedatabase或usedatawarehousen指定涉及的表或数据立方体,定义检索条件qFromwheren列出要探察的属性或维qInrelevanceton相关数据的排序qorderbyn相关数据的分组qgroupbyn相关数据的分组条件:qhaving经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用任务相关数据说明示例n挖掘加拿大顾客与在AllElectronics经常购买的商品之间的关联规则use data
16、base AllElectronics_dbin relevance to I.name, I.price, C.income, C.agefrom customer C, item I, purchases P, items_sold Swhere I.item_ID=S. item_ID and S.trans_ID=P.trans_ID and P.cust_ID=C.cust_ID and C.country=“Canada”group by P.date经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用指
17、定挖掘知识类型n要挖掘的知识类型将决定所使用的数据挖掘功能。要挖掘的知识类型将决定所使用的数据挖掘功能。n几种主要的数据挖掘功能q特征化n目标数据的一般特征或特性汇总q数据区分n将目标对象的一般特性与一个或多个对比类对象的特性相比较比较q关联分析n发现关联规则,这些规则展示属性值频繁的在给定数据中集中一起出现的条件q分类n找出区分数据类或概念的模型(或函数),以便用之标志未知的对象类。q聚类分析、孤立点分析、演变分析经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用指定挖掘知识类型特征化n目标数据的一般特征或特性汇
18、总q语法Mine_Knowledge_Specification := := mine characteristicsmine characteristics asas pattern_name pattern_name analyzeanalyze measure(s) measure(s) nanalyze子句指定聚集度量(count,sum,count%),通过这些度量对每个找到的数据特征进行计算n示例:顾客购买习惯的特征描述,对于每一特征,显示满足特征的任务相关元组的百分比mine characteristicsmine characteristics asas custPurchas
19、ing custPurchasinganalyzeanalyze count% count% 经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用指定挖掘知识类型数据区分n将目标对象的一般特性与一个或多个对比类对象的特性相比较q语法Mine_Knowledge_Specification := := mine comparisonmine comparison asas pattern_name pattern_name forfor target_class target_classwherewhere targe
20、t_condition target_condition versus versus contrast_class_contrast_class_i iwherewhere contrast_condition_contrast_condition_i i analyzeanalyze measure(s) measure(s) nanalyze子句指定聚集度量(count,sum,count%),将对每个描述进行计算或显示n示例:用户将客户区分为大顾客与小顾客,并显示满足每个区分的元组数Mine_Knowledge_Specification := := mine comparisonmin
21、e comparison asas purchaseGroups purchaseGroups forfor bigSpenders bigSpenderswherewhere avg(I.price) avg(I.price) $100 versus versus budgetSpendersbudgetSpenderswherewhere avg(I.price) avg(I.price) $100 analyzeanalyze count count经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用指定挖掘知
22、识类型关联n发现关联规则,这些规则展示属性值频繁的在给定数据中集中一起出现的条件q语法Mine_Knowledge_Specification := := mine associationsmine associations asas pattern_name pattern_name nmatching子句后面往往可以跟元模式,用来指定用户有兴趣探察的数据束或假定n示例:使用元模式指导的挖掘来指定用于描述顾客购买习惯的关联规则挖掘Mine_Knowledge_Specification := := mine associationsmine associations asas buyingH
23、abbits buyingHabbitsmatchingmatching P(X: customer, W) Q(X, Y) =buys(X, Z)经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用指定挖掘知识类型分类n找出区分数据类或概念的模型(或函数),以便用之标志未知的对象类q语法Mine_Knowledge_Specification := mine classification as pattern_name analyze classifying_attribute_or_dimensionnanaly
24、ze子句说明根据某个属性或维进行分类,通常每个分类属性的或维的值就代表一个分类n示例:挖掘客户的信用等级模式mine classification as classifyCustCreditRatinganalyze credit_rating经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用概念分层说明的语法n每个属性或维可能有多个概念分层,已适应用户从不同角度看待问题的需要;用户可以使用如下语句指定使用哪个概念分层:usehierarchyforn示例1:定义模式分层location,location中包含一个
25、概念分层的全序(streetcityprovincecountry),相应的DMQL语法定义如下所示:Define hierarchy location_hierarchyonlocationasstreet,city,province,country经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用概念分层说明的语法集合分组分层allyoungmiddle_agedsenior203940596089Level0Level1Level2define hierarchyage_hierarchyfor ageonc
26、ustomeraslevel1:young,middle_aged,seniorlevel0:alllevel2:2039level1:younglevel2:4059level1:middle_agedlevel2:6089level1:senior经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用兴趣度度量说明的语法n兴趣度的度量包括置信度、支持度、噪声和新颖度等度量,可以通过将模式的兴趣度度量与相应的临界值相比较决定一个模式是否为感兴趣的模式。withwith thresholdthreshold = thr
27、eshold_valuen示例:挖掘关联规则时限定找到的感兴趣模式必须满足最小支持度为5%,最小置信度为70%withwith support thresholdthreshold = 5%withwith confidence thresholdthreshold = 70%经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用模式表示和可视化说明的语法n对挖掘出来的模式,可以使用多种形式进行表示,包括:规则、表、饼图、立方体、曲线等display asn为了方便用户在不同的角度或者不同的概念层观察发现的模式,用户可
28、以使用上卷、下钻、添加或丢弃属性或维等操作Multilevel_Manipulation:= roll up onroll up on attribute_or_dimension | drill down ondrill down on attribute_or_dimension | addadd attribute_or_dimension | dropdrop attribute_or_dimension例:假定描述是基于维location,age和income的挖掘。用户可以”rolluponlocation”,“dropage”,概化发现的模式。经营者提供商品或者服务有欺诈行为的,
29、应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用一个DMQL查询的完整示例n查询AllElectronics购买商品的价格不小于$100的,用AmEx信用卡结帐的加拿大顾客的购买习惯特征(年龄,商品类型和产地),以表的形式表示挖掘的模式use database AllElectronics_db use hierarchy location_hierarchy for B.addressminecharacteristicsas customerPurchasing analyze count% inrelevanceto C.age, I.typ
30、e, I.place_made fromcustomer C, item I, purchases P, items_sold S, works_at W, branchwhere I.item_ID = S.item_ID and S.trans_ID = P.trans_ID and P.cust_ID = C.cust_ID and P.method_paid = AmEx and P.empl_ID = W.empl_ID and W.branch_ID = B.branch_ID and B.address = Canada and I.price = 100with noise t
31、hreshold = 0.05 display as table经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用其他数据挖掘语言和数据挖掘原语的标准化n关联规则语言规范qMSQL(Imielinski&Virmani99)qMineRule(MeoPsailaandCeri96)qQueryflocksbasedonDatalogsyntax(Tsuretal98)n数据挖掘的OLEDBq基于OLEDB和OLEDBforOLAP技术q整合数据库,数据仓库和数据挖掘nCRISP-DM(CRoss-IndustryS
32、tandardProcessforDataMining)q提供了一个有效的数据挖掘平台和处理结构q强调使用数据挖掘技术解决商务问题的需要经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用数据挖掘系统的体系结构n一个好的系统体系结构,可以使数据挖掘系统在性能、可交互性、可使用性以及可扩展性等多个方面的都得到良好的保证。n当前大部分数据都是存储在数据库或者是数据仓库之中,在此基础上往往还构建了综合的信息处理和信息分析功能。n数据挖掘系统体系结构的核心问题:我们是否应当将数据挖掘系统与数据库/数据仓库系统集成(或耦合)q
33、不耦合q松散耦合q半紧密耦合q紧密耦合经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用DM与DB/DW的耦合方式(1)n不耦合qDM系统不利用DB/DW系统的任何功能。q简单,但是没有利用数据库的功能意味着信息分析处理借助第三方工具,这使得系统的构建和集成变得很困难。n松散耦合qDM系统将使用DB/DW系统的某些功能。q简单的利用DB/DW提供的数据查询功能,没有使用DB/DW的后台优化,算法大部分是基于内存的,性能和可扩展性差经营者提供商品或者服务有欺诈行为的,应当按照消费者的要求增加赔偿其受到的损失,增加赔偿的金额为消费者购买商品的价款或接受服务的费用DM与DB/DW的耦合方式(2)n半紧密耦合q除了将DM系统连接到一个DB/DW系统之外,一些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)可以在DB/DW系统中实现。q一些中间的挖掘结果可以在DB/DW上实现计算或有效的即时计算,性能会有较大提高。n紧密耦合qDM系统平滑的集成到DB/DW系统中。数据挖掘子系统被视为信息挖掘子系统的一部分,数据挖掘查询和功能根据DB或DW系统的挖掘查询分析、数据结构、索引模式和查询处理方法优化。q提供了一个统一的信息处理平台,功能、性能等方面都会达到一个高水平。