数据挖掘报告－金锄头文库

资源描述

《数据挖掘报告》由会员分享，可在线阅读，更多相关《数据挖掘报告（77页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘概述,陈珊珊 C,目录,一数据挖掘概念背景概念典型数据挖掘系统结构数据挖掘的对象二数据仓库和数据挖掘的OLAP技术关系数据数据仓库事务数据库高级数据库系统和高级数据库应用,三数据挖掘技术概念描述关联分析分类和预测聚类分析孤立点分析四数据挖掘在零售业中的应用五数据挖掘的发展趋势六数据挖掘软件的发展,一、数据挖掘概念-原由,有价值的知识,可怕的数据,一、数据挖掘概念-原由,数据爆炸，知识贫乏,苦恼: 淹没在数据中 ; 不能制定合适的决策!,数据,知识,决策,一数据挖掘的概念,1995年，在加拿大蒙特利尔召开了第一届知识发现和数据挖掘国际学术会议，数据挖掘一词被很快流传开来。数

2、据挖掘(DM:Dat Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,典型数据挖掘系统结构,图形用户界面,模式评估,数据挖掘引擎,数据库或数据仓库服务器,数据库,数据仓库,数据清理,数据集成,过滤,知识库,数据挖掘的对象,关系数据库数据仓库事务数据库高级数据库系统和高级数据库应用,二数据仓库和数据挖掘的OLAP技术,数据仓库的概念多维数据模型多维数据模型上的OLAP操作,数据仓库的概念,W.H.Inman: 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理部门的决策过程

3、。面向主题的：数据仓库围绕一些主题，如顾客、供应商、产品和销售组织。集成的：数据仓库将多个异种数据源，如关系数据库、一般文件和联机事务处理记录集成在一起。时变的：数据存储从历史的角度提供信息。非易失的：数据仓库总是物理地分离存放数据；,多维数据模型,最流行的数据仓库数据模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式形式存在。星型模式：数据仓库包括一个事实表，一组维表。事实表包含大批数据且不含冗余。雪花模式：雪花模式是星型模式的变种。雪花模式的维表可能是规范化形式，以便减少冗余。但是执行查询时需要更多连接操作，可能会降低浏览的性能。事实星座模式：对于需要多个事

4、实表共享维表的复杂应用采用事实星座模式。,Sales数据仓库的星型模式,Time维表,item维表,branch维表,location维表,Sale事实表,多维数据模型上的OLAP操作,概念分层：概念分层定义一个映射序列，将低层概念映射到更一般的高层概念。模式分层：是数据库模式属性间的全序或偏序。可以形式地表示属性间的语义联系。如关系模式address,包含属性street,city,province-or-state和country,可用如下全序定义location模式分层结构：streetcityprovince_or_statecountry,all,canada,usa,Britis

5、h columbia,ontario,vancouver,victoria,toronto,ottawa,New york,buffalo,New york,IIIinois,chicago,location,all,country,Province_or_state,city,多维数据模型上的OLAP操作,集合分组分层：将给定属性或维的值组织成常量组或区间组，定义全序或偏序。young,middle_aged,seniorall(age)2039 young4059 middle_aged6089 senior 操作导出的分层：根据用户、专家或数据挖掘系统说明的操作分层。操作可能包括信息编码

6、串的解码，由复杂数据对象提取信息和数据聚类。例:一个e-mail地址www的URL可能包含涉及部门、学校（或公司）和国家的层次信息。可以使用解码操作来提取信息，形成概念分层。dmbookcs.sfu.ca给出偏序login-namedepartmentuniversitycountry,形成了e-mail地址的一个概念分层。,多维数据模型上的OLAP操作,基于规则的分层：由一组规则定义一个概念分层。如下面的规则可将商品分类为low_profit_margin,medium_profit_margin和high_profit_margin。其中，商品x的价格差定义为x的销售价格和实际价格的差。,

7、low_profit_margin(x)price(x,p1) cost(x,p2) (p1p2)250),多维数据模型上的OLAP操作,上卷(roll-up)：通过一个维的概念分层向上攀升或者通过维归约，在数据立方体上进行聚集。下钻(drill-down)：通过沿维的概念分层向下或引入新的未来实现。切片或切块：切片(slice)操作在给定的数据立方体的一个维上进行选择，导致一个子方。切块(dice)操作通过对两个或多个维执行选择，定义子方。转轴(pivot):转动数据的视角，提供数据的替代表示。,三数据挖掘的功能,概念描述：特征化和区分关联分析分类和预测聚类分析孤立点分析演变

8、分析,概念描述：特征化和区分,概念描述是指用汇总的、简洁的、精确的方式描述每个类或概念。数据特征化是目标类数据的一般特征或特征的汇总数据区分是将目标类对象的一般特征与一个或多个对比类对象的一般特征比较,基于汇总的数据特征化,数据立方体(或OLAP)方法: ( 面向数据仓库) 面向属性的归纳方法(AOI): 面向关系数据库查询的、基于概化的、联机的数据分析处理技术。 AOI基本思想：首先使用关系数据库查询收集任务相关的数据：然后考察任务相关数据中的每个属性的不同值的个数，进行概化。概化通过属性删除或属性概化进行。,属性删除：如果初始工作关系的某个属性有大量不同的值，但（1）在此属性上没有概化

9、操作符：在该属性没有定义概念分层），（2）它的高层概念用其他属性表示，则该属性应该从工作关系中删除。属性概化：如果初始工作关系的某个属性有大量不同的值，并且该属性上存在概化操作符，则应该选择该概化操作符，并将它用于该属性。属性概化阈值控制:一般情况下，数据挖掘系统有一个缺省的属性阈值，取值范围为2到8。概化关系阈值控制：这样的阈值也可以在数据挖掘系统中预先设定，一般取值为1030。,例3-1：假定用户想描述big_university数据库中研究生的一般特征。给定属性：name,gender,major,birth_place,birth_date,residence,phone#(电话

10、号码）和gpa(平均等级分)。该特征的数据挖掘查询可以用数据挖掘查询语言DMQL表示如下：use big_university_dbmine characteristics as “science_students”in relevance to name,gender,major,birth_place,birth_date,residence,phone#,gpafrom studentwhere status in “graduate”,转化数据挖掘查询为关系查询。use big_university_dbselect name,gender,major,birth_date,resi

11、dence,phone#,gpafrom studentwhere status in “M.SC.”,”M.A.”,”M.B.A”,”Ph.D”,初始工作关系：任务相关数据的集合,面向属性的归纳过程如下：1)name:该属性存在大量不同值，并且该属性没有概化操作符，该属性被删除。2)gender:由于gender只有两个不同值，该属性保留，并且不对其进行概化。3)major:假定已定义了一个概念分层，允许将属性major概化到值arts&science,engineering,business还假定该属性的概化阈值设置为5，且初始关系中major有20不同值。根据属性概化控制，major沿概

12、念分层向上攀升被概化。,4)birth_place:该属性有大量不同值，因此应当概化它。假定存在birth_place的概念分层，定义为cityprovince_or_statecountry。如果初始工作关系中country的不同值个数大于属性概化阈值，则birth_place应当删除，因为尽管存在概化操作符，概化阈值也不会满足。如果假定country的不同值个数小于概化阈值，则birth_place应概化到birth_country. 5)birth_date:假定存在概念分层，可以将birth_date概化到age_range,并age_range的不同值数小于对应的属性概化阈值，则应当

13、对birth_date进行概化,6)residence:假定residence被属性number,street,residence_city,residence_province_or_state和residence_country定义number和street的不同值多半很多，因为这些概念的层次相当低因此，number和street应当删除，将residence概化到residence_city. 7)phone#:与上面的属性name一样，该属性包含太多不同值，因此应当在概化中删除 8)gpa:假定存在gpa的概念分层，将等级分成数据区间，如3.75-4.0,3.5-3.75,它又按描述值

14、excellent,very good,分组，这样，该属性可以被概化,通过面向属性归纳得到广义关系：,属性相关分析信息增益技术,前提假设：S是训练样本的集合，每个样本的类标号是已知的，每个样本是一个元组，一个属性用于确定训练样本的类例如属性status可以用于定义每个样本的类标号，或是graduate,或是undergraduate.这里假设m个类设S包含 Si个i类样本，i=1,m.一个任意样本属于类i的可能性是si/s,其中s是集合中S中对象的总数,给定样本分类所需的期望信息：(s1,s2,sm)=si/slog2si/sI=1 每个属性的熵：E(A)=(s1j+smj)/s*I(s1j+

15、smj) 每个属性在该划分上获得的信息增益：Gain(A)=I(s1,s2,sm)-E(A) 具有最高信息增益的属性是给定集合中具有最高区分度的属性。,挖掘类比较,假定给定1998和1999年某公司的销售数据，希望比较这两个类。维location具有抽象层：cityprovince_or_statecountry,每个数据类都应该概化到同一抽象层。如city层，这样比较有意义。,类比较过程：数据收集：通过查询处理收集数据库中相关数据集，并将它划分成一个目标类和一个或多个对比类。维相关分析：用前边介绍的信息增益法分析出强相关的维。同步概化：概化在目标类上进行，概化到用户或专家指定的维阈值控

16、制层，产生主目标类关系方体。对比类概念概化到与主目标类关系方体相同的层次，形成主对比类关系方体。导出比较的表示：结果类比较描述可以用表、图、或规则的形式化可视化。,关联分析,数据库中的数据一般都存在着关联关系，也就是说，两个或多个变量的取值之间存在某种规律性。这种关联关系有简单关联和时序关联两种。简单关联，例如；购买面包的顾客中有90%的人同时购买牛奶。时序关联，例如：若AT&T股票连续上涨两天且DEC股票不下跌，则第三天IBM股票上涨的可能性为75%。它在简单关联中增加了时间属性。,同一次去超市，如果顾客购买牛奶，则他也购买面包的可能性有多大？通过了解哪些商品频繁地被顾客同时购买，这些关联规则的发现可以帮助零售商制定营销策略。,购物篮分析,在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，超市也因此发现了一个规律，在购买婴儿尿布的年轻父亲们中，有30%-40%的人同时要买一些啤酒。超市随后调整了货架的摆放，把尿布和啤酒放在一起，明显增加了销售额。同样的，我们还可以根据关联规则在商品销售方面做各种促销活动。,

展开阅读全文