ch14数据仓库与数据挖掘课件

上传人:re****.1 文档编号:568458776 上传时间:2024-07-24 格式:PPT 页数:89 大小:329.50KB
返回 下载 相关 举报
ch14数据仓库与数据挖掘课件_第1页
第1页 / 共89页
ch14数据仓库与数据挖掘课件_第2页
第2页 / 共89页
ch14数据仓库与数据挖掘课件_第3页
第3页 / 共89页
ch14数据仓库与数据挖掘课件_第4页
第4页 / 共89页
ch14数据仓库与数据挖掘课件_第5页
第5页 / 共89页
点击查看更多>>
资源描述

《ch14数据仓库与数据挖掘课件》由会员分享,可在线阅读,更多相关《ch14数据仓库与数据挖掘课件(89页珍藏版)》请在金锄头文库上搜索。

1、第四部分第四部分 新技术篇新技术篇 ch.14数据仓库与数据挖掘数据仓库与数据挖掘 1. 概述概述 2. 数据仓库数据仓库 3 .数据挖掘数据挖掘7/24/20241ch14数据仓库与数据挖掘Ch14. 1.Ch14. 1.概述概述 (1)数据管理的层次结构数据管理的层次结构 (2)数据仓库的产生数据仓库的产生 (3)从数据仓库到数据挖掘从数据仓库到数据挖掘7/24/20242ch14数据仓库与数据挖掘Ch14. 1.Ch14. 1.概述概述(1)数据管理的层次结构数据管理的层次结构下图不同管理层次的三类信息系统:下图不同管理层次的三类信息系统:7/24/20243ch14数据仓库与数据挖掘C

2、h14. 1.Ch14. 1.概述概述事务处理系统(事务处理系统(TPS,Transaction Processing System)对于基层管理对于基层管理人员来说,所要完成的数据管理任务基本上是针对某种业务应用来做单项人员来说,所要完成的数据管理任务基本上是针对某种业务应用来做单项性管理。对这个层次的信息系统来说,一般是掌握基层业务部门的操作信性管理。对这个层次的信息系统来说,一般是掌握基层业务部门的操作信息、运行状态、完成日常管理。本书介绍的关系数据库技术,建立相应的息、运行状态、完成日常管理。本书介绍的关系数据库技术,建立相应的联机事务处理系统(联机事务处理系统(OLTP,Online

3、 Transaction Processing),显然能),显然能很好地完成这项任务。很好地完成这项任务。管理信息系统(管理信息系统(MIS,Management Information System)对于中层管对于中层管理人员来说,所要完成的数据管理任务是起承上启下的作用,一方面要综理人员来说,所要完成的数据管理任务是起承上启下的作用,一方面要综合有关基层部门的有关信息,另一方面要向高层领导提供相关决策信息,合有关基层部门的有关信息,另一方面要向高层领导提供相关决策信息,并落实高层领导提出的全局性总目标。本书介绍的关系数据库技术,基于并落实高层领导提出的全局性总目标。本书介绍的关系数据库技术

4、,基于OLTP建立的信息系统,信息内容适合综合化处理,也可以较好地完成任务。建立的信息系统,信息内容适合综合化处理,也可以较好地完成任务。决策支持系统(决策支持系统(DSS,Decision Support System)对于高层领导人员来对于高层领导人员来说,主要的任务是制定企事业单位的总目标并提出落实总目标的方针与预说,主要的任务是制定企事业单位的总目标并提出落实总目标的方针与预算。在这一层次,数据管理的任务重要应是对数据的决策分析。目前,数算。在这一层次,数据管理的任务重要应是对数据的决策分析。目前,数据都是据都是DBMS统一管理,企事业单位都相应建立起了操作型数据库。以下统一管理,企事

5、业单位都相应建立起了操作型数据库。以下我们看到,在这种操作型数据库基础上,想要构建我们看到,在这种操作型数据库基础上,想要构建DSS,有很大困难,是,有很大困难,是不适合的。在这种背景下,数据仓库(不适合的。在这种背景下,数据仓库(Data Warehouse)技术应运而生。)技术应运而生。7/24/20244ch14数据仓库与数据挖掘Ch14. 1.Ch14. 1.概述概述(2)数据仓库的产生数据仓库的产生数据管理对于高层管理人员,主要是进行决策分析。从决策分析的要求看,传统的操作数据管理对于高层管理人员,主要是进行决策分析。从决策分析的要求看,传统的操作型数据库,所建立型数据库,所建立OL

6、TP系统是很不合适的。为什么呢?可从决策分析所需要数据有系统是很不合适的。为什么呢?可从决策分析所需要数据有以下几个方面的特征来看:以下几个方面的特征来看:面向主题面向主题:决策分析都是围绕一些主题而展开的,如销售企业,围绕顾客、供应商、产:决策分析都是围绕一些主题而展开的,如销售企业,围绕顾客、供应商、产品、销售组织等主题,关注决策者关注的数据建模与分析,而不把注意力放在机构品、销售组织等主题,关注决策者关注的数据建模与分析,而不把注意力放在机构的日常操作和事务处理。对于决策分析的主题来说,所需的数据多为总结性数据,的日常操作和事务处理。对于决策分析的主题来说,所需的数据多为总结性数据,而不

7、一定需要操作型数据库大量存放的细节数据。这也正解释高层管理人员对现行而不一定需要操作型数据库大量存放的细节数据。这也正解释高层管理人员对现行数据管理的一种批评数据管理的一种批评“数据丰富,信息贫乏数据丰富,信息贫乏”。集成的集成的:决策分析所需数据将是多种异构数据源,不但需要本单位的数据,也需要有关:决策分析所需数据将是多种异构数据源,不但需要本单位的数据,也需要有关的其他单位的数据。这些数据有些来自各类数据库,有些来自文件,也有些来自的其他单位的数据。这些数据有些来自各类数据库,有些来自文件,也有些来自Internet网获取的网获取的HTML文件。所需的数据是多种异构数据源的集成。文件。所需

8、的数据是多种异构数据源的集成。时变的时变的:决策分析不但需要反映当前情况的数据(如:决策分析不但需要反映当前情况的数据(如23个月),还需要历史数据(通个月),还需要历史数据(通常是常是510年),以便分析变化趋势,进行决策。由于数据须在时间维上展开,数据年),以便分析变化趋势,进行决策。由于数据须在时间维上展开,数据量将是非常巨大的。量将是非常巨大的。非易失的非易失的:决策分析所需的数据不一定需要及时更新,通常只需两种访问方式:数据的:决策分析所需的数据不一定需要及时更新,通常只需两种访问方式:数据的初始化装入和以读为主的访问。初始化装入和以读为主的访问。在这样的背景下,在这样的背景下,数据

9、仓库技术应运而生数据仓库技术应运而生。 7/24/20245ch14数据仓库与数据挖掘Ch14. 1.Ch14. 1.概述概述20世纪世纪80年代中期,提出了数据仓库的概念。到底什么是数据仓库?年代中期,提出了数据仓库的概念。到底什么是数据仓库?可以有多种方式定义,很难提出一个严格的定义。现在通常采用被可以有多种方式定义,很难提出一个严格的定义。现在通常采用被称为数据仓库之父的称为数据仓库之父的W.H. Inmon的说法作为的说法作为定义定义:“数据仓库是一数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过

10、程门的决策过程”。(3)从数据仓库到数据挖掘从数据仓库到数据挖掘对于构建的数据仓库,如何使用?数据仓库系统的用户界面包括的若干决策工对于构建的数据仓库,如何使用?数据仓库系统的用户界面包括的若干决策工具和接口,其中一个重要的技术就是数据挖掘(具和接口,其中一个重要的技术就是数据挖掘(Data Mining,简称维,简称维DM,也称为知识发现,也称为知识发现KDD,Knowledge Discovery in DB and DW)。)。7/24/20246ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库(1)概述概述(2)数据仓库的建立数据仓库的建立数据模型、数据模

11、数据模型、数据模式式 (3)OLAP技术技术7/24/20247ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库(1)概述概述1)数据仓库的定义数据仓库的定义现对数据仓库定义中的现对数据仓库定义中的4个特性作进一步解释个特性作进一步解释:主题性:传统的操作型数据库系统都是围绕某一企事业单位的应用来组织数据主题性:传统的操作型数据库系统都是围绕某一企事业单位的应用来组织数据的,而数据仓库系统则是用于决策分析,要面向主题来组织数据。下图表的,而数据仓库系统则是用于决策分析,要面向主题来组织数据。下图表示数据组织围绕保险公司面向主题的一个例子。示数据组织围绕保险公司面向

12、主题的一个例子。 7/24/20248ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库集成性:面向应用的操作型数据库系统,对不同应用有不同的表示方法,而当集成性:面向应用的操作型数据库系统,对不同应用有不同的表示方法,而当数据进入数据仓库时,必须消除各种应用问题的许多不一致性。如图示例数据进入数据仓库时,必须消除各种应用问题的许多不一致性。如图示例说明数据仓库的集成问题。说明数据仓库的集成问题。7/24/20249ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库时变性:操作型数据库一般的数据时间期限是时变性:操作型数据库一般的数据时间

13、期限是6090天,而数据仓库通常要存天,而数据仓库通常要存放放510年的数据;操作型数据库含有年的数据;操作型数据库含有“当前值当前值”的数据,其准确性在访问的数据,其准确性在访问时是有效的,但此当前值数据能被更新。而数据仓库中的数据仅仅是一系时是有效的,但此当前值数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照;操作型数据库的基本结构中可能包含也可列某一时刻生成的复杂的快照;操作型数据库的基本结构中可能包含也可能不包含时间元素,如年、月、日等。而数据仓库中的基本数据结构总是能不包含时间元素,如年、月、日等。而数据仓库中的基本数据结构总是包含某种时间元素。图示例说明数据随时

14、间变化的问题。包含某种时间元素。图示例说明数据随时间变化的问题。7/24/202410ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库非易失性:对于传统的操作型数据库通常是一次访问或处理一到若干个记录,非易失性:对于传统的操作型数据库通常是一次访问或处理一到若干个记录,可随时对数据进行更新;但数据仓库中的数据具有非常不同的特性:其数可随时对数据进行更新;但数据仓库中的数据具有非常不同的特性:其数据仓库不进行一般意义下的数据更新。图表示数据的非易失性问题。据仓库不进行一般意义下的数据更新。图表示数据的非易失性问题。7/24/202411ch14数据仓库与数据挖掘Ch

15、14. 2. Ch14. 2. 数据仓库数据仓库2)DBS与与DWSDBS是我们前面详细讲过的一种数据管理系统,第一部分就概述了系统组成结是我们前面详细讲过的一种数据管理系统,第一部分就概述了系统组成结构的三大部分:数据库、数据管理系统和用户界面。联机操作型数据库系构的三大部分:数据库、数据管理系统和用户界面。联机操作型数据库系统主要任务是执行联机事务和查询处理,所以,这种系统也称为联机事务统主要任务是执行联机事务和查询处理,所以,这种系统也称为联机事务处理系统(处理系统(OLTP,Online Transaction Processing)。)。数据仓库是在数据库基础上产生的一种数据集合,用

16、于数据管理中的决策分析。数据仓库是在数据库基础上产生的一种数据集合,用于数据管理中的决策分析。对数据仓库而言,自然也有数据库系统概念,是管理、使用数据仓库的一对数据仓库而言,自然也有数据库系统概念,是管理、使用数据仓库的一种数据管理系统。它的系统组成体系机构可用图表示。种数据管理系统。它的系统组成体系机构可用图表示。7/24/202412ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库(2)数据仓库的建立数据仓库的建立数据模型、数据模式数据模型、数据模式1)数据仓库模型)数据仓库模型正像建立数据库的重点是研究数据模型、数据模式一样,对于数据仓库来说,正像建立数据库

17、的重点是研究数据模型、数据模式一样,对于数据仓库来说,有必要深入理解两个概念有必要深入理解两个概念数据模型与数据模式。数据模型与数据模式。数据仓库一般来说是基于多维数据模型(数据仓库一般来说是基于多维数据模型(Multi-Dimension Data Model)。)。该模型将数据看作数据立方体(该模型将数据看作数据立方体(Data Cube)形式。)形式。现举例说明数据立方体的概念。下图是销售数据的数据立方体示例。现举例说明数据立方体的概念。下图是销售数据的数据立方体示例。 7/24/202413ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库所有的销售数据组织

18、成立方体形式,以多维形式对数据建模和观察,它由维和所有的销售数据组织成立方体形式,以多维形式对数据建模和观察,它由维和事实定义。事实定义。维维是关于一个企事业想要记录的数据方面,如示例中列出的商店时是关于一个企事业想要记录的数据方面,如示例中列出的商店时间商品就是设计的间商品就是设计的3个维,每一个维都有一个维表与之相连,进一步描述个维,每一个维都有一个维表与之相连,进一步描述这个维。例如,商店的维表可以包含属性:商店名、地址、电话、经理等。这个维。例如,商店的维表可以包含属性:商店名、地址、电话、经理等。事实事实多维数据模型都是围绕主题来组织的,该主题就用事实表表示。多维数据模型都是围绕主题

19、来组织的,该主题就用事实表表示。事实是用数值度量的。例如,上面例子围绕销售主题建立数据仓库的事实,事实是用数值度量的。例如,上面例子围绕销售主题建立数据仓库的事实,事实表包括相关维表的关键字、销售量、销售金额等。事实表包括相关维表的关键字、销售量、销售金额等。立方体比较直观,便于图示。但在数据仓库中,数据立方体的多维,当然立方体比较直观,便于图示。但在数据仓库中,数据立方体的多维,当然不是局限于不是局限于3维,可以是维,可以是n维的。维的。7/24/202414ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库2)数据模式)数据模式采用数据模型来描述某一具体企事业单

20、位的数据仓库数据,就引入了另一个概采用数据模型来描述某一具体企事业单位的数据仓库数据,就引入了另一个概念念数据模式。数据模式。多维数据模型,具体的维表与事实表如何组织描述,可以有多种不同形式。常多维数据模型,具体的维表与事实表如何组织描述,可以有多种不同形式。常见的形式有:星型、雪花型以及事实星座型。见的形式有:星型、雪花型以及事实星座型。现仍以销售数据仓库为例。图现仍以销售数据仓库为例。图14-8,14-9,14-10分别示例说明三种数据模式。分别示例说明三种数据模式。图图14-8 销售数据星型模式:销售数据星型模式:7/24/202415ch14数据仓库与数据挖掘Ch14. 2. Ch14

21、. 2. 数据仓库数据仓库图图14-9 销售数据雪花模式:销售数据雪花模式:7/24/202416ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库图图14-10 销售与货运事实星座模式:销售与货运事实星座模式:7/24/202417ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库在上述数据建模中,对数据立方体再介绍以下概念。在上述数据建模中,对数据立方体再介绍以下概念。度量(度量(Measure)的分类与计算)的分类与计算数据立方体的度量是一个数值函数,指的是对数据数据立方体的度量是一个数值函数,指的是对数据立方体的每一个点所求的值。

22、数据立方体空间的多维点,可由维值对来定义,例立方体的每一个点所求的值。数据立方体空间的多维点,可由维值对来定义,例如某一空间点上,时间如某一空间点上,时间“1季度季度”,商品,商品“PC机机”,商店,商店“No.1”,通过对给,通过对给定点的各维值对来聚集数据,即计算该点的度量值。度量可以根据所用的聚集函定点的各维值对来聚集数据,即计算该点的度量值。度量可以根据所用的聚集函数而分成三类:数而分成三类:分配型:假设数据划分为分配型:假设数据划分为n个集合,函数在每一部分上计算得到一个聚集值。如果将函个集合,函数在每一部分上计算得到一个聚集值。如果将函数用于数用于n个聚集值得到的结果,与将函数用于

23、所有数据得到的数据一样,则该函数就个聚集值得到的结果,与将函数用于所有数据得到的数据一样,则该函数就是一种分配型的计算。例如:计算是一种分配型的计算。例如:计算Count()可以这样计算,先将数据立方体分割为()可以这样计算,先将数据立方体分割为若干个子立方体的集合,对每个子立方体计算若干个子立方体的集合,对每个子立方体计算Count(),然后求和。这样,(),然后求和。这样,Count()就是分配型的聚集函数。同理,()就是分配型的聚集函数。同理,Sum(),(),Min(),(),Max()也是分配型聚集()也是分配型聚集函数。函数。代数型:如果能够由一个具有代数型:如果能够由一个具有M个

24、参数的代数函数计算(其中个参数的代数函数计算(其中M是一个有界整数),是一个有界整数),而每个参数都可由一个分配型聚集函数求得,则称这种计算是代数型的。例如,而每个参数都可由一个分配型聚集函数求得,则称这种计算是代数型的。例如,Avg()可由()可由Sum()()/Count()计算,其中()计算,其中Sum()与()与Count()都是分配型聚集函()都是分配型聚集函数。类似地,数。类似地,min_N(),(),max_N()等也都是代数型聚集函数。()等也都是代数型聚集函数。整体型:整体型聚集函数既不满足分配型,也不满足代数型,例如取中位数(一组数整体型:整体型聚集函数既不满足分配型,也不

25、满足代数型,例如取中位数(一组数的位数数是指数据按大小排序后,取居中的一个数,若有偶数个数,则取居中两数的位数数是指数据按大小排序后,取居中的一个数,若有偶数个数,则取居中两数的平均值)就是一个整体型聚集函数。的平均值)就是一个整体型聚集函数。概念分层概念分层数据模式中有一个概念分层的问题,概念分层是一个映射序列,对于数据数据模式中有一个概念分层的问题,概念分层是一个映射序列,对于数据模式来说,隐含有概念分层的问题,例如,商品维表中的小类模式来说,隐含有概念分层的问题,例如,商品维表中的小类大类,商店维表中的大类,商店维表中的市名市名省名,如期维表中的日省名,如期维表中的日月月季度季度年。数据

26、模式中的概念分层,为数据管理年。数据模式中的概念分层,为数据管理的分析综合提供了方便。的分析综合提供了方便。7/24/202418ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库3)构建数据仓库的步骤构建数据仓库的步骤与数据库系统中数据库设计过程相类似,数据仓库的构建要按一定的步骤进行,与数据库系统中数据库设计过程相类似,数据仓库的构建要按一定的步骤进行,构建数据仓库一般有两个主要步骤:构建数据仓库一般有两个主要步骤:数据准备阶段;数据准备阶段;数据仓库模式设数据仓库模式设计阶段。计阶段。数据准备阶段数据准备阶段:主要是主要是ETL(抽取、转换、装载),数据抽取是

27、指从异构多(抽取、转换、装载),数据抽取是指从异构多数据源中围绕主题选取相关的数据,并要对这些数据进行清理,消除噪声数据源中围绕主题选取相关的数据,并要对这些数据进行清理,消除噪声和不一致数据,并完成集成过程中的转换,使数据具有集成性,表示方式和不一致数据,并完成集成过程中的转换,使数据具有集成性,表示方式一致,并转换为适合聚集操作的有关形式。经过数据转换阶段的工作,才一致,并转换为适合聚集操作的有关形式。经过数据转换阶段的工作,才能将数据源装载到数据仓库中。能将数据源装载到数据仓库中。数据仓库模式设计阶段数据仓库模式设计阶段:面对实际应用问题,如何面向主题进行数据仓库设面对实际应用问题,如何

28、面向主题进行数据仓库设计计(采用多维数据模型设计星型、雪花等数据模式)是一个用户、数据仓库采用多维数据模型设计星型、雪花等数据模式)是一个用户、数据仓库技术人员共同合作要完成的一个重要工作,有较大的难度。技术人员共同合作要完成的一个重要工作,有较大的难度。7/24/202419ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库设计方法通常有三种:自顶向下(设计方法通常有三种:自顶向下(Top-Down),自底向上(),自底向上(Bottom-Up),),混合方法。混合方法。自顶向下方法自顶向下方法由总体规划与设计开始,当对必须解决的业务应用问题比较由总体规划与设计开

29、始,当对必须解决的业务应用问题比较清楚,已掌握成熟的技术,可采用这种方法。首先,建立企业级的数据仓清楚,已掌握成熟的技术,可采用这种方法。首先,建立企业级的数据仓库:对已所要抽取的操作型数据库细工和其它数据,使用集中模式,一次库:对已所要抽取的操作型数据库细工和其它数据,使用集中模式,一次数据重构,将冗余与不一致尽量减少,构建全局性的企业数据仓库;然后,数据重构,将冗余与不一致尽量减少,构建全局性的企业数据仓库;然后,围绕部门主题,建立数据集市(围绕部门主题,建立数据集市(Data Mart)。)。自底向上方法自底向上方法从实验与原型开始,先建部门数据集市,然后扩大到企业数从实验与原型开始,先

30、建部门数据集市,然后扩大到企业数据仓库。首先,局限在一定的主题范围,本部门自治设计,建立部门局部据仓库。首先,局限在一定的主题范围,本部门自治设计,建立部门局部的数据集市;然后,在若干个数据集市建成后,去除冗余与不一致性,将的数据集市;然后,在若干个数据集市建成后,去除冗余与不一致性,将创建企业数据仓库作为首期目标。创建企业数据仓库作为首期目标。混合方法混合方法可以认为是上面两种方法的混合,既能利用自顶向下方法有计划可以认为是上面两种方法的混合,既能利用自顶向下方法有计划的战略性特点,由能保持自底向上方法快速实现与较快应用的优点。的战略性特点,由能保持自底向上方法快速实现与较快应用的优点。7/

31、24/202420ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库(3)OLAP技术技术1)概述)概述2)多维分析技术)多维分析技术3)OLAP操作语言操作语言1)概述)概述OLAP的由来的由来传统的关系数据库应用系统,是一种面向操作型数据的环境,传统的关系数据库应用系统,是一种面向操作型数据的环境,处理对象是确定的业务数据,目的是解决特定业务处理问题。例如,典型处理对象是确定的业务数据,目的是解决特定业务处理问题。例如,典型计费系统、航班售票系统等。这种系统的数据时效性强,需及时更新数据,计费系统、航班售票系统等。这种系统的数据时效性强,需及时更新数据,而大量的

32、历史数据不得不保存到脱机的存储介质中去。那么,如何利用这而大量的历史数据不得不保存到脱机的存储介质中去。那么,如何利用这些海量数据,完成面向决策分析的任务,传统的些海量数据,完成面向决策分析的任务,传统的OLTP就难以胜任。这样,就难以胜任。这样,OLAP就应运而生,正如数据仓库之父就应运而生,正如数据仓库之父W.H.Inmon所讲的,所讲的,“现在该是把现在该是把哪些历史数据搬出来的时候了。哪些历史数据搬出来的时候了。”联机分析处理(联机分析处理(OLAP)的概念,最早是)的概念,最早是由关系数据库系统奠基人由关系数据库系统奠基人E.F.Codd在在1993年提出的。当时,年提出的。当时,C

33、odd认为认为OLTP已不能满足终端用户对数据库查询分析的需求,已不能满足终端用户对数据库查询分析的需求,SQL的简单查询不能的简单查询不能满足用户的分析需求。终端用户的决策分析,需要对大量数据经过计算而满足用户的分析需求。终端用户的决策分析,需要对大量数据经过计算而得到决策,得到决策,Codd提出了多维数据模型的多维分析的概念,即出现了提出了多维数据模型的多维分析的概念,即出现了OLAP技术的概念。技术的概念。7/24/202421ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库OLAP的定义的定义OLAP是一种基于数据集合(数据仓库或数据库)是一种基于数据集合

34、(数据仓库或数据库)的面向分析处理的技术。采用的面向分析处理的技术。采用OLAP技术,用户能灵活操纵某企事技术,用户能灵活操纵某企事业单位的数据,以多维数据模型的形式,从多方面、多角度来观察业单位的数据,以多维数据模型的形式,从多方面、多角度来观察数据的状态,从而为决策分析提供有力支持。数据的状态,从而为决策分析提供有力支持。OLAP、OLTP的比较的比较OLTP基于关系操作型数据库,基于关系操作型数据库,OLAP基于基于数据仓库,重点在于数据分析与决策,是对共享多维数据的决策分数据仓库,重点在于数据分析与决策,是对共享多维数据的决策分析。析。OLTP与与OLAP的比较,可用表的比较,可用表1

35、4-1以展示。以展示。 7/24/202422ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库表表14-1 OLTP与与OLAP的比较的比较 OLTP OLAP 用户用户操作人员,底层管理人员操作人员,底层管理人员 决策和高层管理人员决策和高层管理人员 功能功能 日常操作处理日常操作处理 分析决策分析决策 设计原则设计原则 面向应用面向应用 面向主题面向主题 数据数据 当前的,细节的,二维的,当前的,细节的,二维的,分立的分立的 历史的,聚集的,多维的,集历史的,聚集的,多维的,集成的成的 存取存取读读/写数十条记录写数十条记录 读上百万条记录读上百万条记录工作单

36、位工作单位 短的简单事务短的简单事务 长的复杂事务长的复杂事务 用户数用户数 成千上万个成千上万个 上百个上百个 数据规模数据规模 100MBGB 100GBTB 7/24/202423ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库OLAP系统的特征系统的特征快速性:快速性:OLAP系统采用专门的存储形式,经过大量的预计算,虽然系统采用专门的存储形式,经过大量的预计算,虽然操作涉及复杂的事务,但分析过程仍具有快速性特点;操作涉及复杂的事务,但分析过程仍具有快速性特点;可分析性:系统处理的问题与有关的逻辑和统计分析,不是一般的可分析性:系统处理的问题与有关的逻辑和

37、统计分析,不是一般的简单计算;简单计算;共享性:潜在地共享有关数据;共享性:潜在地共享有关数据;多维性:这是多维性:这是OLAP的关键特性,可从不同难度进行计算;的关键特性,可从不同难度进行计算;信息性:这是信息性:这是OLAP的目的所在,完成数据的信息解释。的目的所在,完成数据的信息解释。7/24/202424ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库2)多维分析技术)多维分析技术OLAP多维分析技术建立在多维数据模型的基础上,涉及的重要概念列多维分析技术建立在多维数据模型的基础上,涉及的重要概念列举如下:举如下:维维是人们观察数据的特定角度,是考虑问题时

38、的一类属性,属性是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(如:时间维、地理维等)。集合构成一个维(如:时间维、地理维等)。维的层次维的层次人们观察数据的某个特定角度(即某个维)还可以表示人们观察数据的某个特定角度(即某个维)还可以表示细节程度不同的各个描述方面(如:时间维细节程度不同的各个描述方面(如:时间维分别是日期、月份、分别是日期、月份、季度、年)。季度、年)。维的成员维的成员维的一个取值,是数据项在某维中位置的描述(如:维的一个取值,是数据项在某维中位置的描述(如:“某年某月某日某年某月某日”是在时间维上某一位置的描述)。是在时间维上某一位置的描述)。度量度

39、量用户浏览多维数据集时查看的数值,是用来评测分析的一种用户浏览多维数据集时查看的数值,是用来评测分析的一种指标值。如:社会保险系统中的基金收缴金额、养老金拨付金额,指标值。如:社会保险系统中的基金收缴金额、养老金拨付金额,就是一种度量值。就是一种度量值。立方体立方体多维数据集合,是分析的一个主题,由多个维和若干度量多维数据集合,是分析的一个主题,由多个维和若干度量值构建并汇总而成的多维数据结构集合,是值构建并汇总而成的多维数据结构集合,是OLAP的分析对象。的分析对象。7/24/202425ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库OLAP系统基本操作系统基

40、本操作 :切片和切块(切片和切块(Slice,Dice)在多维数据立方体中,按二维在多维数据立方体中,按二维进行切片,按三维进行切块,可得到所需的某部分数据。如进行切片,按三维进行切块,可得到所需的某部分数据。如图图14-11就表示社会保险数据在地理、时间、单位分类进行就表示社会保险数据在地理、时间、单位分类进行切块和切片的数据。切块和切片的数据。图图14-11 社会保险数据立方体的切片、切块示例:社会保险数据立方体的切片、切块示例:7/24/202426ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库钻取(钻取(Drill)钻取包含向下钻取(钻取包含向下钻取(D

41、rill-down)和向上钻取()和向上钻取(Drill-up)/上卷(上卷(Roll-up)操作,在操作中钻取的深度与维所划分的层次是相对的。)操作,在操作中钻取的深度与维所划分的层次是相对的。图图14-12表示社会保险数据立方体按单位维向下表示社会保险数据立方体按单位维向下/向上钻取的数据示例。向上钻取的数据示例。7/24/202427ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库旋转(旋转(Rotate)/转轴(转轴(Pivot)通过旋转(也称为转轴),可以通过旋转(也称为转轴),可以得到不同视角的数据。得到不同视角的数据。图图14-13表示社会保险数据立

42、方体的旋转操作表示社会保险数据立方体的旋转操作示例。示例。7/24/202428ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库3)OLAP操作语言操作语言传统关系数据库系统的操作语言是传统关系数据库系统的操作语言是SQL,那么对多维数据立方体的,那么对多维数据立方体的OLAP操作操作语言是什么呢?这方面的标准化还有待进一步工作,这里以微软提供的语言是什么呢?这方面的标准化还有待进一步工作,这里以微软提供的MDX语言为例进行介绍。语言为例进行介绍。MDX语言概述语言概述:MDX(Multidimensional Expression)是一种支持多维数据立方体定义和

43、操)是一种支持多维数据立方体定义和操作的语言,由微软公司提供。作的语言,由微软公司提供。MDX在语法的很多方面与在语法的很多方面与SQL相似,但不能相似,但不能算是算是SQL语言的扩展。语言的扩展。MDX提供数据结构定义的提供数据结构定义的DQL语法,用于创建(和语法,用于创建(和删除)多维数据集、维度、度量值以及它们的坐标对象的删除)多维数据集、维度、度量值以及它们的坐标对象的MDX命令。命令。MDX提供多维立方体操作的查询语句,包含了与提供多维立方体操作的查询语句,包含了与SQL类似的类似的Select、From、Where子句,子句,MDX还提供了函数等,增强了操作能力。还提供了函数等,

44、增强了操作能力。基本的基本的MDX查询是:查询是: Select , From Where , SQL语言是从表返回一个仍是表的二维数据集,而语言是从表返回一个仍是表的二维数据集,而MDX是从多维数据是从多维数据集返回多维数据子集。集返回多维数据子集。7/24/202429ch14数据仓库与数据挖掘Ch14. 2. Ch14. 2. 数据仓库数据仓库现以社会保险系统中的应用为例加以说明。现以社会保险系统中的应用为例加以说明。 Select 地理地理.西安西安.市本级市本级, 地理地理.西安西安.雁塔区雁塔区 ON COLUMNS,时间时间.2001年年, 时间时间.2002年年 ON ROWS

45、 From 基金收缴基金收缴 Where (单位单位.事业事业, 收缴类型收缴类型.正常缴纳正常缴纳)即可得到如下结果。即可得到如下结果。7/24/202430ch14数据仓库与数据挖掘Ch14. 3.Ch14. 3.数据挖掘数据挖掘(1)概述概述(2)数据挖掘的过程数据挖掘的过程(3)数据挖掘的基本方法数据挖掘的基本方法(4)复杂数据类型的挖掘复杂数据类型的挖掘7/24/202431ch14数据仓库与数据挖掘Ch14.3. (1)Ch14.3. (1)概述概述(1)概述概述:1)数据挖掘技术的产生数据挖掘技术的产生; 2)数据挖掘的定义数据挖掘的定义.1)数据挖掘技术的产生数据挖掘技术的产生

46、:从数据库技术的发展过程看,从数据库技术的发展过程看,20世纪世纪80年代以来,数据库系统在各行各业广泛年代以来,数据库系统在各行各业广泛应用,全球的信息量每隔应用,全球的信息量每隔20个月就要增加一倍。一个中等规模的企业每天个月就要增加一倍。一个中等规模的企业每天要产生要产生100MB以上的业务数据,据统计,以上的业务数据,据统计,1993年全球的计算机数据存储容年全球的计算机数据存储容量约为量约为2000TB,到,到2000年增加到年增加到300万万TB。但是,据估计,目前一个大型。但是,据估计,目前一个大型企事业单位的数据,大约只有企事业单位的数据,大约只有7得到较好地应用,对于数据管理

47、来说,陷得到较好地应用,对于数据管理来说,陷入了一个尴尬境地入了一个尴尬境地“数据丰富,信息(知识)贫乏数据丰富,信息(知识)贫乏”。数据管理用于决策分析的技术应运而生:一方面数据仓库技术的提出与发展,数据管理用于决策分析的技术应运而生:一方面数据仓库技术的提出与发展,另一方面数据挖掘技术的产生。另一方面数据挖掘技术的产生。先看一个例子:啤酒与尿布的故事先看一个例子:啤酒与尿布的故事美国加州某超市连锁店通过对存储的销美国加州某超市连锁店通过对存储的销售数据采用数据挖掘技术分析发现:下班前后或周末购买婴儿尿布的顾客售数据采用数据挖掘技术分析发现:下班前后或周末购买婴儿尿布的顾客较多为男性,往往同

48、时购买啤酒,两类互不相干的商品有一定的关联。于较多为男性,往往同时购买啤酒,两类互不相干的商品有一定的关联。于是,连锁店经理当机立断,重新布置货架,将男士们需要的日常生活用品是,连锁店经理当机立断,重新布置货架,将男士们需要的日常生活用品就近布置,取得了有关商品销量大增的骄人业绩。就近布置,取得了有关商品销量大增的骄人业绩。 80年代以来,人们逐渐关注这方面的研究,其它数据挖掘的例子也就层出不穷年代以来,人们逐渐关注这方面的研究,其它数据挖掘的例子也就层出不穷 .正像数据库技术的发展一样,开始时是一个一个行业的建立使用,逐步铺正像数据库技术的发展一样,开始时是一个一个行业的建立使用,逐步铺开。

49、数据挖掘技术,目前虽没有数据库技术这样家喻户晓,但经过多年的开。数据挖掘技术,目前虽没有数据库技术这样家喻户晓,但经过多年的发展,应用领域也已是一个热门领域,应用面已相当广泛。发展,应用领域也已是一个热门领域,应用面已相当广泛。7/24/202432ch14数据仓库与数据挖掘Ch14.3. (1)Ch14.3. (1)概述概述2)数据挖掘的定义数据挖掘的定义较为广泛接受的数据挖掘定义是:提取隐含于数据集合(数据库、数较为广泛接受的数据挖掘定义是:提取隐含于数据集合(数据库、数据仓库或其它数据集合)中未知的、有用的、不一般的(即不象据仓库或其它数据集合)中未知的、有用的、不一般的(即不象OLAP

50、中那样计算总和、平均值子类的普通信息)信息或知识。数中那样计算总和、平均值子类的普通信息)信息或知识。数据挖掘,也有另外一种说法:数据库中的知识发现据挖掘,也有另外一种说法:数据库中的知识发现KDD(Knowledge Discovery in Database)或知识提取)或知识提取(Knowledge Extraction),数据),数据/模式分析(模式分析(Data/Pattern Analysis),也有人认为数据挖掘),也有人认为数据挖掘DM是是KDD的一个步骤,特别在的一个步骤,特别在讨论实现过程时,往往认为讨论实现过程时,往往认为KDD是较广泛的过程,而是较广泛的过程,而DM是其

51、中的是其中的一个步骤。一个步骤。从数据库技术看,在逻辑上从大量数据中提取规则,数据挖掘采用的从数据库技术看,在逻辑上从大量数据中提取规则,数据挖掘采用的是是归纳推理的方法归纳推理的方法。而根据大量数据,采用归纳方法,推断出一般。而根据大量数据,采用归纳方法,推断出一般化的规则、规律,也就是形成信息或知识。从更广泛的角度来看,化的规则、规律,也就是形成信息或知识。从更广泛的角度来看,数据挖掘是一门跨学科的技术数据挖掘是一门跨学科的技术,综合采用了统计学、数据库技术、,综合采用了统计学、数据库技术、机器学习、模式识别、人工智能、可视化技术,很难严格区分数据机器学习、模式识别、人工智能、可视化技术,

52、很难严格区分数据挖掘与这些学科之间的界限。挖掘与这些学科之间的界限。7/24/202433ch14数据仓库与数据挖掘Ch14.3. (2)Ch14.3. (2)数据挖掘的过程数据挖掘的过程(2)数据挖掘的过程数据挖掘的过程:1)知识发现知识发现KDD的全过程的全过程 2)数据挖掘(数据挖掘(Data Mining,DM)过程)过程1)知识发现知识发现KDD的全过程的全过程7/24/202434ch14数据仓库与数据挖掘Ch14.3. (2)Ch14.3. (2)数据挖掘的过程数据挖掘的过程2)数据挖掘(数据挖掘(Data Mining,DM)过程)过程数据挖掘作为整个知识发现(数据挖掘作为整个

53、知识发现(KDD)的一个重要步骤,起着关键作用。有时,)的一个重要步骤,起着关键作用。有时,当单独将数据挖掘过程抽出来阐述时,也经常把当单独将数据挖掘过程抽出来阐述时,也经常把KDD过程与过程与DM过程不加区过程不加区分,正像提到分,正像提到KDD概念、概念、DM概念时也不加区分。概念时也不加区分。数据挖掘过程,可用下图来表示。某种意义上看,也是知识发现的全过程,其数据挖掘过程,可用下图来表示。某种意义上看,也是知识发现的全过程,其中的模式(中的模式(Pattern)发现)发现数据挖掘的关键步骤,相当于上面数据挖掘的关键步骤,相当于上面KDD过程过程中的数据挖掘。中的数据挖掘。7/24/202

54、435ch14数据仓库与数据挖掘Ch14.3. (2)Ch14.3. (2)数据挖掘的过程数据挖掘的过程数据选择数据选择:数据挖掘正像采矿一样,先要通过地质普查找到矿藏所在源,这:数据挖掘正像采矿一样,先要通过地质普查找到矿藏所在源,这里就是提出挖掘的目标,也就是选择好限定的主题,来选择相关的数据。里就是提出挖掘的目标,也就是选择好限定的主题,来选择相关的数据。例如,目标是优化销售策略,那么,根据这样的目标,围绕此主题选取与例如,目标是优化销售策略,那么,根据这样的目标,围绕此主题选取与销售相关的数据记录作为数据挖掘的对象。销售相关的数据记录作为数据挖掘的对象。数据预处理数据预处理:对于选择好

55、的数据,必须经过预处理提高数据质量,才能使得:对于选择好的数据,必须经过预处理提高数据质量,才能使得数据挖掘更加有效。因为不经预处理的数据,往往垃圾数据比较多,数据数据挖掘更加有效。因为不经预处理的数据,往往垃圾数据比较多,数据的决策分析是一种典型的的决策分析是一种典型的“垃圾进垃圾出垃圾进垃圾出”的过程,数据预处理对数据挖的过程,数据预处理对数据挖掘的结果有重要的影响。数据预处理技术主要包括:数据清理、数据集成、掘的结果有重要的影响。数据预处理技术主要包括:数据清理、数据集成、数据变换和数据归约。数据变换和数据归约。模式(模式(Pattern)发现)发现:这是数据挖掘的关键一步。蕴涵在数据中

56、的规律、:这是数据挖掘的关键一步。蕴涵在数据中的规律、规则或特征,也就是通常所说的知识,表现在数据的某种模式上,发现数规则或特征,也就是通常所说的知识,表现在数据的某种模式上,发现数据模式关键是人机交互地选择算法,这一步是数据挖掘中的核心内容,下据模式关键是人机交互地选择算法,这一步是数据挖掘中的核心内容,下面我们将单列一节介绍数据挖掘的基本内容与方法。面我们将单列一节介绍数据挖掘的基本内容与方法。解释评估解释评估:通过模式发现算法可以得到较多的模式。对于给定的用户,是否:通过模式发现算法可以得到较多的模式。对于给定的用户,是否对所有模式都感兴趣,答案是否定的。所以,数据挖掘过程的最后一步,对

57、所有模式都感兴趣,答案是否定的。所以,数据挖掘过程的最后一步,是讨论从挖掘出的模式中得到有趣模式的问题,即对用户有用的模式,也是讨论从挖掘出的模式中得到有趣模式的问题,即对用户有用的模式,也就是对挖掘出的模式进行解释评估。就是对挖掘出的模式进行解释评估。 7/24/202436ch14数据仓库与数据挖掘Ch14.3. (2)Ch14.3. (2)数据挖掘的过程数据挖掘的过程有关解释评估,需要讨论以下一些问题:有关解释评估,需要讨论以下一些问题:模式兴趣度的度量:一是客观度量,例如对于形如模式兴趣度的度量:一是客观度量,例如对于形如XY的关联规则,客观的关联规则,客观度量通常采用支持度和置信度来

58、定义,支持度度量通常采用支持度和置信度来定义,支持度Support(XY) = P(X Y),其中其中P(X Y)是项集是项集X和和Y并的概率。置信度并的概率。置信度Confidence(XY) = P(Y|X),其中其中P(Y|X)是包含是包含X的事务也包含的事务也包含Y的概率。对于度量再引入阈值,由用户的概率。对于度量再引入阈值,由用户来控制,用户可以认为置信度阈值不超过来控制,用户可以认为置信度阈值不超过50%的模式是无趣的。对此,下的模式是无趣的。对此,下面还要详细讨论的。另一种是主观度量,实际上是用户的一种主观预感,面还要详细讨论的。另一种是主观度量,实际上是用户的一种主观预感,认为

59、合理的或认为出乎意料的,给出模式是否有趣的结论。认为合理的或认为出乎意料的,给出模式是否有趣的结论。数据挖掘的完全性:数据挖掘能否挖掘出所有有趣的模式,这是较难做到的。数据挖掘的完全性:数据挖掘能否挖掘出所有有趣的模式,这是较难做到的。只能说,对于某些数据挖掘任务,根据用户提出的限制和兴趣度量,在一只能说,对于某些数据挖掘任务,根据用户提出的限制和兴趣度量,在一定条件下保证算法的完全性。定条件下保证算法的完全性。数据挖掘能够仅仅产生有趣的模式吗?往往数据挖掘可能会生成一些不是有数据挖掘能够仅仅产生有趣的模式吗?往往数据挖掘可能会生成一些不是有趣的模式,我们希望仅仅产生有趣模式,这是一个数据挖掘

60、优化问题。如趣的模式,我们希望仅仅产生有趣模式,这是一个数据挖掘优化问题。如何识别真正有趣的模式,过滤掉一些不感兴趣的模式,采用兴趣度度量来何识别真正有趣的模式,过滤掉一些不感兴趣的模式,采用兴趣度度量来知道数据挖掘过程,是数据挖掘中最后一步重要的工作。知道数据挖掘过程,是数据挖掘中最后一步重要的工作。7/24/202437ch14数据仓库与数据挖掘Ch14.3. (3)Ch14.3. (3)数据挖掘的基本方法数据挖掘的基本方法 (3)数据挖掘的基本方法数据挖掘的基本方法数据挖掘算法,针对不同的挖掘任务,有很多不同的方法,本节只阐述下面数据挖掘算法,针对不同的挖掘任务,有很多不同的方法,本节只

61、阐述下面4种基本方法:种基本方法:1分类、分类、2聚类、聚类、3关联分析、关联分析、4时间序列。时间序列。1)分类)分类概述概述分类是对数据的一个重要抽象,从机器学习的观点看,分类是一种监督学习,分类是对数据的一个重要抽象,从机器学习的观点看,分类是一种监督学习,即根据应用的需要确定分类的类别,通过对训练数据的分类学习归纳出分即根据应用的需要确定分类的类别,通过对训练数据的分类学习归纳出分类规则,利用测试数据对模型的准确率进行测试,再对数据进行分类操作。类规则,利用测试数据对模型的准确率进行测试,再对数据进行分类操作。 7/24/202438ch14数据仓库与数据挖掘Ch14.3.(3)Ch1

62、4.3.(3)数据挖掘的基本方法数据挖掘的基本方法分类过程分两步完成,如图所示。分类过程分两步完成,如图所示。7/24/202439ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法分类算法分类算法以决策树算法为例,说明分类算法的思路。例如,要对顾客是否购买电脑进行以决策树算法为例,说明分类算法的思路。例如,要对顾客是否购买电脑进行测试,图就是决策树的示例。测试,图就是决策树的示例。7/24/202440ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法算法算法14-1:Generate_D

63、ecision_Tree(由给定的训练数据生成决策树)(由给定的训练数据生成决策树)输入:训练样本输入:训练样本Samples,由离散值属性表示,候选属性的集合是,由离散值属性表示,候选属性的集合是Attribute_List输出:决策树输出:决策树算法描述:算法描述:)创建节点创建节点N;)if Samples 都在同一类都在同一类C then 返回返回N作为叶节点,以类作为叶节点,以类C标记;标记;)if Attribute_List 为空为空 then 返回返回N作为叶节点,标记为作为叶节点,标记为Samples中类别个数最多的类别;中类别个数最多的类别;/多数表决多数表决)从从Attr

64、ibute_List中选择一个信息增益最大的属性中选择一个信息增益最大的属性test_attribute;/属性选择方法的属性选择方法的信息增益概念,需要解释信息增益概念,需要解释并将此节点并将此节点N标记为标记为test_attribute;)for each test_attribute 中的已知取值中的已知取值ai 由节点由节点N长出一个条件为长出一个条件为test_attribute=ai的分支;的分支;/划分划分Samples设设Si是是Samples中中test_attribute = ai的样本的集合;的样本的集合;/其中的一个划分其中的一个划分)if Si为空为空 then 加

65、上一个叶节点,标记为加上一个叶节点,标记为Samples中类别最多的类;中类别最多的类;)else 加上一个由加上一个由Generate_Decision_Tree (Si, Attribute_List, test_attribute)返)返回的节点;回的节点;7/24/202441ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法信息增益方法:这是上面决策树算法中属性选择的基本方法。信息增益方法:这是上面决策树算法中属性选择的基本方法。信息增益的定义。设信息增益的定义。设S识包含识包含s个数据样本的集合,假定类标号属性具有个数据样本的集合

66、,假定类标号属性具有m个不个不同值,即定义同值,即定义m个不同的类别个不同的类别Ci(i=1,2,m),设,设si是类是类Ci中的样本数,对中的样本数,对一个给定的样本分类可给出所需的期望信息:一个给定的样本分类可给出所需的期望信息:其中其中pi是任一样本属于类别是任一样本属于类别Ci的概率,可按的概率,可按si/s估计,对数函数以估计,对数函数以2为底,为底,是因为信息以二进制位编码。设属性是因为信息以二进制位编码。设属性A具有具有v个不同值个不同值a1,a2,av,利用,利用属性属性A可将数据集合可将数据集合S划分为划分为v个子集个子集S1,S2,Sv,其中,其中Sj包含了包含了S集合中集

67、合中属性属性A取取aj值的样本。若属性值的样本。若属性A被选为测试属性,设被选为测试属性,设sij为子集为子集sj中属于中属于Ci类类的样本数,那么,利用属性的样本数,那么,利用属性A划分当前样本集所需的期望信息是:划分当前样本集所需的期望信息是:其中当作第其中当作第j个子集的权值,而是对于给定子集个子集的权值,而是对于给定子集Sj的期望信息。的期望信息。E(A)计算结果越计算结果越小,表示其子集划分结果越好。在小,表示其子集划分结果越好。在A上分支将获得的编码信息是:上分支将获得的编码信息是:Gain(A)=I(S1,Sm)-E(A)定义为利用属性定义为利用属性A对当前分支节点进行划分的信对

68、当前分支节点进行划分的信息增益。息增益。 7/24/202442ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法现以购买电脑相关的训练数据样本为例,说明信息增益方法的思路。现以购买电脑相关的训练数据样本为例,说明信息增益方法的思路。 RID 年龄年龄 收入收入 是否学生是否学生 信用评估信用评估 是否购买电脑是否购买电脑 1=30 高高 No 中中 No240 中中 No 中中Yes 540 低低 Yes 中中Yes 640 低低 Yes 好好 No731.40 低低 Yes 好好Yes8=30 中中 No中中No940 中中 Yes中中Y

69、es1140 中中 No好好No7/24/202443ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法对于表给出的训练数据集合,分类的标记为对于表给出的训练数据集合,分类的标记为2类,类类,类C1对应于买电南对应于买电南yes,类,类C2对应于对应于no,类,类yes有有9个样本,类个样本,类no有有5个样本,计算得到:个样本,计算得到:现计算有关属性的信息增益,从属性年龄开始,现计算有关属性的信息增益,从属性年龄开始,对年龄对年龄 40 s13=3 s23=2 I(s11,s21)=0.971样本按年龄划分,期望信息为:样本按年龄划分,期

70、望信息为:7/24/202444ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法故这种划分的信息增益是:故这种划分的信息增益是:Gain(年龄年龄)I(s1,s2)-E(age)=0.246。类似地,可。类似地,可以计算以计算Gain(收入)(收入)=0.029,Gain(是否学生)(是否学生)=0.151,Gain(信用评估)(信用评估)=-0.048,由于年龄在属性中具有最高的信息增益,被选作为测试属性,对,由于年龄在属性中具有最高的信息增益,被选作为测试属性,对此可创建分支的节点。也就是一开始给出的决策树示例将此可创建分支的节点。也就

71、是一开始给出的决策树示例将Age作为分支节作为分支节点的原因。点的原因。我们以决策树方法简述了算法的实现过程。分类算法除了决策树方法外,常用我们以决策树方法简述了算法的实现过程。分类算法除了决策树方法外,常用的方法还有很多,例如:基于统计学的贝叶斯分类方法、神经网络分类方的方法还有很多,例如:基于统计学的贝叶斯分类方法、神经网络分类方法、法、k-最近邻方法、遗传算法、粗糙集方法、模糊集方法等等。最近邻方法、遗传算法、粗糙集方法、模糊集方法等等。7/24/202445ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法2)聚类聚类概述概述分类分类

72、是指定类别将数据集合划分的一种技术,从其学习角度来看,是有指导的是指定类别将数据集合划分的一种技术,从其学习角度来看,是有指导的学习。而学习。而聚类聚类也是要对数据集合进行分析加以划分,但要划分的类别是未也是要对数据集合进行分析加以划分,但要划分的类别是未知的,是一种无指导的学习。知的,是一种无指导的学习。聚类是指将数据集合划分为由类似数据组成的多个类(也可称为簇,聚类是指将数据集合划分为由类似数据组成的多个类(也可称为簇,cluster)的过程,同一类(或簇)中的数据彼此相似,与其它类中的数据相异。的过程,同一类(或簇)中的数据彼此相似,与其它类中的数据相异。聚类的典型应用领域有:市场营销(

73、帮助市场营销人员发现基本顾客的不同群聚类的典型应用领域有:市场营销(帮助市场营销人员发现基本顾客的不同群组,利用这一分析制定更有针对性的营销计划),生物研究(用于动物植组,利用这一分析制定更有针对性的营销计划),生物研究(用于动物植物聚类,对基因聚类,获得对种群固有结构的认识),城市规划(根据房物聚类,对基因聚类,获得对种群固有结构的认识),城市规划(根据房屋的类型、价值、地理位置对城市房屋分组),屋的类型、价值、地理位置对城市房屋分组),Web文档分类(文档分类(Web文档文档数据是海量的,获得有关文档的特性,聚类后加以逐类分析)等等。数据是海量的,获得有关文档的特性,聚类后加以逐类分析)等

74、等。7/24/202446ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法聚类技术的相关概念:点与距离。聚类技术的相关概念:点与距离。点点将数据视为多维空间中点的集合,数据聚类问题演化为多维空间中点的将数据视为多维空间中点的集合,数据聚类问题演化为多维空间中点的聚类问题。至于如何将数据视作多维空间中的点,有不同的表示方法:聚类问题。至于如何将数据视作多维空间中的点,有不同的表示方法:(1)将数据表示为向量,数据集合是一个向量集合,)将数据表示为向量,数据集合是一个向量集合,Xi(i=1,2,N)是是N个点的数据向量集合,引入中心点个点的数据

75、向量集合,引入中心点 (2)数据集合看作是矩阵形式,表示为关系数据库表的形式,其中一行就)数据集合看作是矩阵形式,表示为关系数据库表的形式,其中一行就是数据集合中的一个点。是数据集合中的一个点。距离距离有了点的概念,自然可引入基于点的距离概念,距离可表示为两点之有了点的概念,自然可引入基于点的距离概念,距离可表示为两点之间的欧几里德距离:间的欧几里德距离:或曼哈顿距离:或曼哈顿距离:数据点之间的相似与相异,用距离的大小加以度量,进行聚类分析。数据点之间的相似与相异,用距离的大小加以度量,进行聚类分析。7/24/202447ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖

76、掘的基本方法数据挖掘的基本方法聚类算法聚类算法划分法划分法典型的划分法是典型的划分法是K-平均算法。给定某一包含平均算法。给定某一包含n个数据元素的数据库,个数据元素的数据库,生成的类(或簇)的数目为生成的类(或簇)的数目为K,将,将n个数据划分为个数据划分为K类(类(Kn),以使同一),以使同一类中的数据相似,而不同类中的数据相异。下面是类中的数据相似,而不同类中的数据相异。下面是K-平均算法的描述。平均算法的描述。算法算法14-2:K-平均平均 /划分的划分的K-平均算法基于簇中数据的平均值平均算法基于簇中数据的平均值输入:簇的数据输入:簇的数据K,数据库包含,数据库包含n个元组个元组D=

77、x1,xn输出:输出:K个簇,是平方误差准则最小个簇,是平方误差准则最小算法:算法:for k=1,K do /令令r(k)是从是从D=x1,xn中随机选取的一个点中随机选取的一个点while 在聚类在聚类Ck中有变化发生中有变化发生 do形成聚类:形成聚类:for k=1,K doCk=xD|d(rk,x) d(rj,x)对所有对所有j=1,K, jk; end;计算新的聚类中心:计算新的聚类中心:for k=1,K dork=Ck内点的平均值向量;内点的平均值向量; end;end;7/24/202448ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数

78、据挖掘的基本方法k-平均算法,开始为每个聚类选择一个初始的中心点,然后以初始中心值为核平均算法,开始为每个聚类选择一个初始的中心点,然后以初始中心值为核心形成聚类,再用迭代法反复修改初始的聚类,直到无明显改进为止。心形成聚类,再用迭代法反复修改初始的聚类,直到无明显改进为止。k-平均算法的复杂度是平均算法的复杂度是O(knI),k是聚类数,是聚类数,n为数据集合大小,为数据集合大小,I是迭代次数,是迭代次数,通常通常kn,In,算法以局部最优结束。,算法以局部最优结束。层次法层次法将所有数据组织成一颗聚类的树,分别可以自底向上或自将所有数据组织成一颗聚类的树,分别可以自底向上或自顶向下进行层次

79、分解,自底向上分解的层次法通常称为凝聚的,自顶向下进行层次分解,自底向上分解的层次法通常称为凝聚的,自顶向下分解的层次法通常称为分裂的。一般以凝聚的层次聚类用得顶向下分解的层次法通常称为分裂的。一般以凝聚的层次聚类用得较多。其算法可简单描述如下:较多。其算法可简单描述如下:for i=1,n 令令C=x(i);while 存在一个以上的聚类存在一个以上的聚类 do令令Ci和和Cj为使系统中任意两个聚类间的距离为使系统中任意两个聚类间的距离D=(Ck,Cn)最小化得两最小化得两个聚类;个聚类;Ci=Ci Cj;end;7/24/202449ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.

80、3.(3)数据挖掘的基本方法数据挖掘的基本方法除了以上两种主要的聚类方法以外,还有其它较多的聚类方法:基于密度的方除了以上两种主要的聚类方法以外,还有其它较多的聚类方法:基于密度的方法、基于网格的方法、基于模型的方法等等,还有一些聚类算法集成了多法、基于网格的方法、基于模型的方法等等,还有一些聚类算法集成了多种聚类方法的思想,综合性采用多种聚类技术可取得更好的聚类效果。种聚类方法的思想,综合性采用多种聚类技术可取得更好的聚类效果。7/24/202450ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法3)关联分析)关联分析概述概述关联分析是数

81、据挖掘中较早引起兴趣得一种数据分析方法,关联分析是发现数关联分析是数据挖掘中较早引起兴趣得一种数据分析方法,关联分析是发现数据集合中数据之间的联系。数据之间的联系,可能表现为两种形式:一种据集合中数据之间的联系。数据之间的联系,可能表现为两种形式:一种是同一交易(有时也可说是同一事务)内数据之间的联系,如在顾客的一是同一交易(有时也可说是同一事务)内数据之间的联系,如在顾客的一笔交易中,购买两种不同商品之间的联系;另一种是不同交易内数据之间笔交易中,购买两种不同商品之间的联系;另一种是不同交易内数据之间的联系,如一个顾客在一次交易中买了甲商品,探讨另一次交易中购买乙的联系,如一个顾客在一次交易

82、中买了甲商品,探讨另一次交易中购买乙商品的可能性,也是研究数据之间的联系。在数据挖掘领域,前者就是此商品的可能性,也是研究数据之间的联系。在数据挖掘领域,前者就是此处所述的关联分析,后者是下节要讲述的时间序列。处所述的关联分析,后者是下节要讲述的时间序列。关联分析中的若干基本概念:关联分析中的若干基本概念:7/24/202451ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法支持度支持度可信度可信度 7/24/202452ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法关联规则举例关联规

83、则举例 交易交易 数据项数据项 t1 A,B,C,D t2 A,B,D t3A,D,E t4B,C t5A,B,C,D 关联规则关联规则 支持度支持度 可信度可信度 60% 75% 50% 75%60% 75% 60% 100% 7/24/202453ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法关联分析典型算法关联分析典型算法关联分析典型算法,比较有名的是关联分析典型算法,比较有名的是Apriori算法(算法(1993年年R.Agrawal等人提出)等人提出)。该算法实现分两步:。该算法实现分两步:1)找出所有频繁数据项集()找出所有频

84、繁数据项集(frequent itemsets):):即找出所有支持度超过指定阈值的数据项集;即找出所有支持度超过指定阈值的数据项集;2)利用频繁数据项集,生成)利用频繁数据项集,生成候选的关联规则,并验证其可信度,如果可信度超过指定的阈值,则该关候选的关联规则,并验证其可信度,如果可信度超过指定的阈值,则该关联规则即为所要找关联规则。联规则即为所要找关联规则。 7/24/202454ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法算法算法14-3:Apriori算法,利用层次迭代找出频繁项集算法,利用层次迭代找出频繁项集输入:交易(事务)

85、数据库输入:交易(事务)数据库D,最小支持度阈值,最小支持度阈值min_sup输出:输出:D中的频繁项集中的频繁项集L流程:流程:L1=find_frequent_1_itemset(D);/发现发现1-项集项集for(k=2;Lk-1;k+) Ck=apriori_gen(Lk-1,min_sup);/根据频繁根据频繁k-1项集产生候选项集产生候选k项集项集 for each tD /扫描数据库扫描数据库D Ct=subset(Ck,t);/获得获得t所包含的候选项集所包含的候选项集 for each cCt,C.count+; Lk=cCk|C.countmin_supreturn L=U

86、kLk;7/24/202455ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法Procedure apriori_gen(Lk-1:k-1-项集;项集;min_sup:最小支最小支持度阈值持度阈值)for each l1Lk-1 for each l2Lk-1 if ( l11=l21)(l12=l22) (l1k-2=l2k-2) l1k-1=l2k-1 then C=l1 l2;/将两个项集连接到一起将两个项集连接到一起 if has_infrequent_subset (c,Lk-1) then delete c;/除去不可能产生频繁

87、项集的候选除去不可能产生频繁项集的候选 else Ck=CkC; return Ck;7/24/202456ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法Procedure has_infrequent_subset(C,Lk-1)for each (k-1)-subset s of C if s!Lk-1 return TRUE; else return FALSE;7/24/202457ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法4)时间序列时间序列概述概述时间序列数据挖掘,是

88、指表示不同交易之间的数据关联,例如,某一时间序列数据挖掘,是指表示不同交易之间的数据关联,例如,某一顾客多次购买商品,每次交易的数据项集构成时间序列,在时间序顾客多次购买商品,每次交易的数据项集构成时间序列,在时间序列中发现的模式,就是一种数据之间的关联。下图就是不同交易的列中发现的模式,就是一种数据之间的关联。下图就是不同交易的数据之间关联的示例。数据之间关联的示例。7/24/202458ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法顾客号顾客号 交易时间交易时间 数据项数据项 1 06/11/99-9 A,B 2 06/11/99-1

89、0 C 1 06/11/99-11 D 3 06/11/99-13 D 1 06/12/99-9 E,G,H 4 06/12/99-10 D,F,G 5 06/12/99-17 D 3 06/12/99-18 E,G 5 06/13/99-21 C 7/24/202459ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法顾客号顾客号 数据项集序列数据项集序列 1 2 3 4 5 7/24/202460ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法对这种时间序列的数据,为找到数据之间关联,

90、引入如下对这种时间序列的数据,为找到数据之间关联,引入如下概念。概念。设有两个不同顾客的数据项序列为设有两个不同顾客的数据项序列为和和,如有整数,如有整数i1i2in,使,使a1bi1,使,使a1bi2,使,使a1bin,则称,则称包含于包含于之中,表示之中,表示 。这种包含关系,即表示这两个顾客都。这种包含关系,即表示这两个顾客都支持序列支持序列,即这两个表示不同时间的交易,即这两个表示不同时间的交易数据之间存在关联性。数据之间存在关联性。例如,图中,例如,图中, 表示顾客表示顾客2和和5都支持都支持,而,而 表示顾客表示顾客1、3和和5都支持都支持,支持度,支持度s% = 40%,凡是支持

91、,凡是支持度超过指定阈值的序列称为频繁序列,对于时间序列挖度超过指定阈值的序列称为频繁序列,对于时间序列挖掘而言,其基本问题就是要找出频繁序列。掘而言,其基本问题就是要找出频繁序列。7/24/202461ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法时间序列挖掘基本方法时间序列挖掘基本方法现介绍现介绍AprioriAll算法,它是寻找频繁序列的基本方法,图算法,它是寻找频繁序列的基本方法,图14-23是该算法的描是该算法的描述。述。Procedure AprioriAll()beginL1frequent 1-sequences; /1-

92、sequences是只包含一个数据项是只包含一个数据项集的序列集的序列for (k:=2; Lk-1=; k+) doCk:=AprioriG(Lk-1); /生成生成k-sequence候选序列集候选序列集forall custom-sequences in the dataset do forall cancidates cCk contained in custom-sequence doc.count+;Lk:= cCk |c.count minsupportAnswer:=Maximal sequences in kLk;end7/24/202462ch14数据仓库与数据挖掘Ch14

93、.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法AprioriG() : insert into Ck select p.fitemset1,p.fitemsetk-1, q.fitemsetk-1 from Lk-1 p, Lk-1 qwhere p.fitemset1=q.fitemset1, p.fitemsetk-2=q.fitemsetk-2, p.fitemsetk-1q.fitemsetq-1;其中其中fitemset是频繁数据项集。是频繁数据项集。7/24/202463ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖

94、掘的基本方法从此算法的实现过程看,与前面关联分析算从此算法的实现过程看,与前面关联分析算法法Apriori较为相像,实际上将带时间的交较为相像,实际上将带时间的交易数据转换为顾客的数据项集序列,就为易数据转换为顾客的数据项集序列,就为寻找频繁数据项集作了准备。算法实施前,寻找频繁数据项集作了准备。算法实施前,先将交易数据排序(以顾客标识为主键,先将交易数据排序(以顾客标识为主键,交易时间为次键进行升序排序),然后筛交易时间为次键进行升序排序),然后筛选出频繁数据项集,在此基础上经过变换选出频繁数据项集,在此基础上经过变换发现频繁序列。发现频繁序列。7/24/202464ch14数据仓库与数据挖

95、掘Ch14.3.(3)Ch14.3.(3)数据挖掘的基本方法数据挖掘的基本方法时间序列挖掘的其它内容时间序列挖掘的其它内容时间序列是指包含随时间变化而发生的数值或事件时间序列是指包含随时间变化而发生的数值或事件序列,对这类数据的挖掘,上面所述内容属于挖序列,对这类数据的挖掘,上面所述内容属于挖掘序列模式,即从与时间相关的数据中,挖掘出掘序列模式,即从与时间相关的数据中,挖掘出相关的频繁发生模式,例如所举例子,从购买某相关的频繁发生模式,例如所举例子,从购买某类商品的顾客可能会在近期内购买另一类商品,类商品的顾客可能会在近期内购买另一类商品,就是一种序列模式。除此以外,时序数据挖掘还就是一种序列

96、模式。除此以外,时序数据挖掘还有趋势分析,相似搜索等重要内容。有趋势分析,相似搜索等重要内容。趋势分析趋势分析时序数据中包含一个变量时序数据中包含一个变量Y,可以认,可以认为是时间的函数为是时间的函数Y=F(t),时序分析即研究其中的,时序分析即研究其中的趋势变化、循环变化、季节性变化或无规律变化。趋势变化、循环变化、季节性变化或无规律变化。采用数学上的平滑方法、曲线拟合方法、最小二采用数学上的平滑方法、曲线拟合方法、最小二乘法等可以完成有关的数据分析,制定预测方案。乘法等可以完成有关的数据分析,制定预测方案。7/24/202465ch14数据仓库与数据挖掘Ch14.3.(3)Ch14.3.(

97、3)数据挖掘的基本方法数据挖掘的基本方法相似搜索相似搜索给定了一个时间序列数据,相似搜索给定了一个时间序列数据,相似搜索是发现所有与它相似的时序数据,是一种序列匹是发现所有与它相似的时序数据,是一种序列匹配问题。相似搜索有如下主要的方法:(配问题。相似搜索有如下主要的方法:(1)数)数据转换,从时域到频域。通常采用傅立叶变换、据转换,从时域到频域。通常采用傅立叶变换、小波变换就可以完成这种转换。采用欧几里德的小波变换就可以完成这种转换。采用欧几里德的概念进行相似性测量,完成数据匹配。(概念进行相似性测量,完成数据匹配。(2)索)索引方法。采用引方法。采用R-树、树、R*树,改进数据存储结构,树

98、,改进数据存储结构,提高相似搜索的速度。(提高相似搜索的速度。(3)时间序列查询语言,)时间序列查询语言,完成复杂查询,支持范围查询、最邻近查询等,完成复杂查询,支持范围查询、最邻近查询等,搜索与给定时序数据相似的时序数据。搜索与给定时序数据相似的时序数据。7/24/202466ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘(4)复杂数据类型的挖掘)复杂数据类型的挖掘前面所介绍的数据挖掘,主要针对结构化数据进行讨论的。前面所介绍的数据挖掘,主要针对结构化数据进行讨论的。而复杂数据类型,诸如文本数据、多媒体数据、而复杂数据类型,诸如文本数据

99、、多媒体数据、Web数数据都表现为半结构化或非结构化形式,此处对复杂数据据都表现为半结构化或非结构化形式,此处对复杂数据类型的挖掘,举文本、多媒体和类型的挖掘,举文本、多媒体和Web这三类较流行的数这三类较流行的数据进行简要介绍。据进行简要介绍。1)文本数据挖掘)文本数据挖掘以文本形式存放的数据,包含一些半结构化字段,如标题、以文本形式存放的数据,包含一些半结构化字段,如标题、作者、出版社、出版时间、长度等,但也包含无结构的作者、出版社、出版时间、长度等,但也包含无结构的文本内容。对这类半结构化的文本数据,传统的数据分文本内容。对这类半结构化的文本数据,传统的数据分析方法是采用情报检索(析方法

100、是采用情报检索(Information Retrieval),大),大部分是利用索引来完成检索。但是,在文本数据迅猛增部分是利用索引来完成检索。但是,在文本数据迅猛增加时,传统情报检索已无法满足实际需求。例如,不知加时,传统情报检索已无法满足实际需求。例如,不知道文本中究竟包含哪些内容时,要想准确查询较为困难,道文本中究竟包含哪些内容时,要想准确查询较为困难,想对文本进行比较,评估文本的重要性、相关性等等,想对文本进行比较,评估文本的重要性、相关性等等,文本数据挖掘应运而生。文本数据挖掘应运而生。7/24/202467ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型

101、的挖掘)复杂数据类型的挖掘文本挖掘的主要内容有:(文本挖掘的主要内容有:(1)基于关键字关联分析。首先)基于关键字关联分析。首先收集经常一起出现的关键字或词汇,然后对其进行关联收集经常一起出现的关键字或词汇,然后对其进行关联分析。关联分析的方法与前面所述的事务数据关联分析分析。关联分析的方法与前面所述的事务数据关联分析相似,但在此以前,要完成词根处理、去除非用词等预相似,但在此以前,要完成词根处理、去除非用词等预处理,将数据表示为包含处理,将数据表示为包含文档标识符,关键字集合文档标识符,关键字集合在在内的形式,转换为事务数据关联分析问题。(内的形式,转换为事务数据关联分析问题。(2)文本分)

102、文本分类分析。自动地对大量文本进行分类,是一种重要的文类分析。自动地对大量文本进行分类,是一种重要的文本挖掘。一般做法是:先把一组预先分类过的文本当作本挖掘。一般做法是:先把一组预先分类过的文本当作训练集,然后对训练集进行分析得出分类模式。对这种训练集,然后对训练集进行分析得出分类模式。对这种分类模式需经一定的测试,不断细化。粗看起来,与前分类模式需经一定的测试,不断细化。粗看起来,与前面事务数据的分类很相似,但因两类数据的不同,不能面事务数据的分类很相似,但因两类数据的不同,不能采用事务数据分类时的决策树分析,而是采用基于关联采用事务数据分类时的决策树分析,而是采用基于关联的分类,细节不赘述

103、。的分类,细节不赘述。7/24/202468ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘2)多媒体数据挖掘)多媒体数据挖掘现实生活中存在大量多媒体数据,例如,图现实生活中存在大量多媒体数据,例如,图像数据、音频数据、视频数据等等,对这像数据、音频数据、视频数据等等,对这类数据的管理,从一般性的数据库管理到类数据的管理,从一般性的数据库管理到数据挖掘进行数据分析,是当前数据库技数据挖掘进行数据分析,是当前数据库技术的一个热门领域。术的一个热门领域。此处,以图像数据挖掘为主介绍一些多媒体此处,以图像数据挖掘为主介绍一些多媒体数据挖掘的主要方

104、法:多媒体数据的相似数据挖掘的主要方法:多媒体数据的相似搜索,多媒体数据的多维分析,多媒体数搜索,多媒体数据的多维分析,多媒体数据的分类与预测分析以及多媒体数据的关据的分类与预测分析以及多媒体数据的关联挖掘。联挖掘。7/24/202469ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘多媒体数据的相似搜索多媒体数据的相似搜索主要有两种方法:(主要有两种方法:(1)基于描)基于描述的搜索方法,在多媒体数据上建立标引(如:关键字、述的搜索方法,在多媒体数据上建立标引(如:关键字、标题等)再进行检索。这种方法若手工完成是很费劲的,标题等)再进行检

105、索。这种方法若手工完成是很费劲的,若自动完成,往往检索结果质量较差。(若自动完成,往往检索结果质量较差。(2)基于内容的)基于内容的搜索方法,是近年来的主要方法,针对图像内容中的颜搜索方法,是近年来的主要方法,针对图像内容中的颜色构成、纹理、形状等进行特征描述再检索。例如,基色构成、纹理、形状等进行特征描述再检索。例如,基于颜色直方图的特征表示,多特征(颜色直方图、形状、于颜色直方图的特征表示,多特征(颜色直方图、形状、位置和结构)构成的特征标识,基于小波变换的特征标位置和结构)构成的特征标识,基于小波变换的特征标识,建立了特征标识以后,就可以利用图像特征向量匹识,建立了特征标识以后,就可以利

106、用图像特征向量匹配来进行相似搜索。配来进行相似搜索。多媒体数据的多维分析多媒体数据的多维分析采用按传统的从关系数据构造采用按传统的从关系数据构造数据立方体相似的方法,设计和构造多媒体数据立方体。数据立方体相似的方法,设计和构造多媒体数据立方体。多媒体数据立方体可包含针对多媒体的维和度量,如颜多媒体数据立方体可包含针对多媒体的维和度量,如颜色、纹理和形状。在此基础上,进行基于视觉内容的多色、纹理和形状。在此基础上,进行基于视觉内容的多维分析,并完成多种知识的挖掘,包括汇总、比较、分维分析,并完成多种知识的挖掘,包括汇总、比较、分类、关联和聚类。类、关联和聚类。7/24/202470ch14数据仓

107、库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘多媒体数据的分类和预测分析多媒体数据的分类和预测分析分类和预测分析已经用于多媒体数分类和预测分析已经用于多媒体数据挖掘,尤其在科学研究中,如天文学、地震学和地理科学的研究。据挖掘,尤其在科学研究中,如天文学、地震学和地理科学的研究。目前图像数据挖掘应用中决策树分类是最基本的数据挖掘方法。数目前图像数据挖掘应用中决策树分类是最基本的数据挖掘方法。数据预处理在图像数据挖掘中是相当重要的,它包括数据清理、数据据预处理在图像数据挖掘中是相当重要的,它包括数据清理、数据聚焦和特征提取,同时由于数据量很大,需要使用并行

108、、分布处理聚焦和特征提取,同时由于数据量很大,需要使用并行、分布处理等技术来加强处理能力。等技术来加强处理能力。多媒体数据中的关联分析多媒体数据中的关联分析多媒体数据中的关联可能会涉及三类:多媒体数据中的关联可能会涉及三类:(1)图像内容和非图像内容特征间的关联,如规划)图像内容和非图像内容特征间的关联,如规划“如果照片的上如果照片的上半部分的半部分的50%是蓝色,那它很可能是天空是蓝色,那它很可能是天空”属于此类,它把图像内属于此类,它把图像内容和关键字容和关键字“天空天空”关联在一起。(关联在一起。(2)与空间关系无关的图像内容)与空间关系无关的图像内容的关联,如规划的关联,如规划“若一个

109、图像包含两个蓝方框,那么就可能包含一若一个图像包含两个蓝方框,那么就可能包含一个红色圆个红色圆”,所描述的关联构思关于图像内容的,但与空间关系无,所描述的关联构思关于图像内容的,但与空间关系无关。(关。(3)有空间关系的图像内容间的关联,如)有空间关系的图像内容间的关联,如“若两个黄方框之间若两个黄方框之间有一个红色三角形,那么下面就可能有一个大的椭圆物体有一个红色三角形,那么下面就可能有一个大的椭圆物体”,这里,这里所描述的与图像关联的对象具有空间关系。所描述的与图像关联的对象具有空间关系。7/24/202471ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖

110、掘)复杂数据类型的挖掘3)Web挖掘挖掘随着随着Internet技术的发展,尤其是技术的发展,尤其是Web的全球普及,的全球普及,使得使得Web上的信息无比丰富。但是,这些信息主上的信息无比丰富。但是,这些信息主要是一些大量的异构数据源,文档结构性差,其要是一些大量的异构数据源,文档结构性差,其数据多为半结构化或非结构化。对这些数据如何数据多为半结构化或非结构化。对这些数据如何管理、分析,一种有效的方法是互联网搜索引擎,管理、分析,一种有效的方法是互联网搜索引擎,利用此引擎可以有效发现和很好利用互联网的信利用此引擎可以有效发现和很好利用互联网的信息资源。但是,这种方法存在如下不足:首先是息资源

111、。但是,这种方法存在如下不足:首先是一个主题可能包含成千上万的文档,从而导致搜一个主题可能包含成千上万的文档,从而导致搜索引擎的查询结果结构常常也是非常巨大,而其索引擎的查询结果结构常常也是非常巨大,而其中只有较少以部分与用户相关;其次是许多与主中只有较少以部分与用户相关;其次是许多与主题相关的文档或许没有包含相应的关键字。例如题相关的文档或许没有包含相应的关键字。例如“data mining”关键字,可能会发现与关键字,可能会发现与“mining industry”有关的网页。有关的网页。7/24/202472ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘

112、)复杂数据类型的挖掘搜索引擎显然不能作为利用搜索引擎显然不能作为利用Web信息资源的唯一方法,同信息资源的唯一方法,同时我们还可看出,要对时我们还可看出,要对Web数据进行有效的知识发现存数据进行有效的知识发现存在以下问题:在以下问题:1)互联网数据太大以至无法有效构造数据)互联网数据太大以至无法有效构造数据仓库并进行数据挖掘。仓库并进行数据挖掘。2)网页的复杂性远远要大于任何)网页的复杂性远远要大于任何传统的文本文档。传统的文本文档。3)互联网的资源具有很大的动态性。)互联网的资源具有很大的动态性。4)互联网的用户群体具有多样性。)互联网的用户群体具有多样性。5)互联网上的信息)互联网上的信

113、息只有一小部分是真正有用的或相关的,通常来说互联网只有一小部分是真正有用的或相关的,通常来说互联网上上99的信息对的信息对99的用户是无用的。的用户是无用的。正因为这样,正因为这样,Web数据挖掘应运而生。数据挖掘应运而生。Web挖掘就是要发挖掘就是要发现网页的读取模式、互联网结构和互联网内容描述所存现网页的读取模式、互联网结构和互联网内容描述所存在的规律和动态特点,从网页的海洋中(据统计,在的规律和动态特点,从网页的海洋中(据统计,2000年初,网页数已达年初,网页数已达8亿页,并估计每亿页,并估计每4个月要翻一番。)个月要翻一番。)发现高质量的信息,有效地进行知识发现。发现高质量的信息,有

114、效地进行知识发现。7/24/202473ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘Web挖掘是将传统的数据挖掘技术和挖掘是将传统的数据挖掘技术和Web结结合起来,进行合起来,进行Web知识的提取,从知识的提取,从Web文文档和档和Web活动中抽取感兴趣的潜在的有用活动中抽取感兴趣的潜在的有用模式和隐藏的信息。一般地,模式和隐藏的信息。一般地,Web挖掘可挖掘可以分为三类:以分为三类:Web内容挖掘,内容挖掘,Web结构挖结构挖掘和掘和Web使用挖掘。使用挖掘。7/24/202474ch14数据仓库与数据挖掘Ch14.3 Ch14.3

115、(4 4)复杂数据类型的挖掘)复杂数据类型的挖掘(1)Web内容挖掘内容挖掘Web内容挖掘是对内容挖掘是对Web上大量文档集合的内容进行总结、分类、聚类、上大量文档集合的内容进行总结、分类、聚类、关联分析以及利用关联分析以及利用Web文档进行趋势预测等,其中最重要的是,文文档进行趋势预测等,其中最重要的是,文本的特征表示、分类和聚类。本的特征表示、分类和聚类。文本的特征表示文本的特征表示Web文档是半结构化或非结构化的,这样的特殊文档是半结构化或非结构化的,这样的特殊性使得现存的数据挖掘技术无法直接加以应用。我们需要对性使得现存的数据挖掘技术无法直接加以应用。我们需要对Web文文本进行预处理,

116、抽取代表其特征的元数据。这些特征可以用结构化本进行预处理,抽取代表其特征的元数据。这些特征可以用结构化形式保存,作为文档的中间表示形式。形式保存,作为文档的中间表示形式。W3C近来制定的近来制定的XML、RDF等规范提供了对等规范提供了对Web文档进行描述的语言和框架。矢量空间模型文档进行描述的语言和框架。矢量空间模型(VSM)是近年来应用较多且效果较好的方法之一。在该模型中,)是近年来应用较多且效果较好的方法之一。在该模型中,文档空间被看作是由一组正交词条矢量所形成的矢量空间,每个文文档空间被看作是由一组正交词条矢量所形成的矢量空间,每个文档档d表示为其中的一个范式特征矢量表示为其中的一个范

117、式特征矢量V(d)=(k1,w1(d);ki,wi(d);kn,wn(d),其中,其中ki为词条项,为词条项,wi(d)为为ki在在d中的权值,可以将中的权值,可以将d中出现的所有单词作为中出现的所有单词作为ki,也可以要求,也可以要求ki是是d中出现的所有短语,从而提高内容特征表示的准确性。中出现的所有短语,从而提高内容特征表示的准确性。wi(d)一般被定义为一般被定义为ki在在d中出现频率中出现频率tfi(d)的函数,即的函数,即wi(d)=(tfi(d),常,常用的用的函数有:布尔函数、平方根函数、对数函数和函数有:布尔函数、平方根函数、对数函数和TF1DF函数。函数。7/24/2024

118、75ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘Web文本分类文本分类文本分类是一种典型的有知道的机器学习问题,一般分为训练和分类两个阶段。文本分类是一种典型的有知道的机器学习问题,一般分为训练和分类两个阶段。具体过程为:具体过程为:训练阶段训练阶段1)定义类别集合)定义类别集合Z=z1,zi,zm,这些类别可以是层次式的,页可以是并,这些类别可以是层次式的,页可以是并列式的;列式的;2)给出训练文档集合)给出训练文档集合F=f1,fj,fn,每个训练文档,每个训练文档fj被标上所属的类别标被标上所属的类别标识识zi;3)统计文本集合)

119、统计文本集合F中所有文档的特征矢量中所有文档的特征矢量V(fj),确定代表,确定代表Z中每个类别的特征中每个类别的特征矢量矢量V(zi)。分类阶段分类阶段1)对测试文档集合)对测试文档集合TD=d1,dk,dr中的每个待分类文档中的每个待分类文档dk,计算其特征,计算其特征向量向量V(dk)与每个与每个V(zi)之间的相似度之间的相似度Sim(dk,zi);2)选取相似度最大的一个类别作为)选取相似度最大的一个类别作为dk的类别。的类别。在计算在计算Sim(dk, zi)时,有多种方法可供选择。最简单的方式是仅考虑两个特征时,有多种方法可供选择。最简单的方式是仅考虑两个特征矢量中所包含的词条的

120、重叠程度,即矢量中所包含的词条的重叠程度,即Sim(dk, zi)=(n(dk, zi)/(n(dk, zi),其中,其中,n(dk,zi)是是V(dk)和和V(zi)具有的相同词条数目,具有的相同词条数目,n(dk,zi)是是V(dk)和和V(zi)具有的所有词条数目;最常用的方法是考虑两个特征矢量之间的夹具有的所有词条数目;最常用的方法是考虑两个特征矢量之间的夹角余弦,即角余弦,即Sim(dk,zi)=(V(dk).V(zi)/(|V(dk)|*|V(zi)|)。7/24/202476ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘We

121、b文本聚类文本聚类Web文本聚类是一种典型的无指导的机器学习问题。目前文本聚类是一种典型的无指导的机器学习问题。目前的文本聚类方法大致可以分为层次凝聚法和平面划分法的文本聚类方法大致可以分为层次凝聚法和平面划分法两种类型。对于给定的文档集合两种类型。对于给定的文档集合D=d1,di,dn,层,层次凝聚法的具体过程如下。次凝聚法的具体过程如下。1)将)将D中的每个文档中的每个文档di看作是一个具有单个成员的簇看作是一个具有单个成员的簇zi=di,这些簇构成了,这些簇构成了D的一个聚类的一个聚类Z=z1,zi,zn;2)计算)计算Z中每对簇中每对簇(zi,zj)之间的相似度之间的相似度Sim(zi

122、,zj);3)选取具有最大相似度的簇对,并将它们合并为一个新的)选取具有最大相似度的簇对,并将它们合并为一个新的簇,簇,zk=zizj,从而构成了,从而构成了D的一个新的聚类,的一个新的聚类,Z=z1,zn-1;4)重复上述步骤,直到)重复上述步骤,直到Z中剩下一个簇为止。中剩下一个簇为止。该过程构造出一颗生成树,其中包含了簇的层次信息,以该过程构造出一颗生成树,其中包含了簇的层次信息,以及所有簇内和簇间的相似度。及所有簇内和簇间的相似度。7/24/202477ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘平面划分法与层次凝聚法的区别在于

123、,它将文档集合水平平面划分法与层次凝聚法的区别在于,它将文档集合水平地分割为若干个簇,而不是生成层次化的嵌套簇。对于地分割为若干个簇,而不是生成层次化的嵌套簇。对于给定的文档集合给定的文档集合D=d1,di,dn,平面划分法的具体,平面划分法的具体过程如下:过程如下:1)确定要生成的簇的数目)确定要生成的簇的数目k;2)按照某种原则生成)按照某种原则生成k个聚类中心作为聚类的核个聚类中心作为聚类的核Y=y1,yi,yk;3)对)对D中的每个文档中的每个文档di,依次计算它与每个核,依次计算它与每个核yi的相似度的相似度Sim=(di,yj);4)选取具有最大相似度的核,将其归入以)选取具有最大

124、相似度的核,将其归入以yj为聚类中心的为聚类中心的簇簇zj,从而得到,从而得到D的一个聚类的一个聚类Zz1,zk;5)重复步骤)重复步骤2,3,4若干次,以得到较为稳定的聚类结果。若干次,以得到较为稳定的聚类结果。 7/24/202478ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘(2)Web结构挖掘结构挖掘整个整个Web空间里,有许多有用知识包含在空间里,有许多有用知识包含在Web页面超链结构与页面超链结构与Web页面内部结构之页面内部结构之中。中。Web结构挖掘主要是通过对结构挖掘主要是通过对Web站点站点的结果进行分析和归纳,发现

125、页面的结果的结果进行分析和归纳,发现页面的结果和和Web间的结果,在此基础上找出权威页间的结果,在此基础上找出权威页面,利用发现的这种知识可以改进搜索引面,利用发现的这种知识可以改进搜索引擎。擎。7/24/202479ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘下面介绍两种下面介绍两种Web结构挖掘的方法。结构挖掘的方法。1)Page-rank方法方法Page-rank方法的基本思想是:一个页面被多次引用,则方法的基本思想是:一个页面被多次引用,则这个页面很可能是重要的;一个页面尽管没有被多次引这个页面很可能是重要的;一个页面尽管没有被

126、多次引用,但被一个重要页面引用,则这个页面很可能是重要用,但被一个重要页面引用,则这个页面很可能是重要的。一个页面的重要性被均分并被传递到它所引用的页的。一个页面的重要性被均分并被传递到它所引用的页面。面。页面重要性度量的定义:页面重要性度量的定义:u是一个是一个Web页面,页面,Fu是是u引用的引用的页面集合,页面集合,Bu是引用是引用u的页面集合,的页面集合,Nu=|Fu|,则,则u的重的重要性为要性为R(u)=vBu(R(v)/Nu)。对于一个查询对于一个查询q,搜索引擎首先利用相似度函数找到,搜索引擎首先利用相似度函数找到k个页个页面,然后利用公式面,然后利用公式ranking-sco

127、re(q,d)=w1*Sim(q,d)+w2*R(d)计算每个页面的重要计算每个页面的重要性,然后进行排名。这里,性,然后进行排名。这里,w1, w20,1,w1+ w2=1,Sim(q,d)是相似度函数,是相似度函数,Sim(q, d), R(d)0,1。7/24/202480ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘2)Hub/Authority方法方法Hub/Authority方法的基本思想是:方法的基本思想是:Hub是指一个是指一个或多个或多个Web页面,它提供了指向权威页面的连接页面,它提供了指向权威页面的连接集合。集合。H

128、ub页面起到了隐含说明某话题权威页面页面起到了隐含说明某话题权威页面的作用。通常,好的的作用。通常,好的Hub是指许多好的权威页面,是指许多好的权威页面,好的权威(好的权威(Authority)是指由许多好的)是指由许多好的Hub所所指向的页面。这种指向的页面。这种Hub与与Authority之间的相互之间的相互作用,可用于权威页面的挖掘和高质量作用,可用于权威页面的挖掘和高质量Web结构结构和资源的自动发现。和资源的自动发现。算法算法HITS(HyperlinkInduced Topic Search)是利用)是利用Hub/Authority方法的搜索算法,方法的搜索算法,其过程如下。其过程

129、如下。7/24/202481ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘将查询将查询q提交给普通的基于相似度的搜索引擎,搜提交给普通的基于相似度的搜索引擎,搜索引擎返回很多页面,从中取前索引擎返回很多页面,从中取前n个页面作为根个页面作为根集。通过向根集中加入被根集引用的页面和应用集。通过向根集中加入被根集引用的页面和应用根集的页面将根集扩展成一个更大的集合根集的页面将根集扩展成一个更大的集合TS。以以TS中的中的Hub页为顶点集页为顶点集V1,以,以Authority页为顶页为顶点集点集V2,V1中的页面到中的页面到V2中的页面的超连

130、接为中的页面的超连接为边集边集E,形成一个二分有向图,形成一个二分有向图SG=(V1, V2, E)。)。对对V1中的任一个顶点中的任一个顶点v,用,用h(v)表示页面表示页面v的的Hub值,对值,对V2中的顶点中的顶点u用用a(u)表示页面表示页面u的的Authority值。开始时,值。开始时,a(u)=h(v)=1,对,对u执行执行操作修改它的操作修改它的a(u),对,对v执行执行O操作修改它的操作修改它的h(v):操作操作 a(u)=v:(v,u)E h(v),O操作操作 h(v)= v:(v,u)E a(u),每次迭代后,对,每次迭代后,对a(u)和和h(v)进进行规范化处理:行规范化

131、处理:7/24/202482ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘上面的操作反映了若一个页面由很多好的Hub所指,则其Authority权重会相应增加(即权重增加为所有指向它的页面的现有Hub权重之和)。O操作反映了若一个页面指向许多好的权威页,则Hub权重也会相应增加(即权重增加为该页面连接的所有页面的Authority权重之和)。7/24/202483ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘HITS算法输出一组具有较大算法输出一组具有较大Hub权重的页面权重的页面和

132、具有较大和具有较大Authority权重的页面。实验表权重的页面。实验表明,该算法对许多查询具有良好的搜索结明,该算法对许多查询具有良好的搜索结果。果。基于基于HITS的系统有的系统有CLEVER,Google也基也基于同样的原理。这些系统由于纳入了于同样的原理。这些系统由于纳入了Web连接和文本内容信息,查询结果明显优于连接和文本内容信息,查询结果明显优于基于词类索引搜索引擎的结果(如基于词类索引搜索引擎的结果(如AltaVista)和基于本体论生成的结果(如)和基于本体论生成的结果(如Yahoo)。)。7/24/202484ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复

133、杂数据类型的挖掘)复杂数据类型的挖掘(3)Web使用挖掘使用挖掘Web使用挖掘是从使用挖掘是从Web的访问记录中抽取感的访问记录中抽取感兴趣的模式。通过兴趣的模式。通过Web使用挖掘,对用户使用挖掘,对用户的访问内容、停留时间和频度等进行分析,的访问内容、停留时间和频度等进行分析,可以得到关于用户访问行为和方式的普通可以得到关于用户访问行为和方式的普通知识,用以改进知识,用以改进Web站点服务设计,或为站点服务设计,或为用户提供个性化服务。用户提供个性化服务。目前,目前,Web使用挖掘可分为两大类:模式发使用挖掘可分为两大类:模式发现和模式分析。现和模式分析。7/24/202485ch14数据

134、仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘(1)模式发现)模式发现模式发现是采用成熟的人工智能、数据挖掘、信息模式发现是采用成熟的人工智能、数据挖掘、信息论等领域的技术发现用户的访问模式,从论等领域的技术发现用户的访问模式,从Web使使用记录中挖掘知识。用记录中挖掘知识。模式发现前的预处理,是从模式发现前的预处理,是从Web日志中获取的浏览日志中获取的浏览信息的预处理。先要得到用户浏览信息:访问的信息的预处理。先要得到用户浏览信息:访问的URL、页面的大小、请求的时间、停留的时间、页面的大小、请求的时间、停留的时间、请求者的域名、用户和服务器状态

135、等,再对此进请求者的域名、用户和服务器状态等,再对此进行预处理。包括:数据清洗(删除行预处理。包括:数据清洗(删除Web日志中与日志中与数据挖掘不相关的冗余项),用户识别(采用比数据挖掘不相关的冗余项),用户识别(采用比较合理的启发式规则进行用户识别),事务识别较合理的启发式规则进行用户识别),事务识别(用户访问引入会话,细分为具有一定语义的事(用户访问引入会话,细分为具有一定语义的事务)。务)。7/24/202486ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘在预处理的基础上就可进行模式发现。模式发现算法是传在预处理的基础上就可进行模

136、式发现。模式发现算法是传统的数据挖掘方法的应用。包括:聚类(找到用户事务统的数据挖掘方法的应用。包括:聚类(找到用户事务聚类或页面聚类,代表性的算法有:聚类或页面聚类,代表性的算法有:CLUSTER,COBWEB,CLARANS,BIRCH,DBSCAN,STING,CLIQUE等),分类(查找数据集中有关对象的公共等),分类(查找数据集中有关对象的公共特性,并按照分类模型将这些对象划分为一系列类的过特性,并按照分类模型将这些对象划分为一系列类的过程。代表性的算法有:程。代表性的算法有:VSA,ID3,AQ15,FCLS,SLIQ,C4.5/C5.0,KID3,SPRINT等),关联规则等),

137、关联规则(在(在Web使用挖掘中,关联规则技术主要用于从用户访使用挖掘中,关联规则技术主要用于从用户访问序列数据库中挖掘出相关的规则,如挖掘用户在一个问序列数据库中挖掘出相关的规则,如挖掘用户在一个访问期间(访问期间(Session)从服务器上访问的页面)从服务器上访问的页面/文件之间文件之间的联系。最常用的算法是的联系。最常用的算法是Apriori算法以及对其改进的算算法以及对其改进的算法),序列模式(发现隐含在数据库中的事实之间的时法),序列模式(发现隐含在数据库中的事实之间的时态关系,代表性的算法有:态关系,代表性的算法有:AprioriSome,AprioriAll,DynamicSo

138、me, GSP,SPADE,SPIRIT等),超文等),超文本概率语法(采用超文本概率语法本概率语法(采用超文本概率语法HPG挖掘用户浏览模挖掘用户浏览模式,得到用户喜爱的浏览模式,式,得到用户喜爱的浏览模式,OLAP方法(采用联机方法(采用联机分析分析OLAP方法,进行多维分析)。方法,进行多维分析)。7/24/202487ch14数据仓库与数据挖掘Ch14.3 Ch14.3 (4 4)复杂数据类型的挖掘)复杂数据类型的挖掘2)模式分析)模式分析为了对挖掘出来的模式加以很好利用,模式分析是十分必为了对挖掘出来的模式加以很好利用,模式分析是十分必要的,是一个较新的研究领域。可视化技术,对于理解

139、要的,是一个较新的研究领域。可视化技术,对于理解Web用户的行为模式是一个很好的选择。数据可视化技用户的行为模式是一个很好的选择。数据可视化技术包括集合方法、基于图标的方法、面向图像的方法、术包括集合方法、基于图标的方法、面向图像的方法、层次化方法和基于图表的方法等)。层次化方法和基于图表的方法等)。Web使用挖掘的应用较为广泛,主要的应用面有:系统改使用挖掘的应用较为广泛,主要的应用面有:系统改进(对进(对Web系统的特性数据进行分析,得出结论以供系统的特性数据进行分析,得出结论以供Web系统性能的改进),站点修改(对所有用户的浏览系统性能的改进),站点修改(对所有用户的浏览路径进行分析,发

140、现其中某些页面的逻辑关联,把一组路径进行分析,发现其中某些页面的逻辑关联,把一组频繁访问的页面直接链接,用于改善站点结构),商业频繁访问的页面直接链接,用于改善站点结构),商业智能(通过对用户行为和购买货物等关系的挖掘,发现智能(通过对用户行为和购买货物等关系的挖掘,发现其中的用户群购买特征和购买趋势等来进行商业智能、其中的用户群购买特征和购买趋势等来进行商业智能、支持商业决策),个性化(从单个用户的浏览信息发现支持商业决策),个性化(从单个用户的浏览信息发现用户的兴趣,向每位用户提供符合其兴趣需求的个性化用户的兴趣,向每位用户提供符合其兴趣需求的个性化界面。)界面。)7/24/202488ch14数据仓库与数据挖掘本章小结本章小结1. 概述概述(1)数据管理的层次结构数据管理的层次结构 (2)数据仓库的产生数据仓库的产生 (3)从数据仓库到数据挖掘从数据仓库到数据挖掘2. 数据仓库数据仓库(1)概述概述 (2)数据仓库的建立数据仓库的建立数据模型、数据模式数据模型、数据模式 (3)OLAP技术技术3 .数据挖掘数据挖掘(1)概述概述 (2)数据挖掘的过程数据挖掘的过程 (3)数据挖掘的基本方法数据挖掘的基本方法 (4)复杂数据类型的挖掘复杂数据类型的挖掘7/24/202489ch14数据仓库与数据挖掘

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号