第5章:数据仓库与数据挖掘的决策支持课件.ppt

上传人:cn****1 文档编号:584303595 上传时间:2024-08-30 格式:PPT 页数:122 大小:693KB
返回 下载 相关 举报
第5章:数据仓库与数据挖掘的决策支持课件.ppt_第1页
第1页 / 共122页
第5章:数据仓库与数据挖掘的决策支持课件.ppt_第2页
第2页 / 共122页
第5章:数据仓库与数据挖掘的决策支持课件.ppt_第3页
第3页 / 共122页
第5章:数据仓库与数据挖掘的决策支持课件.ppt_第4页
第4页 / 共122页
第5章:数据仓库与数据挖掘的决策支持课件.ppt_第5页
第5页 / 共122页
点击查看更多>>
资源描述

《第5章:数据仓库与数据挖掘的决策支持课件.ppt》由会员分享,可在线阅读,更多相关《第5章:数据仓库与数据挖掘的决策支持课件.ppt(122页珍藏版)》请在金锄头文库上搜索。

1、第第5 5章章 数据仓库与数据挖掘数据仓库与数据挖掘 的决策支持的决策支持5.1 数据仓库的基本原理数据仓库的基本原理n5.1.1 数据仓库概念数据仓库概念n5.1.2 数据仓库结构数据仓库结构n5.1.3 数据集市数据集市n5.1.4 元数据元数据5.1.1 5.1.1 数据仓库的概念数据仓库的概念 (1 1)W.H.InmonW.H.Inmon在在建立数据仓库建立数据仓库一书中,对数据仓库的定义为:一书中,对数据仓库的定义为: 数据仓库是面向数据仓库是面向主题的主题的、集成的集成的、稳定的稳定的,不同时间不同时间的数据集合,用于支的数据集合,用于支持经营管理中持经营管理中决策制定决策制定过

2、程。过程。1、数据仓库的概念、数据仓库的概念(2 2)SASSAS软件研究所定义:软件研究所定义: 数数据据仓仓库库是是一一种种管管理理技技术术,旨旨在在通通过过通通畅畅、合合理理、全全面面的的信信息息管管理理,达达到到有有效的决策支持。效的决策支持。1、数据仓库的概念、数据仓库的概念 传传统统数数据据库库用用于于事事务务处处理理,也也叫叫操操作作型型处处理理,是是指指对对数数据据库库联联机机进进行行日日常常操操作作,即即对对一一个个或或一一组组记记录录的的查查询询和和修修改改,主主要要为为企企业业特特定定的的应应用用服服务务的的。用用户关心的是响应时间,数据的安全性和完整性。户关心的是响应时

3、间,数据的安全性和完整性。 数数据据仓仓库库用用于于决决策策支支持持,也也称称分分析析型型处处理理,用用于于决策分析,它是建立决策支持系统(决策分析,它是建立决策支持系统(DSSDSS)的基础。的基础。操作型数据(操作型数据(DBDB数据)与数据)与分析型数据(分析型数据(DWDW数据)之间的差别为:数据)之间的差别为:2、数据仓库特点、数据仓库特点(1 1 1 1)数据仓库是面向主题的)数据仓库是面向主题的)数据仓库是面向主题的)数据仓库是面向主题的 主题是数据主题是数据归类归类的标准,每一个主题基本对应一的标准,每一个主题基本对应一个宏观的分析领域。个宏观的分析领域。 例如,银行的数据仓库

4、的主题:客户例如,银行的数据仓库的主题:客户 DWDW的客户数据来源:的客户数据来源: 从从银行储蓄银行储蓄DBDB、信用卡信用卡DBDB、贷款贷款DBDB等三个等三个DBDB中抽中抽取同一客户的数据整理而成。取同一客户的数据整理而成。 在在D DW W中分析客户数据,可决定是否继续给予贷款中分析客户数据,可决定是否继续给予贷款2、数据仓库特点、数据仓库特点(2 2 2 2)数据仓库是集成的)数据仓库是集成的)数据仓库是集成的)数据仓库是集成的 数据进入数据仓库之前,必须经过加工与集成数据进入数据仓库之前,必须经过加工与集成对对不同的不同的数据来源进行统一数据结构和编码数据来源进行统一数据结构

5、和编码统统一一原原始始数数据据中中的的所所有有矛矛盾盾之之处处,如如字字段段的的同同名名异异义义,异异名名同同义义,单单位位不不统统一一,字字长长不不一致等。一致等。 总总之之, ,将将原原始始数数据据结结构构做做一一个个从从面面向向应应用用到到面面向向主主题题的大转变。的大转变。2、数据仓库特点、数据仓库特点(3 3 3 3)数据仓库是稳定的)数据仓库是稳定的)数据仓库是稳定的)数据仓库是稳定的 数数据据仓仓库库中中包包括括了了大大量量的的历历史史数数据据。数数据据经经集集成进入数据仓库后是成进入数据仓库后是极少极少或或根本根本不更新的。不更新的。(4 4 4 4)数据仓库是随时间变化的)数

6、据仓库是随时间变化的)数据仓库是随时间变化的)数据仓库是随时间变化的 数数据据仓仓库库内内的的数数据据时时限限在在5 5 1010年年,故故数数据据的的键键码码包包含含时时间间项项,标标明明数数据据的的历历史史时时期期,这这适适合合DSSDSS进行进行时间趋势分析时间趋势分析。 数数据据库库只只包包含含当当前前数数据据,即即存存取取某某一一时时间间的的正正确的有效的数据。确的有效的数据。2、数据仓库特点、数据仓库特点 (5)(5)(5)(5)数据仓库的数据量大数据仓库的数据量大数据仓库的数据量大数据仓库的数据量大. . . . 大大型型DWDW是是一一个个TBTB(1000GB1000GB)级

7、级数数据据库库问问题题(一般为(一般为10GB10GB级相当于一般数据库级相当于一般数据库100MB100MB的的100100倍)倍) (6)(6)(6)(6)数据仓库的硬件要求较高数据仓库的硬件要求较高数据仓库的硬件要求较高数据仓库的硬件要求较高 需需要要一一个个巨巨大大的的硬硬件件平平台台需需要要一一个个并并行行的的数数据据库系统库系统. . 最好的数据仓库是大的和昂贵的。最好的数据仓库是大的和昂贵的。近近期期基基本本数数据据:是是最最近近时时期期的的业业务务数数据据,是是数数据据仓仓库库用用户户最感兴趣最感兴趣的部分,数据量大。的部分,数据量大。 历历史史基基本本数数据据:近近期期基基本

8、本数数据据随随时时间间的的推推移移,由由数数据据仓仓库的库的时间控制机制时间控制机制转为历史基本数据。转为历史基本数据。 轻轻度度综综合合数数据据:是是从从近近期期基基本本数数据据中中提提取取出出的的,这这层层数数据据是是按按时时间间段段选选取取,或或者者按按数数据据属属性性(attributesattributes)和和内内容容(contentscontents)进行综合。进行综合。 高度综合数据层:高度综合数据层:这一层的数据是在这一层的数据是在轻度综合数据轻度综合数据基础基础上的再一次综合,是一种准决策数据。上的再一次综合,是一种准决策数据。5.1.2 数据仓库结构数据仓库结构 元元数数

9、据据: :整整个个数数据据仓仓库库的的组组织织结结构构由由元元数数据据组组织织, ,它它不不包包含含数据仓库中的数据仓库中的实际数据信息实际数据信息。 作用:作用: (1 1)定位数据仓库的目录内容)定位数据仓库的目录内容 (2 2)数数据据从从业业务务环环境境向向数数据据仓仓库库环环境境传传递递时时数数据据仓仓库库的的目录内容目录内容 (3 3)指指导导从从当当前前基基本本数数据据到到轻轻度度综综合合数数据据到到高高度度综综合合数数据据的综合算法的选择。的综合算法的选择。 组成:组成: (1 1)数据结构)数据结构 (2 2)用于综合的算法)用于综合的算法 (3 3)从业务环境到)从业务环境

10、到DWDW规划规划5.1.2 数据仓库结构数据仓库结构数据仓库结构图数据仓库结构图1.1.数据集市的产生数据集市的产生n数数据据仓仓库库工工作作范范围围和和成成本本常常常常是是巨巨大大的的。开开发发数数据据库库是是代代价价很很高高、时时间间较较长长的的大大项项目目。提提供供更紧密集成的数据集市就应运产生。更紧密集成的数据集市就应运产生。n目目前前,全全世世界界对对数数据据仓仓库库总总投投资资的的一一半半以以上上均均集中在数据集市上。集中在数据集市上。5.1.3 数据集市(数据集市(Data Mart)n数据集市(数据集市(Data MartsData Marts)是一种是一种更小更小、更集中更

11、集中的的数据仓库,为公司提供分析商业数据的一条廉价数据仓库,为公司提供分析商业数据的一条廉价途径。途径。n数据集市是指具有数据集市是指具有特定应用特定应用的数据仓库,主要针的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案得竞争优势或者找到进入新市场的具体解决方案2.数据集市概念数据集市概念3.数据集市与数据仓库的数据集市与数据仓库的关系关系n数据集市不等于数据仓库,多个数据集市简单合数据集市不等于数据仓库,多个数据集市简单合并起来不能成为数据仓库。并起来不能成为数据仓库。n各数据集市之间对详细数据和

12、历史数据的存储各数据集市之间对详细数据和历史数据的存储存在大存在大量冗余量冗余。n同一个问题在不同的数据集市的查询结果同一个问题在不同的数据集市的查询结果可能不一致,可能不一致,甚至互相矛盾。甚至互相矛盾。n各数据集市之间以及与源数据库系统之间各数据集市之间以及与源数据库系统之间难以管理难以管理。 1 1、规模小、规模小2 2、特定的应用、特定的应用3 3、面向部门、面向部门4 4、由业务部门定义,设计和开发、由业务部门定义,设计和开发5 5、由业务部门管理和维护、由业务部门管理和维护6 6、快速实现、快速实现7 7、购买较便宜、购买较便宜8 8、投资快速回收、投资快速回收9 9、工具集的紧密

13、集成、工具集的紧密集成1010、更详细的、预先存在的数据仓库的摘要子集、更详细的、预先存在的数据仓库的摘要子集1111、可升级到完整的数据仓库、可升级到完整的数据仓库4.数据集市的特性数据集市的特性5.两种数据集市结构两种数据集市结构从属数据集市从属数据集市从属数据集市从属数据集市(Dependent Data Mart)(Dependent Data Mart) 从属:从属:数据直接来自数据直接来自数据直接来自数据直接来自中央数据库,能够保持中央数据库,能够保持中央数据库,能够保持中央数据库,能够保持数据的一致性。数据的一致性。数据的一致性。数据的一致性。 关键业务部门建立关键业务部门建立关

14、键业务部门建立关键业务部门建立从属的数据集市,可以从属的数据集市,可以从属的数据集市,可以从属的数据集市,可以很好的查询反应速度。很好的查询反应速度。很好的查询反应速度。很好的查询反应速度。5.两种数据集市结构两种数据集市结构独立数据集市独立数据集市(Independent Data Mart) 独立:独立:数据直接来自各数据直接来自各数据直接来自各数据直接来自各生产系统。生产系统。生产系统。生产系统。 从投资考虑,用来解从投资考虑,用来解从投资考虑,用来解从投资考虑,用来解决各个部门比较迫切的决各个部门比较迫切的决各个部门比较迫切的决各个部门比较迫切的决策问题。决策问题。决策问题。决策问题。

15、6.数据集市与数据仓库的数据集市与数据仓库的差别差别n数据仓库是基于数据仓库是基于整个企业整个企业的数据模型建立的,它面向企业的数据模型建立的,它面向企业范围的主题;范围的主题;n数据集市是按照数据集市是按照某一特定部门某一特定部门的数据模型建立的,由于每的数据模型建立的,由于每个部门有自己特定的需求,因此,对他们对数据集市的期个部门有自己特定的需求,因此,对他们对数据集市的期望也不一样,也称作部门级数据仓库望也不一样,也称作部门级数据仓库n部门的主题与企业的主题之间可能存在关联,也可能不存部门的主题与企业的主题之间可能存在关联,也可能不存在关联。在关联。n数据集市的数据组织一般采用星形模型,

16、大型数据仓库的数据集市的数据组织一般采用星形模型,大型数据仓库的数据组织采用第三范式。数据组织采用第三范式。 元元数数据据是是数数据据仓仓库库的的重重要要组组成成部部分分。元元数数据据描描述述了了数数据据仓仓库库的的数数据据和和环环境境,即即关关于于数数据据的的数数据据(meta (meta data)data)。元元数数据据就就相相当当于于数数据据库库系系统统中中的的数数据字典据字典 元数据包括四种元数据元数据包括四种元数据关于关于数据源数据源的元数据的元数据关于关于数据模型数据模型的元数据的元数据关于关于数据仓库映射数据仓库映射的元数据的元数据关于关于数据仓库使用数据仓库使用的元数据的元数

17、据5.1.4 元数据元数据 它它是是现现有有的的业业务务系系统统的的数数据据源源的的描描述述信信息息。这这类类元元数数据据是是对对不不同同平平台台上上的的数数据据源源的的物物理理结结构构和和含含义义的的描述描述。具体为:。具体为: (1 1)数数据据源源中中所所有有物物理理数数据据结结构构,包包括括所所有有的的数数据据项项及及数据类型。数据类型。 (2 2)所有数据项的业务定义。)所有数据项的业务定义。 (3 3)每每个个数数据据项项更更新新的的频频率率,以以及及由由谁谁或或哪哪个个过过程程更更新新的说明。的说明。 (4 4)每个数据项的有效值。)每个数据项的有效值。1 1、关于、关于数据源数

18、据源的元数据的元数据这这类类元元数数据据描描述述了了数数据据仓仓库库中中有有什什么么数数据据以以及及数数据据之之间间的的关关系系, ,它它们们是是用用户户使使用用管管理理数数据据仓仓库库的的基基础础。这这类类元元数数据据可可以以支支持持用用户户从从数数据据仓仓库库中中获获取取数据。数据。 数据仓库的数据模型是星型模型。数据仓库的数据模型是星型模型。 通通常常企企业业数数据据模模型型被被用用作作建建立立仓仓库库数数据据模模型型的的起始点起始点,再对模型加以修改和变换。,再对模型加以修改和变换。2 2、关于、关于数据模型数据模型的元数据的元数据这这类类元元数数据据是是数数据据源源与与数数据据仓仓库

19、库数数据据间间的的映射。映射。 当当数数据据源源中中的的一一个个数数据据项项与与数数据据仓仓库库建建立立了了映映射射关关系系,就就应应该该记记下下这这些些数数据据项项发发生生的的任任何何变变换换或或变变动动。即即用用元元数数据据反反映映数数据据仓仓库库中中的的数数据据项项是是从从哪哪个个特特定定的的数据源填充的,经过那些转换、变换和加载过程数据源填充的,经过那些转换、变换和加载过程3 3、关于、关于数据仓库映射数据仓库映射的元数据的元数据3、关于、关于数据仓库映射数据仓库映射的元数据的元数据n一个抽取要经过以下几个步聚一个抽取要经过以下几个步聚n获取获取n过滤过滤n验证验证n融合融合n综合综合

20、n装载装载n存档存档 从源系统的数据到数据仓库中的从源系统的数据到数据仓库中的目标数据的转移是一项复杂的工作,目标数据的转移是一项复杂的工作,其工作量占整个数据仓库开发的其工作量占整个数据仓库开发的70% 这类元数据是数据仓库中信息的使用情况描述。这类元数据是数据仓库中信息的使用情况描述。 数据仓库的用户最关心的是两类元数据:数据仓库的用户最关心的是两类元数据: (1 1)元元数数据据告告诉诉数数据据仓仓库库中中有有什什么么数数据据,它它们们从从哪哪里里来来。即即如何按主题查看数据仓库的内容如何按主题查看数据仓库的内容。 (2 2)元元数数据据提提供供已已有有的的可可重重复复利利用用的的查查询

21、询语语言言信信息息。如如果果某某个个查查询询能能够够满满足足他他们们的的需需求求,或或者者与与他他们们的的愿愿望望相相似似,他们就可以再次使用那些查询而不必从头开始编程。他们就可以再次使用那些查询而不必从头开始编程。 关关于于数数据据仓仓库库使使用用的的元元数数据据能能帮帮助助用用户户到到数数据据仓仓库库查查询询所需要的信息,用于解决企业问题。所需要的信息,用于解决企业问题。4、关于、关于数据仓库使用数据仓库使用的元数据的元数据5.2数据仓库系统 5.2.1数据仓库系统结构数据仓库系统结构 数据仓库系统由数据仓库(数据仓库系统由数据仓库(DWDW)、)、仓库管理和分析工具三部分组成仓库管理和分

22、析工具三部分组成1、数据仓库管理系统、数据仓库管理系统(1 1)定义部分)定义部分 用于定义和建立数据仓库系统。它包括:用于定义和建立数据仓库系统。它包括:设计和定义数据仓库的数据库设计和定义数据仓库的数据库定义数据来源定义数据来源确确定定从从源源数数据据向向数数据据仓仓库库复复制制数数据据时时的的清清理理和和增增强规则强规则(2 2)数据获取部分)数据获取部分 该该部部件件把把数数据据从从源源数数据据中中提提取取出出来来,依依定定义义部部件件的的规则,抽取、转化和装载数据进入数据仓库。规则,抽取、转化和装载数据进入数据仓库。 (3 3)管理部分)管理部分 它用于管理数据仓库的工作,包括:它用

23、于管理数据仓库的工作,包括:对数据仓库中数据的维护对数据仓库中数据的维护把仓库数据送出给分散的仓库服务器或把仓库数据送出给分散的仓库服务器或DSSDSS用户用户对对仓仓库库数数据据的的安安全全、归归档档、备备份份、恢恢复复等等处处理理工作工作1、数据仓库管理系统、数据仓库管理系统(4 4)信息目录部件(元数据)信息目录部件(元数据) 数据仓库的目录数据是元数据,由三部分组成:数据仓库的目录数据是元数据,由三部分组成: 技技术术目目录录:由由定定义义部部件件生生成成,关关于于数数据据源源、目目标标、清清理理规规则、变换规则以及数据源和仓库之间的映象信息。则、变换规则以及数据源和仓库之间的映象信息

24、。 业业务务目目录录:由由仓仓库库管管理理员员生生成成,关关于于仓仓库库数数据据的的来来源源及及当当前值;预定义的查询和报表细节;合法性要求等。前值;预定义的查询和报表细节;合法性要求等。 信息引导器:信息引导器:使用户容易访问仓库数据。利用固定查询或使用户容易访问仓库数据。利用固定查询或建立新的查询,生成暂时的或永久的仓库数据集合的能力等。建立新的查询,生成暂时的或永久的仓库数据集合的能力等。(5 5)DBMSDBMS部分部分 DWDW的存储形式仍为关系型数据库。的存储形式仍为关系型数据库。1、数据仓库管理系统、数据仓库管理系统 分析工具集分两类工具:分析工具集分两类工具:(1 1)查询工具

25、)查询工具 数数据据仓仓库库的的查查询询不不是是指指对对记记录录级级数数据据的的查查询,而是指对分析要求的查询。询,而是指对分析要求的查询。 一般包含:一般包含: 可可视视化化工工具具:以以图图形形化化方方式式展展示示数数据据,可可以帮助了解数据的结构、关系以及动态性。以帮助了解数据的结构、关系以及动态性。2、数据仓库、数据仓库工具集工具集 多维分析工具(OLAP工具): 通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。 多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。2、数据仓库工具集、数据仓库工具集(2 2)数据挖掘

26、工具)数据挖掘工具 从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具。2、数据仓库工具集、数据仓库工具集3、数据仓库的、数据仓库的运行结构运行结构 数据仓库应用是一个典型的客户数据仓库应用是一个典型的客户/ /服务器(服务器(C/SC/S)结构形式结构形式 数数据据仓仓库库采采用用服服务务器器结结构构,客客户户端端所所做做的的工工作作有有:客客户户交交互、格式化查询、结果显示、报表生成等。互、格式化查询、结果显示、报表生成等。 服服务务器器端端完完成成各各种种辅辅助助决决策策的的SQLSQL查查询询、复复杂杂的的计计算算和和各各类综合功能等。类综合功能等。 现现在

27、在,越越来来越越普普通通的的一一种种形形式式是是三三层层C/SC/S结结构构形形式式,即即在在客客户户与与数数据据仓仓库库服服务务器器之之间间增增加加一一个个多多维维数数据据分分析析(OLAPOLAP)服务器。服务器。OLAPOLAP服务器将服务器将加强加强和和规范化规范化决策支持的服务工决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部作,集中和简化了原客户端和数据仓库服务器的部分工作,分工作,降低了系统数据传输量降低了系统数据传输量。 这种结构形式工作效率更高。这种结构形式工作效率更高。三层三层C/S结构结构5.2.2 数据仓库的存储数据仓库的存储n数据仓库存储采用多维数据模型。

28、数据仓库存储采用多维数据模型。n维就是相同类数据的集合,商店、时间和产品都是维维就是相同类数据的集合,商店、时间和产品都是维n n各个商店的集合是一维,时间的集合是一维,商品各个商店的集合是一维,时间的集合是一维,商品各个商店的集合是一维,时间的集合是一维,商品各个商店的集合是一维,时间的集合是一维,商品的集合是一维。每一个商店、每一段时间、每一种的集合是一维。每一个商店、每一段时间、每一种的集合是一维。每一个商店、每一段时间、每一种的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。商品就是某一维的一个成员。商品就是某一维的一个成员。商品就是某一维的一个成员。n n每一个销

29、售事实由一个特定的商品、一个特定的时每一个销售事实由一个特定的商品、一个特定的时每一个销售事实由一个特定的商品、一个特定的时每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成。间、一个特定的商品组成。间、一个特定的商品组成。间、一个特定的商品组成。n两维表,如通常的电子表格。三维构成立方体,若再两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出增加一维,则图形很难想象,也不容易在屏幕上画出来。来。n数数据据仓仓库库是是以以多多维维表表型型的的“维维表表事事实实表表”结结构构形式组织的,共有三种形式:形式组织的,共有三种形式:n1 1、星

30、型模型、星型模型n大大多多数数的的数数据据仓仓库库都都采采用用“星星型型模模型型”。星星型型模模型型是是由由“事事实实表表”(大大表表)以及多个以及多个“维表维表”(小表)所组成。(小表)所组成。n“事实表事实表”中存放大量关于企业的事实数据(数量数据)。中存放大量关于企业的事实数据(数量数据)。 例如:多个时期的数据可能会出现在同一个例如:多个时期的数据可能会出现在同一个“事实表事实表”中。中。n“维维表表”中中存存放放描描述述性性数数据据,维维表表是是围围绕绕事事实实表表建建立立的的较较小小的的表表5.2.2 数据仓库的存储数据仓库的存储n2、雪花模型、雪花模型n雪花模型是对星型模型的扩展

31、,雪花模型对星型模型的维雪花模型是对星型模型的扩展,雪花模型对星型模型的维表进一步层次化,表进一步层次化,原来的各维表可能被扩展为小的事实表原来的各维表可能被扩展为小的事实表,形成一些局部的形成一些局部的“层次层次”区域。区域。n它的优点是最大限度地它的优点是最大限度地减少减少数据存储量,以及把数据存储量,以及把较小较小的维的维表联合在一起来改善查询性能。表联合在一起来改善查询性能。n在上面星型模型的数据中在上面星型模型的数据中 ,对,对“产品表产品表”“日期表日期表”“地区表地区表”进行扩展形成雪花模型数据见下图。进行扩展形成雪花模型数据见下图。5.2.2 数据仓库的存储数据仓库的存储n3、

32、星网模型、星网模型n星网模型是将多个星型模型连接起来形成网状结构。星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个多个星型模型通过相同的维,如时间维,连接多个事实表。事实表。5.2.2 数据仓库的存储数据仓库的存储第(第(2 2)部分)部分 5.3 5.3 联机分析处理(联机分析处理(OLAPOLAP) 5.4 5.4 数据仓库的决策支持数据仓库的决策支持5.3 联机分析处理联机分析处理n联机分析处理(联机分析处理(On Line Analytical Processing,OLAP)的概念最早是由关系数据库之父的概念最早是由关系数据库之父E.F.Co

33、dd(科科德德)于于1993年提出的。年提出的。n在数据仓库系统中,联机分析处理是重要的数据分析在数据仓库系统中,联机分析处理是重要的数据分析工具工具。nOLAP的基本思想是从的基本思想是从多方面多方面和和多角度多角度以多维的形式来以多维的形式来观察企业的状态和了解企业的变化。观察企业的状态和了解企业的变化。5.3.1 基本概念nOLAP是在是在OLTP(联机事务处理系统联机事务处理系统 )的基础上发展起来的基础上发展起来的。的。nOLTP是以数据库为基础的,面对的是操作人员和低层管是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据的查询和增、删、改等进行处理。理人员,对基本数据的

34、查询和增、删、改等进行处理。nOLAP是以数据仓库为基础的数据分析处理。它有两个特是以数据仓库为基础的数据分析处理。它有两个特点:点:n一是在线性(一是在线性(On Line),由客户机),由客户机/服务器这种体系结构来完成服务器这种体系结构来完成的;的;n二是多维分析,这也是二是多维分析,这也是OLAP的核心所在。的核心所在。1、OLAP的定义n联机分析处理是共享多维信息的快速分析。联机分析处理是共享多维信息的快速分析。n它体现了四个特征:它体现了四个特征:n(1)快速性)快速性:用户对:用户对OLAP的快速反应能力有很高的的快速反应能力有很高的要求。要求。 n(2)可分析性)可分析性:OL

35、AP系统应能处理任何逻辑分析和系统应能处理任何逻辑分析和统计分析。统计分析。 n(3)多维性)多维性:系统必须提供对数据分析的多维视图和:系统必须提供对数据分析的多维视图和分析。分析。n(4)信息性)信息性:OLAP系统应能及时获得信息,并且管系统应能及时获得信息,并且管理大容量的信息。理大容量的信息。 2、OLAP准则准则 n1993年,年,E.F.Codd提出提出OLAP的的12条准则,条准则,其主要的准则有:其主要的准则有: 1)多维数据分析;)多维数据分析; 2)客户)客户/服务器结构;服务器结构; 3)多用户支持;)多用户支持; 4)一致的报表性能等。)一致的报表性能等。 2、OLA

36、P准则准则 n多维概念视图多维概念视图n企企业业的的数数据据空空间间本本身身就就是是多多维维的的。因因此此OLAP的概念模型也应是多维的。的概念模型也应是多维的。n用用户户可可以以对对多多维维数数据据模模型型进进行行切切片片、切切块块、旋旋转转坐坐标标或或进进行行多多维维的的联联合合(概概括括和和聚聚集集)分析。分析。n 稳定的报表性能稳定的报表性能n报表操作报表操作不应不应随维数增加而削弱,即当数据随维数增加而削弱,即当数据维数和数据的综合层次增加时,维数和数据的综合层次增加时,提供的报表提供的报表能力和响应速度不应该有明显的降低能力和响应速度不应该有明显的降低。 2、OLAP准则准则 n

37、客户客户/服务器体系结构服务器体系结构 nOLAP是建立在客户是建立在客户/ 服务器体系结构上的。服务器体系结构上的。n要求多维数据库服务器能够被不同的应用和要求多维数据库服务器能够被不同的应用和工具所访问。工具所访问。2、OLAP准则准则 n 多用户支持多用户支持 n当多个用户要在同一分析模式上并行工作,需当多个用户要在同一分析模式上并行工作,需要这些功能的支持。要这些功能的支持。n灵活的报表生成灵活的报表生成 n报表必须报表必须充分反映充分反映数据分析模型的数据分析模型的多维特征多维特征,并可按用户需要的方式来显示它。并可按用户需要的方式来显示它。2、OLAP准则准则 3、OLAP的基本概

38、念的基本概念nOLAP是针对特定问题的联机数据访问和分析。是针对特定问题的联机数据访问和分析。 n (1)变量)变量 :变量是数据的实际意义,即描述数据:变量是数据的实际意义,即描述数据“是什么是什么”。 n (2)维)维:维是人们观察数据的特定角度。如产品维、:维是人们观察数据的特定角度。如产品维、顾客维、时间维等。顾客维、时间维等。 n (3)维的层次)维的层次:数据的细节不同程度为维的层次。如:数据的细节不同程度为维的层次。如日、月、季、年是时间维的层次。日、月、季、年是时间维的层次。 n (4)维成员)维成员:维的一个取值称为该维的一个维成员。:维的一个取值称为该维的一个维成员。如如“

39、某年某月某日某年某月某日”是时间维的一个成员。是时间维的一个成员。 3、OLAP的基本概念的基本概念n5)多维数组)多维数组:一个多维数组可以表示为:一个多维数组可以表示为:n n(维(维(维(维1 1,维,维,维,维2 2,维,维,维,维n n,变量),变量),变量),变量) 一个一个一个一个5 5维的结构,即(产品,地区,时间,销售渠道,维的结构,即(产品,地区,时间,销售渠道,维的结构,即(产品,地区,时间,销售渠道,维的结构,即(产品,地区,时间,销售渠道,销售额)。销售额)。销售额)。销售额)。n(6)数据单元(单元格)数据单元(单元格):n n多维数组的取值称为数据单元。多维数组的

40、取值称为数据单元。多维数组的取值称为数据单元。多维数组的取值称为数据单元。 如:如:如:如:5 5维数据单元(牙膏,上海,维数据单元(牙膏,上海,维数据单元(牙膏,上海,维数据单元(牙膏,上海,19981998年年年年1212月,批发,月,批发,月,批发,月,批发,销售额为销售额为销售额为销售额为100000100000)。)。)。)。 4、OLAP与与OLTP的关系与比较的关系与比较n(1)OLTP (联机事务处理系统联机事务处理系统 )nOLTP是低层人员利用计算机网络对数据库中是低层人员利用计算机网络对数据库中的数据进行查询、增、删、改等操作,以完成的数据进行查询、增、删、改等操作,以完

41、成事务处理工作。事务处理工作。nOLTP利用数据库快速地处理具体业务。利用数据库快速地处理具体业务。OLTP应用要求多个查询并行。应用要求多个查询并行。 4、OLAP与与OLTP的关系与比较的关系与比较n(2)OLAPnOLAP是高层人员对数据仓库进行信息分析处理。是高层人员对数据仓库进行信息分析处理。n 存取大量的数据存取大量的数据 n 包含聚集的数据包含聚集的数据 n 按层次对比不同时间周期的聚集数据按层次对比不同时间周期的聚集数据 n 以不同的方式来表现数据以不同的方式来表现数据 n 要包含数据元素之间的复杂的计算要包含数据元素之间的复杂的计算 n 能够快速的响应用户的查询能够快速的响应

42、用户的查询 4、OLAP与与OLTP的关系与比较的关系与比较(3)OLAP与与OLTP对比(对比表)对比(对比表)OLTPOLAP数据库数据数据库数据数据仓库数据数据仓库数据细节性数据细节性数据综合性数据综合性数据当前数据当前数据历史数据历史数据一次性处理的数据量小一次性处理的数据量小一次处理的数据量大一次处理的数据量大对响应时间要求高对响应时间要求高响应时间合理响应时间合理用户数量大用户数量大用户相对较少用户相对较少面向应用,事务驱动面向应用,事务驱动面向分析,分析驱动面向分析,分析驱动 5.3.2 OLAP5.3.2 OLAP的数据组织的数据组织 nMOLAP(MOLAP(多维多维OLAP

43、)OLAP)和和ROLAP(ROLAP(关系关系OLAP)OLAP)是是OLAPOLAP的两的两种具体形式:种具体形式: nROLAPROLAP是基于是基于关系数据库关系数据库存储方式建立的存储方式建立的OLAPOLAP。多维数。多维数据映射成平面型的关系表。采用星型模型。据映射成平面型的关系表。采用星型模型。nMOLAPMOLAP是基于是基于多维数据库多维数据库存储方式建立的存储方式建立的OLAPOLAP;表现为;表现为“超立方超立方”结构,类似于多维数组的结构。结构,类似于多维数组的结构。n在分析中,需要在分析中,需要“旋转旋转”数据立方体以及数据立方体以及“切片切片” ” 、“切块切块”

44、等操作。等操作。MOLAPMOLAP和和ROLAPROLAP的对比表的对比表MOLAPMOLAPROLAPROLAP固定维固定维可变维可变维维交叉计算维交叉计算多维视图多维视图行级计算行级计算超大型数据库超大型数据库读读- -写应用写应用维数据变化速度快维数据变化速度快数据集市数据集市数据仓库数据仓库例例如如,以以“产产品品、城城市市、时时间间”三三维维数数据据,如如图图 5.3.3 OLAP5.3.3 OLAP的的决策支持:决策支持: OLAPOLAP多维数据分析多维数据分析1 1、基本功能:切片和切块、基本功能:切片和切块 对对三三维维数数据据,通通过过“切切片片” ” ,分分别别从从城城

45、市市和和产产品等不同的角度观察销售情况:品等不同的角度观察销售情况: 2 2)钻)钻 取取钻取钻取:例如,例如,19951995年各部门销售收入表如下:年各部门销售收入表如下:对时间维进行下钻操作,获得新表如下:对时间维进行下钻操作,获得新表如下:钻钻 取(续)取(续)旋转前的数据旋转前的数据旋旋 转转旋转后的数据旋转后的数据旋旋 转(续)转(续)旋转后再切片旋转后再切片 假假设设有有一一个个5 5维维数数据据模模型型,5 5个个维维分分别别为为:商商店店,方案,部门,时间,销售。方案,部门,时间,销售。 1 1三维表查询三维表查询 在指定在指定“商店商店=ALL=ALL,方案方案= =现有现

46、有”情况的三维情况的三维表(行为部门,列为时间和销售量)表(行为部门,列为时间和销售量)5.3.45.3.4、OLAPOLAP实例实例 19941995%增长率销售量利润增长%销售量利润增长%销售量利润增长服装234,67027.2381,10221.562.4(20.0)家具62,54833.866,00531.15.6(8.0)汽车375,09822.4325,40227.2(13.2)21.4所有其它202,38821.3306,67721.750.71.9指定商店、方案后的三维表指定商店、方案后的三维表19941995%增增长长率率销销售售利利润润增增长长%销销售售利利润润增增长长%销

47、销售售利利润润增增长长汽汽车车375,09822.4325,40227.2(13.2)21.4维维修修195,05114.2180,78615.0(7.3)5.6附件附件116,28043.9122,54547.55.38.2音音乐乐63,7678.222,07114.2(63.4)7.3 2 2、向下钻取、向下钻取 对汽车部门向下钻取出具体项目的销售情况和对汽车部门向下钻取出具体项目的销售情况和利润增长情况。利润增长情况。1995Sales服装服装381,102家具家具66,005汽汽车车325,402所有其它所有其它306,6773 3、切片表、切片表 切片(切片(SliceSlice)操

48、作是除去一些列或行不显示操作是除去一些列或行不显示1995销销售量售量现现有有计计划划差量差量差量差量%服装服装381,102350,00031,1028.9家具家具66,00569,000(2,995)(4.3)汽汽车车325,402300,00025,4028.5所有其它所有其它306,677350,000(44,322)12.74 4、旋转表、旋转表 这这次次旋旋转转操操作作得得到到19951995年年的的交交叉叉表表方方案案为为:现现有有、计划、计划、 差量差量、差量差量% %。5.4.2 数据仓库的决策支持数据仓库的决策支持n美国著名的美国著名的NCR数据仓库公司对数据仓库总结数据仓

49、库公司对数据仓库总结5种决策支持能力。种决策支持能力。n 1、报表、报表 n 2、随机分析、随机分析n 3、预测、预测n 4、实时决策、实时决策n 5、事件触发的自动决策、事件触发的自动决策1、报表n数据仓库所面临的数据仓库所面临的最大挑战是数据集成最大挑战是数据集成。传统。传统的环境经常有上百个数据源,每一数据源都有的环境经常有上百个数据源,每一数据源都有各自定义的标准和实施技术。各自定义的标准和实施技术。 n建立的数据仓库是通过收集各种来源的数据,建立的数据仓库是通过收集各种来源的数据,来来回答预先设置的一些问题,告诉决策者回答预先设置的一些问题,告诉决策者“发发生了什么生了什么”。它为以

50、后数据仓库的发展奠定了。它为以后数据仓库的发展奠定了基础。基础。 2、随机分析n数据仓库应用的第二种决策支持是,数据仓库应用的第二种决策支持是,从从“发生发生了什么了什么”转向转向“为什么会发生为什么会发生”。分析活动就分析活动就是了解报表数据的涵义,需要更多更详细的数是了解报表数据的涵义,需要更多更详细的数据进行各种角度的分析。在第二阶段的数据仓据进行各种角度的分析。在第二阶段的数据仓库主要用于随机分析。库主要用于随机分析。 3 3、预测、预测n数据仓库的第三种决策支持是帮助决策者来预数据仓库的第三种决策支持是帮助决策者来预测未来,测未来,回答回答“将要发生什么将要发生什么”。n数据仓库需要

51、利用历史资料创建预测模型。数据仓库需要利用历史资料创建预测模型。4 4、实时决策、实时决策n数据仓库的第数据仓库的第4种决策支持是企业需要准确了解种决策支持是企业需要准确了解“正在发正在发生什么生什么”,从而需要建立动态数据仓库(实时数据库),从而需要建立动态数据仓库(实时数据库),用于支持战术型决策,即实时决策。有效地解决当前的用于支持战术型决策,即实时决策。有效地解决当前的实际问题。实际问题。n第第1到第到第3种决策支持的数据仓库都以支持企业种决策支持的数据仓库都以支持企业内部战略内部战略性决策为重点性决策为重点,帮助企业制定发展战略。,帮助企业制定发展战略。 n第第4种决策支持侧重在战术

52、性决策支持。种决策支持侧重在战术性决策支持。n动态数据仓库能够逐项产品、逐个店铺、逐秒地作出最动态数据仓库能够逐项产品、逐个店铺、逐秒地作出最佳决策支持。佳决策支持。5 5、事件触发的自动决策、事件触发的自动决策n数据仓库的第数据仓库的第5种决策支持是由事件触发,利用种决策支持是由事件触发,利用动态数据库自动决策,动态数据库自动决策,达到达到“希望发生什么希望发生什么”。 例如,电子货架标签技术结合动态数据仓库,可例如,电子货架标签技术结合动态数据仓库,可以帮助企业按照自己的意愿实现复杂的价格管理以帮助企业按照自己的意愿实现复杂的价格管理自动化,以便以最低的损耗售出最多的存货。自动化,以便以最

53、低的损耗售出最多的存货。 5.5 5.5 知识发现与数据挖掘知识发现与数据挖掘 5.6 5.6 数据挖掘的决策支持及应用数据挖掘的决策支持及应用第(第(3 3)部分)部分演变阶段商业问题支持技术产品厂家产品特点数据搜集(20世纪60年代)数据访问(20世纪80年代)数据仓库决策支持(20世纪90年代数据挖掘(正在流行)“过去五年中整个有关联锁超市总收入是多少?”“联锁超市第一分部去年三月的销售额是多少?”“联锁超市第一分部去年三月的销售额是多少?第二分部据此可得出什么结论?”“下个月第二分部的销售会怎么样?为什么?”计算机、磁带和磁盘关系数据库(RDBMS),查询语言(SQL),ODBCOLA

54、P、多维数据库和数据仓库高级算法、多处理器计算机和海量数据库IBM和CDCOracle、Sybase、Informix、IBM和MicrosoftPilot、Comshare、Arbor、Cognos和MicrostrategyPilot、Lockheed、IBM、SGI和其他初创公司提供历史性的静态的数据在记录级提供历史性动态数据在各种层次上提供回溯的动态数据提供预测性信息表5-1数据挖掘的演变进程产品ClementineDarwinDataminingWorkstationDataEngineIBMIntelligentMinerF-DBMSIDISInformationHarvester

55、KnowledgeSeekerNeuralWarePrisonReMind技术供应商规则归纳神经网络、遗传算法等神经网络神经网络、模糊逻辑、信号处理多种技术分数维规则发现模糊专家系统规则发现、决策树神经网络神经网络基于实例的推理、归纳逻辑IngegralSolutionsThinkingMachinesCorp.HNCSoftwareInc.MITGmbhIBMCorp.Cross/ZInternationalInc.InformationalDiscoveryInc.InformationalHarvestingAngossSoftwareInt1Ltd.NeuralWareInc.Nest

56、orInc.CognitiveSystems表5-2一些主要的数据挖掘产品数据挖掘的兴起数据挖掘的兴起 (1 1)8080年年在在美美国国召召开开了了第第一一届届国国际际机机器器学学习习研研讨会;讨会; (2 2)8989年年8 8月月于于美美国国底底特特律律市市召召开开的的第第一一届届KDDKDD国际学术会议;国际学术会议; (3 3)9595年年在在加加拿拿大大召召开开了了第第一一届届知知识识发发现现和和数数据挖掘国际学术会议;据挖掘国际学术会议; (4 4)我我国国于于8787年年召召开开了了第第一一届届全全国国机机器器学学习习研研讨会。讨会。5.5.1 5.5.1 知识发现与数据挖掘概

57、念知识发现与数据挖掘概念知识发现(知识发现(KDD):从数据中发现有用知识的整个过程。从数据中发现有用知识的整个过程。 KDD过程定义过程定义: 从数据集中提取出可信的、新颖的、潜在有用的从数据集中提取出可信的、新颖的、潜在有用的,以及最以及最终可理解的终可理解的模式模式的高级处理过程。的高级处理过程。 “模式模式”可以看成是可以看成是“知识知识”的雏形,经过验证、完善后的雏形,经过验证、完善后形成知识。形成知识。数据挖掘(数据挖掘(DMDM):KDDKDD过程中的一个特定步骤,它用专门算过程中的一个特定步骤,它用专门算 法从数据中抽取模式(法从数据中抽取模式(patternspatterns

58、)。)。数据源数据源数据数据数据集成数据集成目标数据目标数据预处理后预处理后数据数据转换数据转换数据模式模式知识知识数据选择数据选择预处理预处理数据挖掘数据挖掘数据转换数据转换结果表达和解释结果表达和解释数据准备数据准备数据挖掘数据挖掘结果表达和解释结果表达和解释KDDKDD过程过程5.5.2 5.5.2 数据挖掘方法和技术数据挖掘方法和技术(一)归纳学习方法(一)归纳学习方法 分为两大类:信息论方法(决策树方法)和集合论方法分为两大类:信息论方法(决策树方法)和集合论方法 1 1、信息论方法(决策树方法)、信息论方法(决策树方法) 利用信息论的原理建立决策树或者是决策规则树。利用信息论的原理

59、建立决策树或者是决策规则树。 (1 1)ID3ID3方法:方法:QuiulanQuiulan研制的研制的ID3ID3方法是利用信息论中互方法是利用信息论中互信息建立决策树。信息建立决策树。 (2 2)IBLEIBLE方方法法:我我们们研研制制的的IBLEIBLE方方法法,是是利利用用信信息息论论中中信信道道容容量量,寻寻找找数数据据库库中中信信息息量量大大的的多多个个字字段段的的取取值值建建立立决决策规则树。策规则树。 2 2、集合论方法、集合论方法 (1 1)粗糙集()粗糙集(Rough SetRough Set)方法方法 对对数数据据库库中中的的条条件件属属性性集集与与决决策策属属性性集集

60、建建立立上上下下近近似似关关系系,对对下下近近似似集集合合建建立立确确定定性性规规则则,对对上上近近似似集集合合建建立立不确定性规则(含可信度)。不确定性规则(含可信度)。 (2 2)关联规则挖掘)关联规则挖掘 在在交交易易事事务务数数据据库库中中,挖挖掘掘出出不不同同商商品品集集的的关关联联关关系系,即发现哪些商品频繁地被顾客同时购买。即发现哪些商品频繁地被顾客同时购买。5.5.2 5.5.2 数据挖掘方法和技术数据挖掘方法和技术 (二)仿生物技术(二)仿生物技术 仿生物技术典型的方法是神经网络方法和遗传算法。仿生物技术典型的方法是神经网络方法和遗传算法。 1 1、神经网络方法:、神经网络方

61、法:包括:前馈式网络、反馈式网络、自包括:前馈式网络、反馈式网络、自组织网络等多个神经网络方法。组织网络等多个神经网络方法。 2 2、遗传算法:、遗传算法:这是模拟生物进化过程的算法。这是模拟生物进化过程的算法。 它由三个基本算子组成:它由三个基本算子组成:繁殖(选择)、交叉(重组)、变异(突变)繁殖(选择)、交叉(重组)、变异(突变) 遗传算法起到产生优良后代的作用,经过若干代的遗传,遗传算法起到产生优良后代的作用,经过若干代的遗传,将得到满足要求的后代(问题的解)。将得到满足要求的后代(问题的解)。5.5.2 5.5.2 数据挖掘方法和技术数据挖掘方法和技术(三)公式发现(三)公式发现 在

62、工程和科学数据库中对若干数据项(变量)在工程和科学数据库中对若干数据项(变量) 进行一进行一定的数学运算,求得相应的数学公式。定的数学运算,求得相应的数学公式。 1 1物理定律发现系统物理定律发现系统BACONBACON BACONBACON发现系统完成了物理学中大量定律的重新发现。发现系统完成了物理学中大量定律的重新发现。 2 2经验公式发现系统经验公式发现系统FDDFDD 我们研制了我们研制了FDDFDD发现系统,寻找由数据项的初等函数或发现系统,寻找由数据项的初等函数或复合函数组合成的经验公式。复合函数组合成的经验公式。 5.5.2 5.5.2 数据挖掘方法和技术数据挖掘方法和技术(四)

63、统计分析方法(四)统计分析方法 利用统计学原理通过对总体中的样本数据进行分析得出利用统计学原理通过对总体中的样本数据进行分析得出描述和推断该总体信息和知识的方法。描述和推断该总体信息和知识的方法。(五)模糊数学方法(五)模糊数学方法 利用模糊集合理论进行数据挖掘,如模糊聚类、模糊分利用模糊集合理论进行数据挖掘,如模糊聚类、模糊分类等。类等。 (六)可视化技术(六)可视化技术 利用可视化技术分析数据库,找到潜在的有用信息。利用可视化技术分析数据库,找到潜在的有用信息。5.5.2 5.5.2 数据挖掘方法和技术数据挖掘方法和技术5.5.3 5.5.3 数据挖掘的知识表示(一)数据挖掘的知识表示(一

64、)主要有四种:主要有四种:规则、决策树、浓缩数据、公式。规则、决策树、浓缩数据、公式。 1、规则、规则 规则知识由规则知识由前提条件前提条件和和结论结论两部分组成两部分组成 前前 提提 条条 件件 由由 字字 段段 项项 ( 属属 性性 ) 的的 取取 值值 的的 合合 取取 ( 与与 ) 和析取(或和析取(或 )组合而成。)组合而成。 结论结论为决策字段项(属性)的取值或者类别组成。为决策字段项(属性)的取值或者类别组成。2、决策树、决策树例如:上例的人群数据库,按例如:上例的人群数据库,按ID3ID3方法得到的决策树如下:方法得到的决策树如下:数据挖掘的知识表示(二)数据挖掘的知识表示(二

65、) 3、知识基(浓缩数据)、知识基(浓缩数据) 例如上例的人群数据库,通过计算可以得出例如上例的人群数据库,通过计算可以得出身高身高是不重要的字段,是不重要的字段,删除它后,再合并相同数据元组,得到浓缩数据如下表:删除它后,再合并相同数据元组,得到浓缩数据如下表:数据挖掘的知识表示(三)数据挖掘的知识表示(三) 5、公式、公式 例如,太阳系行星运动数据中包含行星运动周期(旋转一周所例如,太阳系行星运动数据中包含行星运动周期(旋转一周所需时间,天),以及它与太阳的距离(围绕太阳旋转的椭圆轨道的需时间,天),以及它与太阳的距离(围绕太阳旋转的椭圆轨道的长半轴,百万公里),数据如下表:长半轴,百万公

66、里),数据如下表:发现的公式为:发现的公式为:d3/p2=25数据挖掘的知识表示(五)数据挖掘的知识表示(五)5.6 5.6 数据挖掘的决策支持及应用数据挖掘的决策支持及应用5.6.1 5.6.1 数据挖掘的决策支持分类有:数据挖掘的决策支持分类有: 关联分析、时序模式、聚类、分类、偏差检测、预测。关联分析、时序模式、聚类、分类、偏差检测、预测。1 1、关联分析、关联分析 若若两两个个或或多多个个数数据据项项的的取取值值之之间间重重复复出出现现且且概概率率很很高高时时,它它就就存存在在某某种种关关联联,可可以以建建立立起起这这些些数数据据项项的的关关联联规规则。则。 2 2、时序模式、时序模式

67、 通通过过时时间间序序列列搜搜索索出出重重复复发发生生概概率率较较高高的的模模式式。这这里里强调时间序列的影响。强调时间序列的影响。3 3、聚类:、聚类:在数据库中找出一系列有意义的子集,即类。在数据库中找出一系列有意义的子集,即类。 4 4、分类:、分类:对数据库中的类,找出该类别的概念描述规则。对数据库中的类,找出该类别的概念描述规则。 5 5、偏差检测:、偏差检测: 在数据库中找出异常数据。在数据库中找出异常数据。6 6、预预测测:利利用用历历史史数数据据找找出出变变化化规规律律的的模模型型,并并用用此此模模型预测未来。型预测未来。5.6 5.6 数据挖掘的决策支持及应用数据挖掘的决策支

68、持及应用5.6.2 5.6.2 决策树及其应用决策树及其应用1 1、决策树概念:、决策树概念: 决策树是用样本的决策树是用样本的属性属性作为结点,用属性的作为结点,用属性的取取值值作为分支的树结构。它是利用信息论原理对大量作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。样本的属性进行分析和归纳而产生的。F根结点是所有样本中信息量最大的属性根结点是所有样本中信息量最大的属性. .F中间节点是该结点为根据的子树所包含的样本子集中中间节点是该结点为根据的子树所包含的样本子集中信息量最大的属性信息量最大的属性. .每个内部节点表示在一个属性上的测每个内部节点表示在一个属性上

69、的测试试F每个分枝代表一个测试输出每个分枝代表一个测试输出, ,每个树叶节点是样本的类每个树叶节点是样本的类别值别值. .5.6.2 5.6.2 决策树及其应用决策树及其应用决策树对新样本的分类过程决策树对新样本的分类过程: : 即通过新样本属性值的测试即通过新样本属性值的测试F从根结点开始按照样本属性的取值从根结点开始按照样本属性的取值, ,逐渐沿着逐渐沿着决策树向下决策树向下, ,直到树的叶结点直到树的叶结点, ,该叶结点表示的类该叶结点表示的类别就是新样本的类别别就是新样本的类别. .n数据挖掘的数据挖掘的决策树方法的原理是信息论决策树方法的原理是信息论,信息论是,信息论是C.E.Sha

70、nnonC.E.Shannon为解决为解决信息传递信息传递(通信)过程问题而(通信)过程问题而建立的理论,也称为统计通信理论。建立的理论,也称为统计通信理论。n一个传递信息的系统是由一个传递信息的系统是由发送端(信源)发送端(信源)和和接收端接收端(信宿)(信宿)以及连接两者的以及连接两者的通道(信道)通道(信道)三者组成。三者组成。n信息论把通信过程看做是在信息论把通信过程看做是在随机干扰随机干扰的环境中传递的环境中传递信息的过程。在这个通信模型中,信息源和干扰信息的过程。在这个通信模型中,信息源和干扰(噪声)都被理解为某种(噪声)都被理解为某种随机过程随机过程或或随机序列随机序列。5.6.

71、2 5.6.2 决策树及其应用决策树及其应用n在进行实际的通信之前,收信者(信宿)在进行实际的通信之前,收信者(信宿)不可能确切不可能确切了解了解信源究竟会发出什么样的具体信息,不可能判断信源会处信源究竟会发出什么样的具体信息,不可能判断信源会处于什么样的状态。这种情形就称为于什么样的状态。这种情形就称为信宿对于信源状态具有信宿对于信源状态具有不确定性不确定性。而且这种不确定性是存在于通信之前的。因而。而且这种不确定性是存在于通信之前的。因而又叫做又叫做先验不确定性先验不确定性。n在进行了通信之后,信宿收到了信源发来的信息,这种先验不确在进行了通信之后,信宿收到了信源发来的信息,这种先验不确定

72、性才会被消除或者被减少。定性才会被消除或者被减少。n如果干扰很小,信源发出的信息能够被信宿全部收到,在这种情如果干扰很小,信源发出的信息能够被信宿全部收到,在这种情况下,信宿的先验不确定性就会被完全消除。况下,信宿的先验不确定性就会被完全消除。5.6.2 5.6.2 决策树及其应用决策树及其应用n在一般情况下,干扰总会对信源发出的信息造成某种破在一般情况下,干扰总会对信源发出的信息造成某种破坏,使信宿收到的信息不完全。因此,先验不确定性不坏,使信宿收到的信息不完全。因此,先验不确定性不能全部被消除,只能部分地消除。能全部被消除,只能部分地消除。n通信结束之后,信宿还仍然具有一定程度的不确定性。

73、通信结束之后,信宿还仍然具有一定程度的不确定性。这就是这就是后验不确定性后验不确定性。n显然,后验不确定性总要小于先验不确定性,不可能大显然,后验不确定性总要小于先验不确定性,不可能大于先验不确定性。于先验不确定性。5.6.2 5.6.2 决策树及其应用决策树及其应用n如果后验不确定性的大小正好等于先验不确定性的大小,如果后验不确定性的大小正好等于先验不确定性的大小,这就表示这就表示信宿信宿根本没有收到信息。根本没有收到信息。n如果后验不确定性的大小等于零,这就表示信宿收到了全如果后验不确定性的大小等于零,这就表示信宿收到了全部信息。部信息。n可见,可见,信息是用来消除(随机)不确定性的度量。

74、信息是用来消除(随机)不确定性的度量。信息量的大小,由所消除的不确定性的大小来计信息量的大小,由所消除的不确定性的大小来计量。量。5.6.2 5.6.2 决策树及其应用决策树及其应用信息论基本概念信息论基本概念信息论基本概念信息论基本概念n n定义定义定义定义1 1 1 1:若存在:若存在:若存在:若存在n n n n个相同概率的消息,则每个消息的概率个相同概率的消息,则每个消息的概率个相同概率的消息,则每个消息的概率个相同概率的消息,则每个消息的概率p p p p是是是是1/n1/n1/n1/n,一个消息传递的信息量为,一个消息传递的信息量为,一个消息传递的信息量为,一个消息传递的信息量为-

75、Log-Log-Log-Log2 2 2 2(1/n),(1/n),(1/n),(1/n),概率越大概率越大概率越大概率越大, , , ,信信信信息量越小息量越小息量越小息量越小 n如英语有如英语有2626个字母个字母, ,假如每个字母在文章中出现的次数平假如每个字母在文章中出现的次数平均的话均的话, ,每个字母的信息量为每个字母的信息量为: :I(eI(e)=-log)=-log2 21/26=4.71/26=4.7如常用汉字有如常用汉字有25002500个个, ,假如每个汉字在文章中出现的次数假如每个汉字在文章中出现的次数平均的话平均的话, ,每个汉字的信息量为每个汉字的信息量为: :I(

76、eI(e)=-log)=-log2 21/2500=11.31/2500=11.35.6.2 决策树及其应用n n定义定义定义定义2 2 2 2:若有:若有:若有:若有n n n n个消息,其给定概率分布为个消息,其给定概率分布为个消息,其给定概率分布为个消息,其给定概率分布为P=(p1,p2P=(p1,p2P=(p1,p2P=(p1,p2pnpnpnpn) ) ) ),则由该,则由该,则由该,则由该分布传递的信息量分布传递的信息量分布传递的信息量分布传递的信息量称为称为称为称为P P P P的熵,的熵,的熵,的熵,记为记为记为记为n n定义定义定义定义3 3 3 3:若一个记录集合:若一个记

77、录集合:若一个记录集合:若一个记录集合T T T T根据类别根据类别根据类别根据类别属性属性属性属性的值被分成互的值被分成互的值被分成互的值被分成互相独立的类相独立的类相独立的类相独立的类C1,C2.CkC1,C2.CkC1,C2.CkC1,C2.Ck, 则识别则识别则识别则识别T T T T的一个元素所属哪个类所需要的信息量为的一个元素所属哪个类所需要的信息量为的一个元素所属哪个类所需要的信息量为的一个元素所属哪个类所需要的信息量为Info(TInfo(TInfo(TInfo(T)=)=)=)=I(pI(pI(pI(p) ) ) ),其中,其中,其中,其中P P P P为为为为C1,C2C1

78、,C2C1,C2C1,C2CkCkCkCk的概率分布,即的概率分布,即的概率分布,即的概率分布,即P=(|CP=(|CP=(|CP=(|C1 1 1 1|/|T|,|/|T|,|/|T|,|/|T|,.|C.|C.|C.|Ck k k k|/|T|)|/|T|)|/|T|)|/|T|)5.6.2 决策树及其应用n n定义定义4 4:若先根据非类别属性:若先根据非类别属性X X的值将的值将T T分成集合分成集合T T1 1,T,T2 2,T Tn n,则确定,则确定T T中一个元素类的信息量可通过确定中一个元素类的信息量可通过确定T Ti i的的加权平加权平均值均值来得到,即来得到,即Info(

79、TInfo(Ti i) )的加权平均值为:的加权平均值为:Info(XInfo(X, T)= (|T, T)= (|Ti i|/|/|T|)Info(TT|)Info(Ti i) ) 5.6.2 决策树及其应用n n定义定义定义定义5 5 5 5:信息增益度是两个信息量之间的差值,其中一个:信息增益度是两个信息量之间的差值,其中一个:信息增益度是两个信息量之间的差值,其中一个:信息增益度是两个信息量之间的差值,其中一个信息量是需确定信息量是需确定信息量是需确定信息量是需确定T T T T的一个元素的信息量,另一个信息量是在的一个元素的信息量,另一个信息量是在的一个元素的信息量,另一个信息量是在

80、的一个元素的信息量,另一个信息量是在已得到的属性已得到的属性已得到的属性已得到的属性X X X X的值后需确定的的值后需确定的的值后需确定的的值后需确定的T T T T一个元素的信息量,信息一个元素的信息量,信息一个元素的信息量,信息一个元素的信息量,信息增益度公式为:增益度公式为:增益度公式为:增益度公式为: Gain(XGain(XGain(XGain(X, T)=, T)=, T)=, T)=Info(T)-Info(XInfo(T)-Info(XInfo(T)-Info(XInfo(T)-Info(X, T), T), T), T) 2、ID3算法n当前国际上最有影响的示例学习方法首推

81、当前国际上最有影响的示例学习方法首推J.R.QuinlanJ.R.Quinlan的的ID3ID3。nID3ID3以信息论为基础以信息论为基础, ,以以互信息互信息( (信息增益信息增益, , InfInf ormationormation gain gain)和信息熵为衡量标准和信息熵为衡量标准, ,从而实从而实现对数据的归类分类现对数据的归类分类. .2、ID3算法n工作过程工作过程: :n首先找出最有判别力首先找出最有判别力( (信息增益信息增益,information ,information gain)gain)的属性的属性, ,把数据分成多个子集把数据分成多个子集, ,每个子集每个子

82、集又选择最有判别力的属性进行划分又选择最有判别力的属性进行划分, ,一直进行一直进行到所有子集仅包含同一类型的数据为止到所有子集仅包含同一类型的数据为止. .n最后得到一棵决策树最后得到一棵决策树, ,可用它来对新的实例进可用它来对新的实例进行分类行分类. .训练集训练集PEPE、NENE取子取子集建集建窗口窗口窗口窗口PEPE、NENE生成生成决策决策树树测试测试PEPE、NENE扩展窗口扩展窗口PE=PE+PEPE=PE+PENE=NE+NENE=NE+NE此决策树此决策树为最后结为最后结果果存在错判的存在错判的PEPE,NENE吗吗是是否否ID3ID3主算法流程主算法流程(一)主算法(一

83、)主算法 1 1、 从训练集中随机选择一个既从训练集中随机选择一个既含含正例正例又含又含反例反例的子集(称为的子集(称为 窗口窗口 );); 2 2、用用“建树算法建树算法”对当前窗口对当前窗口形成一棵形成一棵决策树决策树; 3 3、对训练集(窗口除外)中例对训练集(窗口除外)中例子用所得决策树进行类别判定,找出子用所得决策树进行类别判定,找出错判错判的例子;的例子; 4 4、若存在错判的例子,把它们若存在错判的例子,把它们插入窗口,转插入窗口,转2 2,否则结束。,否则结束。n主算法中每迭代循环一次,生成主算法中每迭代循环一次,生成的决策树将会不相同。的决策树将会不相同。(二)建树算法(二)

84、建树算法 1 1、对当前例子集合,计算各特征的对当前例子集合,计算各特征的互互信息;信息; 2 2、选择互信息最大的特征选择互信息最大的特征AkAk; 3 3、把在把在AkAk处取值相同的例子归于同一子集,处取值相同的例子归于同一子集,AkAk取几个取几个值就得几个子集;值就得几个子集; 4 4、对既含正例又含反例的子集,递归调用建树算法;对既含正例又含反例的子集,递归调用建树算法; 5 5、若子集仅含正例或反例,对应分枝标上若子集仅含正例或反例,对应分枝标上P P或或N N,返回返回调用处。调用处。二、二、ID3ID3算法算法 在一实体世界中,每个实体用多个特征来描述。在一实体世界中,每个实

85、体用多个特征来描述。每个特征限于在一个离散集中取每个特征限于在一个离散集中取互斥互斥的值。例如,设的值。例如,设实体是某天早晨,分类任务是关于气候的类型,特征实体是某天早晨,分类任务是关于气候的类型,特征为为: : 天气天气 取值为:取值为: 晴,多云,雨晴,多云,雨 气温气温 取值为:取值为: 冷冷 ,适中,热,适中,热 湿度湿度 取值为:取值为: 高高 ,正常,正常 风风 取值为:取值为: 有风,有风, 无风无风某天早晨气候描述为某天早晨气候描述为: : 天气天气: 多云多云 气温气温: 冷冷 湿度湿度: 正常正常 风风: 无风无风3 3、ID3ID3方法应用实例方法应用实例n它属于哪类气

86、候呢它属于哪类气候呢? ?n每个实体属于不同的类别,为简单起见,假定仅有每个实体属于不同的类别,为简单起见,假定仅有两个类别,分别为两个类别,分别为P P,N N。在这种两个类别的归纳任在这种两个类别的归纳任务中,务中,P P类和类和N N类的实体分别称为概念的正例和反例类的实体分别称为概念的正例和反例n将一些已知的正例和反例放在一起便得到训练集。将一些已知的正例和反例放在一起便得到训练集。n下表给出一个训练集。由下表给出一个训练集。由ID3ID3算法得出一棵正确分类算法得出一棵正确分类训练集中每个实体的决策树,见图。训练集中每个实体的决策树,见图。3 3、ID3ID3方法应用实例方法应用实例

87、NO.属性类别天气气温湿度风1晴热高无风N2晴热高有风N3多云热高无风P4雨适中高无风P5雨冷正常无风P6雨冷正常有风N7多云冷正常有风P8晴适中高无风N9晴冷正常无风P10雨适中正常无风P11晴适中正常有风P12多云适中高有风P13多云热正常无风P14雨适中高有风N天天 气气湿湿 度度风风晴晴雨雨多云多云高高正常正常有风有风无风无风P PN NN NP PP PID3ID3决策树决策树n决策树叶子为类别名,即决策树叶子为类别名,即P P 或者或者N N。其它结点由实其它结点由实体的特征组成,每个特征体的特征组成,每个特征的不同取值对应一分枝。的不同取值对应一分枝。n若要对一实体分类,从树若要

88、对一实体分类,从树根开始进行测试,按特征根开始进行测试,按特征的取值分枝向下进入下层的取值分枝向下进入下层结点,对该结点进行测试结点,对该结点进行测试,过程一直进行到叶结点,过程一直进行到叶结点,实体被判为属于该叶结,实体被判为属于该叶结点所标记的类别。点所标记的类别。n能正确分类训练集的决策能正确分类训练集的决策树不止一棵。树不止一棵。 QuinlanQuinlan的的ID3ID3算法能得出结点最少算法能得出结点最少的决策树。的决策树。3 3、ID3ID3方法应用实例方法应用实例 对于气候分类问题进行具体计算有:对于气候分类问题进行具体计算有: 信息熵的计算信息熵的计算信息熵:信息熵: 类别

89、出现概率:类别出现概率:|S|S|表示例子集表示例子集S S的总数,的总数,| |u ui i| |表示类别表示类别u ui i的例子数。的例子数。对对9 9个正例和个正例和5 5个反例有:个反例有: P P(u u1 1)=9/14 =9/14 P P(u u2 2)=5/14=5/14 H H(U U)=(9/14)log2(14/9)+(5/14)log2(14/5) =0.94bit=0.94bit3 3、ID3ID3方法应用实例方法应用实例 条件熵:条件熵: 条件熵计算条件熵计算属性属性A1取值取值vj时,类别时,类别ui的条件概率:的条件概率:A A1 1= =天气天气 取值取值

90、v v1 1= =晴,晴,v v2 2= =多云,多云,v v3 3= =雨雨在在A A1 1处处取值晴取值晴的例子的例子5 5个,个,取值多云取值多云的例子的例子4 4个,个,取值雨取值雨的例子的例子5 5个,故个,故 P P(v v1 1)=5/14 P=5/14 P(v v2 2)=4/14 P=4/14 P(v v3 3)=5/14=5/14取值为晴取值为晴的的5 5个例子中有个例子中有2 2个正例、个正例、3 3个反例,故:个反例,故: P P(u u1 1/v/v1 1)=2/5=2/5, P P(u u2 2/v/v1 1)=3/5=3/5同理有:同理有:P P(u u1 1/v

91、/v2 2)=4/4=4/4, P P(u u2 2/v/v2 2)=0=0 P P(u u1 1/v/v3 3)=2/5=2/5, P P(u u2 2/v/v3 3)=3/5=3/5H(U/V)=(5/14)(H(U/V)=(5/14)(2/5)log(5/2)+(3/5)log(5/3)(2/5)log(5/2)+(3/5)log(5/3)+ + (4/14)(4/14)(4/4)log(4/4)+0(4/4)log(4/4)+0) )+ + (5/14) (5/14)(2/5)log(5/2)+(3/5)log(5/3)(2/5)log(5/2)+(3/5)log(5/3) = 0.6

92、94bit = 0.694bit 互信息计算互信息计算 对对 A A1 1= =天气天气 处有:处有: I I(天气)天气)=H=H(U U)- H- H(U|VU|V)= 0.94 - 0.694 = 0.246 bit= 0.94 - 0.694 = 0.246 bit 类似可得:类似可得: I I(气温)气温)=0.029 bit=0.029 bit I I(湿度)湿度)=0.151 bit=0.151 bit I I(风)风)=0.048 bit=0.048 bit 建决策树的树根和分枝建决策树的树根和分枝 ID3ID3算法将选择算法将选择互信息最大的特征天气作为树根互信息最大的特征天

93、气作为树根,在,在1414个例子中对个例子中对天气的天气的3 3个取值进行分枝,个取值进行分枝,3 3 个分枝对应个分枝对应3 3 个子集,分别是个子集,分别是: : F1=1F1=1,2 2,8 8,9 9,1111,F2=3F2=3,7 7,1212,1313,F3=4F3=4,5 5,6 6,1010,1414 其中其中F2F2中的例子全属于中的例子全属于P P类,因此对应分枝标记为类,因此对应分枝标记为P P,其余两个子其余两个子集既含有正例又含有反例,将递归调用集既含有正例又含有反例,将递归调用建树算法建树算法。 递归建树递归建树 分别对分别对F1F1和和F3F3子集利用子集利用ID

94、3ID3算法,算法,在每个子集中对各特征(仍为四个特在每个子集中对各特征(仍为四个特征)求互信息征)求互信息. . (1 1)F1F1中的天气全取晴值,则中的天气全取晴值,则H H(U U)=H=H(U|VU|V),有),有I I(U|VU|V)=0=0,在在余下三个特征中求出余下三个特征中求出湿度湿度互信息互信息最大,最大,以它为该分枝的根结点,再向下分枝。以它为该分枝的根结点,再向下分枝。湿度取高的例子全为湿度取高的例子全为N N类,该分枝标记类,该分枝标记N N。取值正常的例子全为取值正常的例子全为P P类,该分枝类,该分枝标记标记P P。 (2 2)在在F3F3中,对四个特征求互中,对

95、四个特征求互信息,得到信息,得到风风特征特征互信息互信息最大,则以最大,则以它为该分枝根结点。再向下分枝,风它为该分枝根结点。再向下分枝,风取有风时全为取有风时全为N N类,该分枝标记类,该分枝标记N N。取取无风时全为无风时全为P P类,该分枝标记类,该分枝标记P P。天天 气气湿湿 度度风风晴晴雨雨多云多云高高正常正常有风有风无风无风P PN NN NP PP PID3ID3决策树决策树4 4、C4.5C4.5算法算法 ID3ID3算法在数据挖掘中占有非常重要的地位。但是,算法在数据挖掘中占有非常重要的地位。但是,在应用中,在应用中,ID3ID3算法不能够处理算法不能够处理连续属性连续属性

96、、计算信息增益、计算信息增益时偏向于选择取值时偏向于选择取值较多的属性较多的属性等不足。等不足。 C4.5C4.5是在是在ID3ID3基础上发展起来的决策树生成算法,由基础上发展起来的决策树生成算法,由J.R.QuinlanJ.R.Quinlan在在19931993年提出。年提出。C4.5C4.5克服了克服了ID3ID3在应用中存在在应用中存在的不足。的不足。 C4.5C4.5的进步的进步 (1 1)用用信息增益率信息增益率来选择属性,它克服了用信息增益选来选择属性,它克服了用信息增益选择属性时偏向选择择属性时偏向选择取值多取值多的属性的不足;的属性的不足; (2 2)在树构造过程中或者构造完

97、成之后,进行在树构造过程中或者构造完成之后,进行剪枝剪枝; (3 3)能够完成对能够完成对连续属性连续属性的离散化处理;的离散化处理; (4 4)能够对能够对不完整不完整数据的处理,例如未知的属性值;数据的处理,例如未知的属性值; (5 5)C4.5C4.5采用的知识表示形式为决策树,并最终可以形采用的知识表示形式为决策树,并最终可以形成产生式规则。成产生式规则。 4 4、C4.5C4.5算法算法C4.5C4.5构造决策树的算法构造决策树的算法 QuinlanQuinlan在在ID3ID3中中使使用用信信息息论论中中的的信信息息增增益益(gaingain)来来选选择择属属性性,而而C4.5C4

98、.5采采用用属属性性的的信信息息增增益益率率(gain gain ratioratio)来选择属性。来选择属性。 信息增益率信息增益率 理论和实验表明,采用理论和实验表明,采用“信息增益率信息增益率”(C4.5C4.5方法)方法)比采用比采用“信息增益信息增益”(ID3ID3方法)更好,方法)更好,主要是克服了主要是克服了ID3ID3方法选择偏向取值多的属性。方法选择偏向取值多的属性。5.6.3 5.6.3 决策规则树及应用决策规则树及应用IBLEIBLE方法:方法: IBLEIBLE方法是利用信息论中方法是利用信息论中信道容量信道容量来选择属性,比互信来选择属性,比互信息更好。息更好。IBL

99、EIBLE方法建决策规则树,每个结点由方法建决策规则树,每个结点由多个属性多个属性取取值组成,提高了属性组合的识别效果。值组成,提高了属性组合的识别效果。F属性的选取通过计算各属性信道容量进行属性的选取通过计算各属性信道容量进行. .F各属性的正例标准值由译码函数决定各属性的正例标准值由译码函数决定. .F结点中判别正反例的阈值结点中判别正反例的阈值( (wn,wpwn,wp) )是由实例中权值变是由实例中权值变化的规律来确定的化的规律来确定的. . IBLE IBLE比比ID3ID3识别率提高了识别率提高了1010个百分点。个百分点。5.6.4 5.6.4 数据挖掘的决策支持应用领域数据挖掘

100、的决策支持应用领域1 1、金融金融(1 1)“数据清理数据清理”、金融市场分析和预测、金融市场分析和预测(2 2)帐户分类、银行担保和信用评估。)帐户分类、银行担保和信用评估。 2 2、医疗保健、医疗保健 任务是进行数据清理,预测医疗保健费用。任务是进行数据清理,预测医疗保健费用。 3 3、市场业、市场业 进行市场定位和消费者分析,辅助制定市进行市场定位和消费者分析,辅助制定市场策略。场策略。5.6.4 5.6.4 数据挖掘的决策支持应用领域数据挖掘的决策支持应用领域4 4、零售业、零售业 目前主要应用于销售预测、库存需求、零售点选择和价格分析。目前主要应用于销售预测、库存需求、零售点选择和价格分析。 5 5、制造业、制造业 进行零部件故障诊断、资源优化、生产过程分析等。进行零部件故障诊断、资源优化、生产过程分析等。 6 6、司法、司法 应用在案件调查、诈骗监测、洗钱认证、犯罪组织分析等工作。应用在案件调查、诈骗监测、洗钱认证、犯罪组织分析等工作。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号