《数据仓库与数据挖掘》第一章概述(34P)

资源描述

《《数据仓库与数据挖掘》第一章概述(34P)》由会员分享，可在线阅读，更多相关《《数据仓库与数据挖掘》第一章概述(34P)（34页珍藏版）》请在金锄头文库上搜索。

1、1数据仓库与数据挖掘数据仓库与数据挖掘（DATA WAREHOUSING AND DATA MINING）软软件件学学院院2第一章第一章数据仓库与数据挖掘概述数据仓库与数据挖掘概述本章要点本章要点数据仓库的发展数据仓库的发展数据仓库的基本概念数据仓库的基本概念数据挖掘的发展数据挖掘的发展数据挖掘的基本概念数据挖掘的基本概念数据仓库与数据挖掘的集数据仓库与数据挖掘的集成成3数据仓库的发展数据仓库的发展自从自从NCR公司为公司为Wal Mart建立了第一个数据仓库。建立了第一个数据仓库。1996年，加拿大的年，加拿大的IDC公司调查了公司调查了62家实现了数据仓库的欧美家实现了数据仓库的欧

2、美企业。企业。客户客户/服务器结构服务器结构-分布式对象。分布式对象。IBM的实验室在数据仓库方面已经进行了的实验室在数据仓库方面已经进行了10多年的研究，并将多年的研究，并将研究成果发展成为商用产品。研究成果发展成为商用产品。其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。4数据仓库的发展数据仓库的发展IBM: 在其在其DB2UDB发布一年后的发布一年后的1998年年9月发布月发布5.2版，并于版，并于1998年年12月推向中国市场，除了用于月推向中国市场，除了用于OLAP（联机分析处理）的后台服务器（联机分析处理）的后台服务器

3、DB2 OLAP Server外，外，IBM还提供了一系列相关的产品，包括前还提供了一系列相关的产品，包括前端工具，形成一整套解决方案。端工具，形成一整套解决方案。Informix公司公司: 在其动态服务器在其动态服务器IDS（Informix Dynamic Server）中提供一系列相关选件，如高级决）中提供一系列相关选件，如高级决策支持选件（策支持选件（Advanced Decision Support Option）、）、OLAP选件（选件（MetaCube ROLAP Option）、扩展并）、扩展并行选件（行选件（Extended Parallel Option）等。）等。5数据仓

4、库的发展数据仓库的发展微软公司微软公司: 在其在其SQL Server7.0以及以及SQL Server2000中集中集成了代号为成了代号为Plato的的OLAP服务器。服务器。Sybase: 提供了专门的提供了专门的OLAP服务器服务器Sybase IQ，并将其，并将其与数据仓库相关工具打包成与数据仓库相关工具打包成Warehouse Studio 。Oracle公司公司: 则推出从数据仓库构建、则推出从数据仓库构建、OLAP到数据集市到数据集市管理等一系列产品包（如管理等一系列产品包（如Oracle Warehouse Builder、Oracle Express、DataMart Sui

5、t等）。等）。 6数据仓库在我国的发展数据仓库在我国的发展现状：数据仓库的概念已经被国内用户接受多年，但在现状：数据仓库的概念已经被国内用户接受多年，但在应用方面的收效仍很有限。应用方面的收效仍很有限。原因：原因：尚不存在可靠的、完善的、被广泛接受的数据仓库标准；尚不存在可靠的、完善的、被广泛接受的数据仓库标准；现有的数据库系统不健全，数据积累还不够，无法提出决策现有的数据库系统不健全，数据积累还不够，无法提出决策支持需求；支持需求；缺乏能够担负规划、设计、构建和维护数据仓库的重任的复缺乏能够担负规划、设计、构建和维护数据仓库的重任的复合型人才；合型人才；缺乏数据仓库前端工具（如缺乏数据仓库前

6、端工具（如OLAP工具、数据挖掘工具等）；工具、数据挖掘工具等）；由于国内外文化的差异，一些用于构建数据仓库的知名产品由于国内外文化的差异，一些用于构建数据仓库的知名产品无法处理一些难以预料的问题，使得建立数据仓库的困难加无法处理一些难以预料的问题，使得建立数据仓库的困难加大。大。7数据仓库的我国的发展数据仓库的我国的发展前景：随着计算机技术的发展，尤其是分布式技术前景：随着计算机技术的发展，尤其是分布式技术的发展，的发展，数据仓库在我国有着广阔的发展空间和良数据仓库在我国有着广阔的发展空间和良好的发展前景。例如：好的发展前景。例如：由于银行商业化的步伐正在加大，各大中型银行在入世的由于银行

7、商业化的步伐正在加大，各大中型银行在入世的机遇和挑战下，开始重新考虑自身的业务，特别是信贷风机遇和挑战下，开始重新考虑自身的业务，特别是信贷风险管理方面特别注意，因而有关信贷风险管理和风险规章险管理方面特别注意，因而有关信贷风险管理和风险规章的基于数据仓库的决策支持系统的需求逐渐增多；的基于数据仓库的决策支持系统的需求逐渐增多；由于电子商务的迅速发展，越来越多的电子商务网站，开由于电子商务的迅速发展，越来越多的电子商务网站，开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等，为客户提供更进一步的个性化服务；度分析等，为客户提供更进一步

8、的个性化服务；如移动通信等各大型企业也开始考虑着手进行决策支持以如移动通信等各大型企业也开始考虑着手进行决策支持以及数据仓库规划。及数据仓库规划。8从数据库到数据仓库从数据库到数据仓库数据库应用的规模和深度数据库应用的规模和深度点点线线面面互联网互联网在线分析处理在线分析处理(OLAP) 在线事务处理在线事务处理决策支持决策支持(DS) (OLTP) 数据挖掘数据挖掘(Data Mining)9事务型处理与分析型处理事务型处理与分析型处理事务型处理：即操作型处理，是指对数据库事务型处理：即操作型处理，是指对数据库的联机操作处理。事务型处理是用来协助企的联机操作处理。事务型处理是用来协

9、助企业对响应事件或事务的日常商务活动进行处业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的，通常是对理。它是事件驱动、面向应用的，通常是对一个或一组记录的增、删、改以及简单查询一个或一组记录的增、删、改以及简单查询等。等。10分析型处理分析型处理分析型处理：用于管理人员的决策分析，例分析型处理：用于管理人员的决策分析，例如如DSS、 EIS、和多维分析等。它帮助决策者、和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。分析型处分析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据，支持复杂的理经常要访问大量的历史数据，支持复杂的查询。在分析型处理中，并不是对从

10、事务型查询。在分析型处理中，并不是对从事务型处理环境处理环境中得到的细节数据进行分析。分析中得到的细节数据进行分析。分析型处理过程中经常用到外部数据。型处理过程中经常用到外部数据。11事务型处理数据和分析型处理数据的区别事务型处理数据和分析型处理数据的区别事务型处理数据事务型处理数据分析型处理数据分析型处理数据细节的细节的综合的，或提炼的综合的，或提炼的在存取瞬间是准确的在存取瞬间是准确的代表过去的数据代表过去的数据可更新可更新不可更新，只读的不可更新，只读的操作需求事先可知道操作需求事先可知道操作需求事先不知操作需求事先不知生命周期符合生命周期符合SDLC完全不同的生命周期完全

11、不同的生命周期对性能要求高对性能要求高对性能要求宽松对性能要求宽松一个时刻操作一个单元一个时刻操作一个单元一个时刻操作一个一个时刻操作一个事务驱动事务驱动分析驱动分析驱动面向应用面向应用面向分析面向分析一次操作数据量小一次操作数据量小一次操作数据量大一次操作数据量大支持日常操作支持日常操作支持管理需求支持管理需求 12数据库系统的局限性数据库系统的局限性数据库适于存储高度结构化的日常事务细节数据，数据库适于存储高度结构化的日常事务细节数据，而决策型数据多为历史性、汇总性或计算性数据，而决策型数据多为历史性、汇总性或计算性数据，多表现为静态数据，不需直接更新，但可周期性刷多表现为静态数据，不需

12、直接更新，但可周期性刷新。新。决策分析型数据是多维性，分析内容复杂。决策分析型数据是多维性，分析内容复杂。在事务处理环境中，决策者可能并不关心具体的在事务处理环境中，决策者可能并不关心具体的细节信息，在决策分析环境中，如果这些细节数据细节信息，在决策分析环境中，如果这些细节数据量太大一方面会严重影响分析效率，另一方面这些量太大一方面会严重影响分析效率，另一方面这些细节数据会分散决策者的注意力。细节数据会分散决策者的注意力。13数据库系统的局限性数据库系统的局限性当事务型处理环境和分析型处理环境在同一个数当事务型处理环境和分析型处理环境在同一个数据库系统中，事务型处理对数据的存取操作频率据库

13、系统中，事务型处理对数据的存取操作频率高，操作处理的时间短，而分析型处理可能需要高，操作处理的时间短，而分析型处理可能需要连续运行几个小时，从而消耗大量的系统资源。连续运行几个小时，从而消耗大量的系统资源。决策型分析数据的数据量大，这些数据有来自企决策型分析数据的数据量大，这些数据有来自企业内部的，也有来自企业外部的。来自企业外部业内部的，也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统，在分析时的数据又可能来自不同的数据库系统，在分析时如果直接对这些数据操作会造成分析的混乱。对如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据，数据库系统于外部数据中的

14、一些非结构化数据，数据库系统常常是无能为力的。常常是无能为力的。14多库系统的限制多库系统的限制可用性：源站点或通信网络故障将导致系统瘫可用性：源站点或通信网络故障将导致系统瘫痪痪, 源站点不能通过网络在线联入多库系统。源站点不能通过网络在线联入多库系统。响应速度：全局查询多级转换和通信传输响应速度：全局查询多级转换和通信传输, 延迟延迟和低层效率影响响应速度。和低层效率影响响应速度。系统性能：总体性能取决于源站点中性能最低系统性能：总体性能取决于源站点中性能最低的系统的系统, 影响系统性能的发挥影响系统性能的发挥;系统开销：系统开销：每次查询要启动多个局部系统每次查询要启动多个局部系统,

15、通通信和运行开销大。信和运行开销大。 15数据仓库数据仓库(Data Warehouse)的定义的定义数据仓库用来保存从多个数据库或其它信息源选取的数据仓库用来保存从多个数据库或其它信息源选取的数据数据, 并为上层应用提供统一并为上层应用提供统一用户接口，完成数据查用户接口，完成数据查询和分析。询和分析。数据仓库是作为数据仓库是作为DSS服务基础的分析型服务基础的分析型DB，用来存用来存放大容量的只读数据，为制定决策提供所需要的信息。放大容量的只读数据，为制定决策提供所需要的信息。W.H.Inmon对数据仓库所下的定义：数据仓库是面向对数据仓库所下的定义：数据仓库是面向主题的、集成的、稳定的

16、、随时间变化的数据集合，主题的、集成的、稳定的、随时间变化的数据集合，用以支持管理决策的过程。用以支持管理决策的过程。16数据仓库的适用范围数据仓库的适用范围信息源中的数据变化稳定信息源中的数据变化稳定或可预测应用不需要最新的数据或可预测应用不需要最新的数据或允许有延迟或允许有延迟应用要求有较高的查询性能应用要求有较高的查询性能而降低精度要求而降低精度要求17数据仓库中数据的特点数据仓库中数据的特点面向主题面向主题集成性集成性稳定性稳定性时变性时变性18面向主题面向主题主题：是一个抽象的概念，是在较高层次上主题：是一个抽象的概念，是在较高层次上将企业信息系统中的数据综合、归类并进行

17、将企业信息系统中的数据综合、归类并进行分析利用的抽象。分析利用的抽象。面向主题的数据组织方式可在较高层次上对面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述，能分析对象的数据给出完整、一致的描述，能完整、统一的刻画各个分析对象所涉及的企完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系。业的各项数据以及数据之间的联系。19集成性集成性数据仓库中的数据是从原有分散的源数据数据仓库中的数据是从原有分散的源数据库中提取出来的，其每一个主题所对应的库中提取出来的，其每一个主题所对应的源数据在原有的数据库中有许多冗余和不源数据在原有的数据库中有许多冗余和不一致，

18、且与不同的应用逻辑相关。因此，一致，且与不同的应用逻辑相关。因此，数据仓库在提取数据时必须经过数据集成，数据仓库在提取数据时必须经过数据集成，消除源数据中的矛盾，并进行数据综合和消除源数据中的矛盾，并进行数据综合和计算。经过数据集成后，数据仓库所提供计算。经过数据集成后，数据仓库所提供的信息比数据库提供的信息更概括、更本的信息比数据库提供的信息更概括、更本质。质。 20稳定性稳定性数据仓库中的数据反映的是一段时间内历史数据仓库中的数据反映的是一段时间内历史数据的内容，是不同时点的数据库快照的集数据的内容，是不同时点的数据库快照的集合，以及基于撰写快照进行统计、综合和重合，以及基于撰写快照进行统

19、计、综合和重组的导出数据，而不是联机处理的数据。主组的导出数据，而不是联机处理的数据。主要供企业高层决策分析之用，所涉及的数据要供企业高层决策分析之用，所涉及的数据操作主要是查询，一般情况下并不进行修改操作主要是查询，一般情况下并不进行修改操作，即数据仓库中的数据是不可实时更新操作，即数据仓库中的数据是不可实时更新的，仅当超过规定的存储期限，才将其从数的，仅当超过规定的存储期限，才将其从数据仓库中删除，提取新的数据经集成后输入据仓库中删除，提取新的数据经集成后输入数据仓库。数据仓库。21时变性时变性时变性：许多商业分析要求对发展趋势做出时变性：许多商业分析要求对发展趋势做出预测，对发展趋势的分

20、析需要访问历史数据。预测，对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉因此数据仓库必须不断捕捉OLTP数据库中数据库中变化的数据，生成数据库的快照，经集成后变化的数据，生成数据库的快照，经集成后增加到数据仓库中去；另外数据仓库还需要增加到数据仓库中去；另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助随时间的变化删去过期的、对分析没有帮助的数据，并且还需要按规定的时间段增加综的数据，并且还需要按规定的时间段增加综合数据。合数据。22支持管理决策支持管理决策数据仓库支持数据仓库支持OLAP（联机分析处理）、数据挖（联机分析处理）、数据挖掘和决策分析。掘和决策分析。OLAP从数

21、据仓库中的综合数据从数据仓库中的综合数据出发，提供面向分析的多维模型，并使用多维分出发，提供面向分析的多维模型，并使用多维分析的方法从多个角度、多个层次对多维数据进行析的方法从多个角度、多个层次对多维数据进行分析，使决策者能够以更加自然的方式来分析数分析，使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据。数据挖掘则以数据仓库和多维数据库中的数据为基础，发现数据中的潜在模式和进行预测。据为基础，发现数据中的潜在模式和进行预测。因此，数据仓库的功能是支持管理层进行科学决因此，数据仓库的功能是支持管理层进行科学决策，而不是事务处理。策，而不是事务处理。23数据仓库的技

22、术要求数据仓库的技术要求大量数据的组织和管理：包含了大量的历史数据，大量数据的组织和管理：包含了大量的历史数据，不必关心它的数据安全性和数据完整性。不必关心它的数据安全性和数据完整性。复杂分析的高性能体现：涉及大量数据的聚集、综复杂分析的高性能体现：涉及大量数据的聚集、综合等，在进行复杂查询时经常会使用多表的联接、合等，在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。累计、分类、排序等操作。对提取出来的数据进行集成：数据仓库中的数据在对提取出来的数据进行集成：数据仓库中的数据在不同的应用领域和不同的数据库系统中都有不同的不同的应用领域和不同的数据库系统中都有不同的结构和形式，所以

23、如何对数据进行集成也是构建数结构和形式，所以如何对数据进行集成也是构建数据仓库的一个重要方面。据仓库的一个重要方面。对进行高层决策的最终用户的界面支持：提供各种对进行高层决策的最终用户的界面支持：提供各种分析应用工具。分析应用工具。24数据挖掘的发展数据挖掘的发展数据挖掘是与数据仓库密切相关的一个信息技术新数据挖掘是与数据仓库密切相关的一个信息技术新领域，它是信息技术自然演化的结果。领域，它是信息技术自然演化的结果。随着数据库技术的迅速发展以及数据库管理系统的随着数据库技术的迅速发展以及数据库管理系统的广泛应用，人们积累的数据越来越多，但缺乏挖掘广泛应用，人们积累的数据越来越多，但缺乏挖掘数据

24、中隐藏的知识的手段，导致了数据中隐藏的知识的手段，导致了“数据爆炸但知数据爆炸但知识贫乏的识贫乏的”现象。现象。自自80年代后期以来，联机分析处理（年代后期以来，联机分析处理（OLAP）和数）和数据挖掘技术应运而生。据挖掘技术应运而生。25数据挖掘的发展数据挖掘的发展数据挖掘（数据挖掘（Data Mining，简记为，简记为DM）是从关系）是从关系数据库、数据仓库、数据库、数据仓库、WEB数据库以及其他文件系数据库以及其他文件系统中发现重要的数据模式、规律的过程，因此又统中发现重要的数据模式、规律的过程，因此又称为数据库中的知识发现（称为数据库中的知识发现（Knowledge Discover

25、y in Database, 简记为简记为KDD），它是），它是OLAP的高级阶的高级阶段。段。自自20世纪世纪80年代起，开始了数据挖掘技术的研究。年代起，开始了数据挖掘技术的研究。1989年在美国召开的国际学术会议上包含了年在美国召开的国际学术会议上包含了“从从数据库中知识发现数据库中知识发现”的主题；的主题；1995年在加拿大召年在加拿大召开了第一届知识发现与数据挖掘国际学术会议。开了第一届知识发现与数据挖掘国际学术会议。 26数据挖掘的定义数据挖掘的定义数据挖掘（数据挖掘（Data Mining，简记为，简记为DM）：是指从大型）：是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡

26、的数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式的高级处理过程。及有潜在应用价值的信息或模式的高级处理过程。模式：即知识，它给出了数据特性或数据之间的关系，模式：即知识，它给出了数据特性或数据之间的关系，是对数据所包含的信息更抽象的描述。按功能可以分是对数据所包含的信息更抽象的描述。按功能可以分为预测型模式和描述型模式。在实际应用中，可以细为预测型模式和描述型模式。在实际应用中，可以细分为关联模式、分类模式、聚类模式和序列模式等。分为关联模式、分类模式、聚类模式和序列模式等。数据挖掘是一门交叉性学科，它涉及到机器学习、模数据挖掘是一门交叉性学科，它涉及到机器学习、模

27、式识别、统计学、智能数据库、知识获取、数据可视式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。可广泛地应化、高性能计算、专家系统等多个领域。可广泛地应用于信息管理、过程控制、科学研究、决策支持等许用于信息管理、过程控制、科学研究、决策支持等许多方面。多方面。 27数据挖掘的类型数据挖掘的类型数据挖掘的任务是从大量的数据中发现模式。数据挖掘的任务是从大量的数据中发现模式。根据数据挖掘的任务可分为多种类型，其中根据数据挖掘的任务可分为多种类型，其中比较典型的有：比较典型的有：预测模型预测模型关联分析关联分析分类分析分类分析聚类分析聚类分析序列分析序列分析偏差检测偏

28、差检测模式相似性挖掘模式相似性挖掘Web数据挖掘数据挖掘28预测模型预测模型预测模型（预测模型（Predictive Modeling）：所谓预测即）：所谓预测即从数据库或数据仓库中已知的数据推测未知的从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布。数据或对象集中某些属性的值分布。建立预测模型的常用方法：建立预测模型的常用方法：回归分析回归分析线性模型线性模型关联规则关联规则决策树预测决策树预测遗传算法遗传算法神经网络神经网络29关联分析关联分析关联（关联（Association）分析：关联规则描述了一组数据）分析：关联规则描述了一组数据项之间的密切度或关系。关联分析用

29、于发现项目集之项之间的密切度或关系。关联分析用于发现项目集之间的关联。在关联规则挖掘算法中，通常给出了置信间的关联。在关联规则挖掘算法中，通常给出了置信度和支持度两个概念，对于置信度和支持度均大于给度和支持度两个概念，对于置信度和支持度均大于给定阈值的规则称为强规则，而关联分析主要就是对强定阈值的规则称为强规则，而关联分析主要就是对强规则的挖掘。规则的挖掘。关联规则挖掘近几年研究较多。它广泛地运用于帮助关联规则挖掘近几年研究较多。它广泛地运用于帮助市场导向、商品目录设计客户关系管理）（市场导向、商品目录设计客户关系管理）（CRM）和其他各种商业决策过程中。和其他各种商业决策过程中。关联分析算法

30、：关联分析算法：APRIORI算法、算法、DHP算法、算法、DIC算法、算法、PARTITION算法及它们的各种改进算法等。算法及它们的各种改进算法等。30分类分析分类分析分类（分类（Classification）分析：所谓分类是根据数据的）分析：所谓分类是根据数据的特征为每个类别建立一个模型，根据数据的属性将数特征为每个类别建立一个模型，根据数据的属性将数据分配到不同的组中。在实际应用过程中，分类规则据分配到不同的组中。在实际应用过程中，分类规则可以分析分组中数据的各种属性，并找出数据的属性可以分析分组中数据的各种属性，并找出数据的属性模型，从而确定哪些数据属于哪些组。分类分析已经模型，从而

31、确定哪些数据属于哪些组。分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡成功地用于顾客分类、疾病分类、商业建模和信用卡分析等。分析等。分类分析的常用方法：分类分析的常用方法：约略（约略（Rough）集）集决策树决策树神经网络神经网络统计分析法统计分析法31聚类分析聚类分析聚类聚类(Clustering)分析：所谓聚类是指一组彼分析：所谓聚类是指一组彼此间非常此间非常“相似相似”的数据对象的集合。相似的数据对象的集合。相似的程度可以通过距离函数来表示，由用户或的程度可以通过距离函数来表示，由用户或专家指定。聚类分析是按照某种相近程度度专家指定。聚类分析是按照某种相近程度度量方法将数据分

32、成互不相同的一些分组。聚量方法将数据分成互不相同的一些分组。聚类分析的常用方法：类分析的常用方法：随机搜索聚类法随机搜索聚类法特征聚类特征聚类CF树树32序列分析序列分析序列（序列（Sequence）分析：序列分析主要用于）分析：序列分析主要用于分析数据仓库中的某类与时间相关的数据，分析数据仓库中的某类与时间相关的数据，搜索类似的序列或子序列，并挖掘时序模式、搜索类似的序列或子序列，并挖掘时序模式、周期性、趋势和偏离等。例如，它可以导出周期性、趋势和偏离等。例如，它可以导出类似类似“若若AT&T股票连续上涨两天且股票连续上涨两天且DEC股股票不下跌，则第三天票不下跌，则第三天IBM股票上涨的可

33、能性股票上涨的可能性为为75%”的数据关系。序列模式可以看成是的数据关系。序列模式可以看成是一种特定的关联模型，它在关联模型中增加一种特定的关联模型，它在关联模型中增加了时间属性。了时间属性。33偏差检测与模式相似性挖掘偏差检测与模式相似性挖掘偏差检测（偏差检测（Deviation Detection）：用于检测并解释）：用于检测并解释数据分类的偏差，它有助于滤掉知识发现引擎所抽数据分类的偏差，它有助于滤掉知识发现引擎所抽取的无关信息，也可滤掉那些不合适的数据，同时取的无关信息，也可滤掉那些不合适的数据，同时可产生新的关注性事实。可产生新的关注性事实。模式相似性挖掘：用于在时间数据库或空间数据

34、库模式相似性挖掘：用于在时间数据库或空间数据库中搜索相似模式时，从所有对象中找出用户定义范中搜索相似模式时，从所有对象中找出用户定义范围内的对象；或找出所有元素对，元素对中两者的围内的对象；或找出所有元素对，元素对中两者的距离小于用户定义的距离范围。模式相似性挖掘的距离小于用户定义的距离范围。模式相似性挖掘的方法有相似度测量法、遗传算法等。方法有相似度测量法、遗传算法等。34Web数据挖掘数据挖掘Web数据挖掘包括数据挖掘包括Web使用模使用模式挖掘、式挖掘、Web结构挖掘和结构挖掘和Web内容挖掘等。内容挖掘等。基于基于Web的研究：搜索引擎的的研究：搜索引擎的设计、文件自动分类技术、关设计、文件自动分类技术、关键词的自动提取、半结构化信键词的自动提取、半结构化信息的提取及息的提取及Web上新型应用的上新型应用的研究等。研究等。

展开阅读全文

《数据仓库与数据挖掘》第一章 概述(34P)

最新文档

《数据仓库与数据挖掘》第一章概述(34P)