第2章知识发现过程与应用结构

资源描述

《第2章知识发现过程与应用结构》由会员分享，可在线阅读，更多相关《第2章知识发现过程与应用结构（93页珍藏版）》请在金锄头文库上搜索。

1、1,第二章知识发现过程与应用结构,在上一章指出，数据挖掘有广义和狭义两种理解。为了避免混淆，本章使用知识发现而把数据挖掘限制在上面所描述的狭义概念上。,2,2.1知识发现的基本过程,3,知识发现是一个系统化的工作,从源数据中发现有用知识是一个系统化的工作。首先必须对可以利用的源数据进行分析，确定合适的挖掘目标。然后才能着手系统的设计和开发。,4,完成从大型源数据中发现有价值知识的过程可以简单地概括为：,从数据源中抽取感兴趣的数据，并把它组织成适合挖掘的数据组织形式；,5,一般地说，KDD是一个多步骤的处理过程，一般分为问题定义、数据抽取、数据预处理、数据挖掘以及模式评估等基本阶段。,6,1

2、. 问题定义阶段的功能,KDD是为了在大量数据中发现有用的令人感兴趣的信息，因此发现何种知识就成为整个过程中第一个也是最重要的一个阶段。,7,在问题定义过程中，数据挖掘人员必须和领域专家以及最终用户紧密协作。一方面了解相关领域的有关情况，熟悉背景知识，弄清用户要求，确定挖掘的目标等要求；另一方面通过对各种学习算法的对比进而确定可用的学习算法。后续的学习算法选择和数据集准备都是在此基础上进行的。,8,2. 数据抽取阶段的功能,数据抽取的目的是选取相应的源数据库，并根据要求从数据库中提取相关的数据。源数据库的选取以及从中抽取数据的原则和具体规则必须依据系统的任务来确定。,9,弄清源数据的信息和

3、结构,准确界定所选取的数据源和抽取原则,数据集成：将多数据库运行环境中的数据进行合并,设计存储新数据的结构、准确定义它与源数据的转换和转载机制,10,3. 数据预处理阶段的功能,对数据进行预处理，一般需要对源数据进行再加工，检查数据的完整性及数据的一致性，对其中的噪音数据进行平滑，对丢失的数据进行填补，消除“脏”数据，消除重复记录，完成数据类型转换等。有一种“3:7”的说法，就是指数据抽取和预处理工作一般可能占到整个KDD过程的70%左右。,11,4. 数据挖掘阶段的功能,选择数据挖掘算法有两个考虑因素：一是不同的数据有不同的特点，因此需要用与之相关的算法来挖掘；二是用户或实际运行系统的要求

4、（见下页）,运用选定的数据挖掘算法，从数据中提取出用户所需要的知识，这些知识可以用一种特定的方式表示。,12,有的用户可能希望获取描述型的（Descriptive）、容易理解的知识（采用规则表示的挖掘方法显然要好于神经网络之类的方法），而有的用户只是希望获取预测准确度尽可能高的预测型（Predictive）知识，并不在意获取的知识是否易于理解。,13,5. 知识评估阶段的功能,数据挖掘阶段发现出来的模式，经过评估，可能存在冗余或无关的模式，这时需要将其剔除；也有可能模式不满足用户要求，这时则需要整个发现过程回退到前续阶段，如重新选取数据、采用新的数据变换方法、设定新的参数值，甚至换一种算法等

5、等。,14,KDD由于最终是面向人类用户的，因此可能要对发现的模式进行可视化，或者把结果转换为用户易懂的另一种表示。所以知识评估阶段是KDD一个重要的必不可少的阶段，它不仅担负着将KDD系统发现的知识以用户能了解的方式呈现，而且根据需要进行知识评价，如果和用户的挖掘目标不一致就需要返回前面相应的步骤进行螺旋式处理以最终获得可用的知识。,15,知识发现需要多方合作,业务分析人员数据分析人员数据管理人员,16,数据预处理是进行数据分析和挖掘的基础。如果所集成的数据不正确，数据挖掘算法输出的结果也必然不正确，这样形成的决策支持是不可靠的。所以，要提高挖掘结果的准确率，数据预处理是不可忽视的

6、一步。,为什么要预处理数据,17,当今现实世界的数据库极易受噪声、丢失数据和不一致数据的侵扰，因为数据库太大，并且多半来自多个异构数据源。低质量的数据将导致低质量的挖掘结果。,18,数据预处理的方法,有大量数据预处理技术，主要方法如下：数据清洗数据集成数据变换数据归约,需要强调的是以上所提的各种数据预处理方法，不是相互独立的，而是相互关联的。,19,2.1.1 数据清洗,现实世界的数据常常是不完整的、有噪声的和不一致的。数据清洗例程通过填补缺失值、消除异常数据、平滑噪声数据，以及纠正不一致的数据。,20,1. 填补缺失值,假设在分析一个商场销售数据时，发现有多个记录中的属性值为空，如

7、：顾客的收入属性，这就是缺失值。怎样才能为该属性填上丢失的值？我们看看下面的方法：,21,22,23,24,25,注意：在某些情况下，缺失值并不意味着数据有错误。,26,2. 平滑噪声数据,噪声是指被测量的变量的随机误差或方差。给定一个数值型属性，如：价格，我们怎样才能“平滑”数据，去掉噪声？我们看看下面的数据平滑技术：,27,分箱(binning)方法,分箱方法通过考察数据的“近邻”(即周围的值)来光滑有序数据的值。有序值分布到一些“箱”中。由于该方法考察近邻的值，因此进行局部光滑。,28,29,聚类方法,通过聚类分析可帮助发现异常数据，道理很简单，相似或相邻近的数据聚合在一起形成了各个

8、聚类集合，而那些位于这些聚类集合之外的数据对象，自然而然就被认为是异常数据。,30,31,回归方法,可以利用拟合函数对数据进行平滑。如：借助线性回归方法，包括多变量回归方法，就可以获得的多个变量之间的一个拟合关系，从而达到利用一个（或一组）变量值来帮助预测另一个变量取值的目的。,32,3. 不一致数据处理,现实世界的数据库常出现数据记录内容的不一致，其中一些数据不一致可以利用它们与外部的关联手工加以解决。例如：输入发生的数据录入错误一般可以与原稿进行对比来加以纠正。此外还有一些例程可以帮助纠正使用编码时所发生的不一致问题。知识工程工具也可以帮助发现违反数据约束条件的情况。,33,数据挖掘任务

9、常常涉及数据集成操作，即将来自多个数据源的数据，如：数据库、数据立方、普通文件等，结合在一起并形成一个统一数据集合，以便为数据挖掘工作的顺利完成提供完整的数据基础。在数据集成过程中，需要考虑解决以下几个问题：,2.1.2 数据集成,34,1. 模式集成问题,模式集成问题，即如何使来自多个数据源的现实世界的实体相互匹配，这其中就涉及到实体识别问题。例如：如何确定一个数据库中的“custom_id”与另一个数据库中的“cust_number”是否表示同一实体。数据库与数据仓库通常包含元数据，所谓元数据就是关于数据的数据，这些元数据可以帮助避免在模式集成时发生错误。,35,2. 冗余问题,若一个

10、属性可以从其它属性中推演出来，那这个属性就是冗余属性。如：一个顾客数据表中的平均月收入属性，就是冗余属性。显然它可以根据月收入属性计算出来。此外属性命名的不一致也会导致集成后的数据集出现冗余情况。除了检查属性是否冗余之外，还需要检查记录行的冗余。,36,3. 数据值冲突检测与消除问题,对于现实世界的同一实体，来自不同数据源的属性值或许不同。产生这样问题原因可能是表示的差异、比例尺度不同、或编码的差异等。例如：重量属性在一个系统中采用公制，而在另一个系统中却采用英制。同样价格属性不同地点采用不同货币单位。这些语义的差异为数据集成提出许多问题。,37,所谓数据变换就是将数据转换或统一成适

11、合挖掘的形式。数据变换包含以下处理内容：,2.1.3 数据变换,38,39,对大规模数据库进行复杂的数据分析需要耗费大量时间，这是不现实和不可行的。数据归约技术正是用于帮助从原有庞大数据集中获得一个精简的数据集合，并使这一精简数据集保持原有数据集的完整性。这样进行数据挖掘效率更高，并且挖掘出来的结果与使用原有数据集所获得结果基本相同。,2.1.4 数据归约,40,主要方法包括：数据立方体聚集、维度归约、数据压缩、数值压缩和离散化等；这些方法主要用于在保证原来数据信息内涵减少最小化的同时对原来数据规模进行消减，并提出一个简洁的数据表示。,41,2.2数据库中的知识发现处理过程模型,42,一

12、般地说，KDD是一个需要经过多次反复的，包括许多处理阶段的复杂处理过程，数据挖掘是其中至关重要的一个阶段。正因为数据挖掘的重要性，目前的KDD研究大多侧重于数据挖掘的研究，而忽略了其他方面。,43,阶梯处理过程模型将数据库中的知识发现看作是一个多阶段的处理过程。它的突出特点是阶梯状递进的。,2.2.1 阶梯处理过程模型,44,图 KDD阶梯处理过程模型,45,它强调领域专家参与的重要性，并以问题的定义为中心循环评测挖掘的结果。当结果不令人满意时，就需要重新定义问题，开始新的处理循环。每次循环都使问题更清晰，结果更准确，因此是一个螺旋式上升过程。,2.2.2 螺旋处理过程模型,46,图螺旋处

13、理过程模型,47,Brachman和Anand从用户的角度对KDD处理过程进行了分析。他们认为数据库中的知识发现应该更着重于对用户进行知识发现的整个过程的支持，而不是仅仅限于在数据挖掘的一个阶段上。该模型强调对用户与数据库的交互的支持。,2.2.3 以用户为中心的处理模型,48,图以用户为中心的处理模型,49,实现联机交互式KDD需要可视化技术支撑。这种可视化需要从数据挖掘过程可视化、数据可视化、模型可视化和算法可视觉化等方面来理解。 OLAM（On Line Analytical Mining：联机分析挖掘）的概念是OLAP的发展。,2.2.4 联机KDD模型,50,图一个OLAM结构示

14、意图,51,数据与方法相对独立。数据不是针对某一特定知识模式，而是针对某一类问题来抽取。经过预处理后，这些数据对于某些挖掘算法来说可能存在属性冗余、与目标无关等问题，因此在后面的阶段再进行相关的数据清洗和选择工作，这样使得解决同一类问题的不同算法可以在统一的KDD平台上完成。,2.2.5 支持多数据源多知识模式的KDD处理模型,52,知识,目标数据,备选数据,源数据,53,2.3知识发现软件或工具的发展,54,虽然市场上已经有许多所谓的知识发现系统或工具，但是，这些工具只能用来辅助技术人员进行设计和开发；而且知识发现软件本身也正处于发展阶段，仍然存在各种各样需要解决的问题。,知识发现软件的发

15、展,55,粗略地说，知识发现软件或工具的发展经历了三个主要阶段：,独立的知识发现软件,56,2.3.1 独立的知识发现软件,独立的知识发现软件出现在数据挖掘和知识发现技术研究的早期。,57,当研究人员开发出一种新型的数据挖掘算法后，就在此基础上形成软件原型。这些原型系统经过完善被尝试使用。这类软件要求用户必须对具体的数据挖掘技术和算法有相当的了解，还要手工负责大量的数据预处理工作。,58,集成化的知识发现辅助工具集，属于通用辅助工具范畴，可以帮助用户快速完成知识发现的不同阶段处理工作。,2.3.2 横向的知识发现工具集,59,随着横向的数据挖掘工具集的使用日渐广泛，人们也发现这类工具只有精通数据挖掘算法的专家才能熟练使用。如果对数据挖掘和知识发现技术及其算法不了解，就难以开发出好的应用。因此，纵向的数据挖掘解决方案被提出。,2.3.3 纵向的知识发现解决方案,60,该方法的核心是针对特定的应用提供完整的数据挖掘和知识发现解决方案。由于和具体的商业逻辑相结合，因此，数据挖掘技术专门为了解决某些特定的问题被使用，成为企业应用系统中一部分。,61,特定领域的数据挖掘工具针对性比较强，只能用于一种应用。也正因为针对性强，往往采用特殊的算法，可以处理特殊的数据，实现特殊的目的，发现的知识可靠度也比较高。,

展开阅读全文

第2章 知识发现过程与应用结构

第2章知识发现过程与应用结构