Web+数据挖掘－金锄头文库

资源描述

《Web+数据挖掘》由会员分享，可在线阅读，更多相关《Web+数据挖掘（34页珍藏版）》请在金锄头文库上搜索。

1、Web MiningOverviewWhat is Web Mining ?Web mining is the application of data mining or other information process techniques to WWW, to find useful patterns. People can take advantage of these patterns to access WWW more efficiently. Web mining can be divided into three categories: content mining, usa

2、ge mining, and structure mining.Web Content Mining Web content mining is an automatic process that extracts patterns from on-line information, such as the HTML files, images, or E-mails, and it already goes beyond only keyword extraction or some simple statistics of words and phrases in documents.We

3、b Structure Mining Web structure mining is a research field focused on using the analysis of the link structure of the web, and one of its purposes is to identify more preferable documents. The intuition is that a hyperlink from document A to document B implies that the author of document A thinks d

4、ocument B contains worthwhile information. Web Usage Mining Web servers record and accumulate data about user interactions whenever requests for resources are received. Analyzing the web access logs of different web sites can help understand the user behavior and the web structure, thereby improving

5、 the design of this colossal collection of resources.孟小峰先生谈面向孟小峰先生谈面向 InternetInternet 的数据挖掘技术的数据挖掘技术 - 问：随着企业信息化建设的不断深入，企业积累的数据量也越来越庞大。如何从这些数据中发现其内在的规律，更加充分地利用数据，数据挖掘技术起到了至关重要的作用。然而究竟什么是数据挖掘技术，很多人还知之不详。您能否首先为我们介绍一下它的概念及由来呢？ - 答：近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等领域,这一势

6、头仍将持续发展下去。于是,一个新的挑战被提了出来。在这所谓的信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务，否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,同时却仍然感到知识饥饿”的挑战,数据挖掘(Data Mining)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。 - 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息

7、和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。 - 数据挖掘的前身即知识发现（Knowledge Discovery），它源自于人工智能的机器学习领域，其实质的内涵是在一个已知状态的数据集（Data Set）上，通过设定一定的学习算法，从数据集中获取所谓的知识。坦白地说，人工智能领域中的知识发现技术已经发展到了一个很成熟的阶段，但是由于缺乏应用的土壤，它的路越走越窄。而与此同时，数据库技术也已经发展到一定的阶段，并得到了广泛的应用，各个企业都已经积累了无数的数据资源，迫切需要有一种技术能够

8、帮助他们从数据中发掘出其内在的规律，数据挖掘技术正好能满足这一需求，它实质上就是知识发现技术在数据库领域中的应用。 - 知识发现技术的相关研究为数据挖掘技术提供了坚实的理论基础，而且在数据挖掘领域的研究中，也以有人工智能、统计学科背景的人居多，而有数据库技术背景的人参与却很少。因此从某方面来说，数据挖掘技术仍然没有发展到实用的阶段。有人工智能背景的人研究的出发点通常是试图去构造一些精致的算法，却很少考虑到实际的应用。现在数据挖掘的算法多达成百上千种，产品的使用难度也很大，如果用户不是一个人工智能专家或统计专家，都很难让它发挥效用。在这一方面亟待进一步将技术实用化。 - 问：谈到数据

9、挖掘，常常是和数据仓库、OLAP 等等联系在一起，但人们对它们通常存在着一些概念上的混淆，请问它们之间存在着怎样的相互关系呢？ - 答：很多人在这方面都确实存在着概念上的混淆。数据仓库也是近年来逐渐兴起的一个概念。随着企业信息化建设的不断深入，企业的数据积累越来越大，企业信息系统本身的构成也越来越复杂，例如原有的系统中可能会采用面向对象数据库，也可能会采用关系数据库，而关系数据库也可能采用的是不同厂家的产品，由此就出现了一个庞大而异构的数据资源。数据仓库就是要将这些数据资源集成起来，以满足决策支持的需求。 - 数据仓库的实质就是一个数据库，但是它存储的数据与普通数据库中的数据不太一

10、样，它存储的是从数据库里面经过加工整理后的数据。例如对于商场应用来说，原有数据库中存储的是每一笔交易的数据，而数据仓库则要根据过往的历史记录进行提炼整理，存放的可能是某种产品某月在某地区的特定销量等记录。 - 数据仓库将异构的数据集成起来，经过加工整理变成一个可用的数据资源，而数据挖掘和 OLAP（OnLine Analysis Process，联机分析处理）则是在数据仓库上进行操作，它们都是基于数据仓库的分析工具。数据挖掘和 OLAP 最本质的区别在于，数据挖掘是一种挖掘性的分析工具，它主要是利用各种分析方法主动地去挖掘大量数据中蕴含的规律，而 OLAP 则是一种求证性的分析工具

11、，即已有一个假设，通过 OLAP 来得到验证。OLAP 所采用的验证方法多是基于数据立方体法，即通过对数据立方体的切片、切块、旋转、钻取等操作来实现对数据立方体快速的多维存取。所谓多维存取，是从不同的角度根据数据仓库中的不同主题来得出不同的结论。数据挖掘和 OLAP 这两种分析工具本身是相辅相成的，因为 OLAP 可以帮助人们提出假设，也可以验证数据挖掘预测出的结果；数据挖掘能够挖掘出一个结论，但这个结论正确不正确，可以用 OLAP 去验证。 - 从图 1 中我们可以清楚地了解到，传统的数据环境基本上是数据操作型的，传统的信息系统只负责数据的增、删及修改操作，而在数据库的基础上可

12、实现的工作就是 OLTP（On Line Transaction Process，联机事务处理）。现在由于数据积累的不断增多，人们需要分析型的数据环境，于是就出现了由数据库导出的数据仓库，以此为基础则可以实现 OLAP 和数据挖掘，这里我们可以形象地用“深挖洞、广积粮”来概括企业信息化建设的这种局面。 - 问：在 Internet 浪潮的冲击下,人们面临着数据爆炸的挑战,如何从浩如烟海的数据中找到内在的规律，数据挖掘技术显然能为我们提供极大的帮助。那么，面向 Internet 的数据挖掘技术进展程度如何呢？ - 答：面向 Internet 的数据挖掘可以说是一个比较前瞻性的问题，有人

13、称之为Interne t Mining 或者是 Web Mining，也取得了一些令人感兴趣的结果，例如最近有不少产品用来筛选 Internet 上的新闻,保护用户不受无聊电子邮件的干扰和商业推销,受到极大的欢迎。但目前在学术界仍然对这一问题没有什么特定的结论。面向 Internet 的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。因为传统数据库中的数据是结构化的，而 Internet 上的数据其最大特点是半结构化的，这就决定了面向 Internet 的数据挖掘将是一个颇具挑战性的课题。所谓半结构化是相对于结构化和非结构化而言的。例如传统数据库中的数据结构性很强，我们称之为完全结

14、构化的数据，而同时还存在一些诸如一本书、一张图片等完全无结构的数据。但是 Internet 上存在的数据既不是完全结构化的也不是完全非结构化的，因为它的页面也具有一定的描述层次的，存在一定的结构，所以我们将它称为半结构化的数据。 - 从数据库研究的角度出发，Web 上网站的信息也可以看作是一个数据库，一个更大的、复杂性更高的数据库。Web 上的每一个站点就是一个数据源，每一个数据源都是异构的，因为每一站点跟每一站点的信息和组织形式都不一样，这就构成了一个巨大的、异构的数据库环境。如果想要利用这些数据进行数据挖掘，首先必须要研究站点之间异构数据的集成问题。因为只有将这些站点上的数据都

15、集成起来，提供给用户一个统一的视图或视角，才有可能从巨大的数据资源中获取所需的东西。其次，还要解决 Internet 上的数据查询问题。因为如果所需的数据都不能很有效地得到，对这些数据进行分析、处理就更是无从谈起。这些基础性的问题都亟待解决。 - 众所周知，传统的数据库都有一定的数据模型，可以根据这个模型来具体地描述特定的数据，同时可以很好地定义和解释相关的查询语言。而 Internet 上的数据特点很复杂，没有这样特定的模型来描述。每一个站点上的数据都是由站点开发人员自行设计放置的，而且数据本身具有自描述性和动态可变性等一系列复杂特性，其结构也不可琢磨。在这种情况下如何来解决异构

16、数据的集成和数据查询问题呢？这就迫切需要有一个模型来清晰地描述 Internet 上的数据。针对 Internet 上的数据半结构化的特点，寻找一个半结构化的数据模型则成为了解决上述问题的关键所在。此外，除了要定义这样一个半结构化数据模型外，还需要一项技术能够自动地从现有数据中将这个模型抽取出来，这就是所谓的模型抽取技术。因为半结构化数据模型和半结构化数据模型抽取技术是面向 Internet 的数据挖掘技术实施的前提，因此堪称是当今数据库研究领域的最大热点。 - 问：您刚才谈到面向 Internet 的数据挖掘技术的实现首先要解决半结构化数据模型和半结构化数据模型的抽取问题。那么请问这一方面的研究进展如何？ - 答：半结构化数据模型的研究对数据库界来说是一个全新的领域，早在 1995 年，斯坦福大学已经开始了相关方面的研究。但当时研究的重点还没有真正面对 Web，而主要研究的是异构数据环境，因为在异构环境中的数据已经存在这种半结构化的特征

展开阅读全文