Web挖掘关键技术及研究

资源描述

《Web挖掘关键技术及研究》由会员分享，可在线阅读，更多相关《Web挖掘关键技术及研究（27页珍藏版）》请在金锄头文库上搜索。

1、Web挖掘关键技术及研究摘要：近年来，随着计算机的快速发展，利用计算机从庞大的数据中智能地、口动地抽取有价值的知识模式，以满足人们不同应用的需要。随着互联网的普及和迅猛发展、Web信息量的爆炸式增长，网上的资源得到极大丰富，但也充斥着大量的垃圾信息，人们迫切需要能从这些纷繁芜杂的信息中找到有用知识的工具。鉴于数据挖掘工具的日益成熟完善，人们自然而然想到了要把数据挖掘技术应用到Web上来。Web 挖掘指在WWW上挖掘潜在的、有用的模式及隐藏的信息过程。该文首先概述了数据挖掘的概念、挖掘算法及其主要应用领域，然后对Web分类以及方法进行了科学的概述，通过对Web内容挖掘、Web 结构挖

2、掘和Web日志挖掘详细分析和对主要的挖掘算法及最新研究进展的综合表述，最后介绍了 Web挖掘的研究方向和发展趋势。关键词：Web挖掘；Web内容挖掘；Web结构挖掘；Web日志挖掘；结构算法Web mining key technology and applicationAbstract : In recent years, with the rapid development of computer Usecomputer data from a large intelligently and automatically extract valuableknowledge models t

3、o meet people of different applications. With the popularity of the Internet and rapid development, Webs explosive growth on the amount of information, online resources are extremely abundant, but also filled with a lot of spam, it is the urgent need for the information from these numerous Wuza find

4、 useful knowledge Tools. In view of the increasingly sophisticated data mining tools improve, people naturally think of data mining technology should be applied to Web up. Web mining refers to the WWW on the mining potential, useful patterns and hidden information process.This paper first outlines t

5、he concept of data mining, mining algorithm and its major application areas, and then Web classification and an overview of scientific method, through the Web content mining, Web stmcture mining and Web log mining detailed analysis and the main excavation algorithm and integrated presentation of the

6、 latest research advances, finally introduced a Web mining research and development trends.Key words: Web Mining; Web content mining； Web Structure Mining； Web log mining； Structure Algorith一、弓丨言5二、WEB数据挖掘的概述7（-）数据挖掘的基本概念7（二）Web数据挖掘分类7（三）数据挖掘的技术方法8（四）WEB数据挖掘与相关技术91. Web挖掘与传统挖掘92. Web挖掘与信息检索93. Web挖掘

7、与信息抽取9三、Web挖掘的步骤11四、Web挖掘的分类12（-）Web内容挖掘121. Web内容挖掘122. 从资源查找的观点挖掘非结构化文档133. 用资源查找的观点挖掘半结构化文档144. 从数据库（Database）的观点挖掘非结构化文档155. 冃前Web内容挖掘的主要应用有：16（二）.Web结构扌空掘:161. Web结构挖掘的对象172. Web结构挖掘在一定程度上得益于社会网络和引用分析的研究173. Web结构挖掘主要应用领域184. Web结构挖掘领域开展的研究19（三）Web用法挖掘（Web usage Mining） 20五、WEB挖掘相关技术21（-）统计分析方法

8、21（-）关联规则挖掘技术22（三）序列模式挖机技术22 23（五）聚类技术23六、WEB挖掘的发展方向24七、结束语25八、参考文献26Web作为一个巨大的信息源，不仅内容复杂、而且形式各异。随着Web站点口身倍息越来越丰富和拓扑结构越来越复杂，冃前信息服务中普遍存在着“信息过载”和“资源迷向”的状况。近年来，因特网的飞速发展与广泛应用，使得Web上的量以惊人的速度增长，未来 Web将包含人类信息的主要部分，因此，如何从Web中找到感兴趣的内容变得越来越重要-为数据挖掘提供了丰富的数据源和新的研究课题。面对Web丰富的信息内容，巨大的数据量，加之万维网分布、动态、海量、异质、复杂

9、、开放性的特点，人们如何从海量的数据中，查找自己想耍的数据和有用信息，迫切需耍一种新的技术能自动地从 Web资源上发现、抽取盒过滤信息，随之Web挖掘技术应运而生。Web挖掘就是从与WWW相关的资源和用户浏览行为中发现、抽取感兴趣的潜在的有用模式和隐藏的信息。它以从Web上挖掘有用知识为目标，以数据挖掘，内容挖掘、多媒体挖掘为基础，并综合运用计算机网络、数据库、人工智能、信息检索、可视化等技术，将传统的数据挖掘技术与Web结合起来。但是，Web挖掘与传统挖掘的数据挖掘相比又有很多独特之处。首先，Web挖掘的对象是大量、异质、分布的Web文档；其次，Web在逻辑上是一个由文档节点和

10、超链接构成的图，因此Web挖掘所得到的模式可能是关于Web内容的，也可能是关于Web结构的；此外，由于文档本身是半结构化或无结构的，且缺乏机器可理解的语义，而数据挖掘的对象局限于数据库中的结构化数据，并利用关系表格等够来发现知识，因此数据挖掘技术要应用于 Web挖掘，应当对Web文档进行预处理。这样，开发新的Web挖掘技术，以及对Web文档进行预处理以得到关于文档的特征表示，便成为 Web挖掘研究的重点。Web挖掘可在多方面发挥作用，如电子商务中销售搭配、营销策略，搜索引擎结构的挖掘，搜索引擎的的开发，改进网站结构，确定权威界面，Web文档分类，只能查询，个性化信息服务等。二、W

11、eb数据挖掘的概述（一）数据挖掘的基本概念数据挖掘（DataMining）就是从大量的、不安全的、有噪声的、模糊的、随机的实际应用数据中，提取潜在的、不为人知的有用信息、模式和趋势，是一种新兴的处理技术。（二）Web数据挖掘分类从挖掘对象、挖掘任务、挖掘方法等几个方面，将数据挖掘划分一下类型。根据挖掘任务分：分类或预测行知识发展、依赖关系或依赖模型发展、异常和趋势发展等等。根据挖掘对象分，有如下若干种数据库或数据源：关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、异构数据库、遗产数据库、Web等。根据挖掘方法可粗分为：统计方法、机器学习方法、神经网络方

12、法和数据库方法。统计方法中可细分为：回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（体统聚类、动态聚类等）、探索性分析（主元分析法、相关分析法等）等。机器学习中可细分为：归纳学习方法（决策树、规则归纳等）、基于范例学习、遗传学习方法等。神经网络方法可细分为：前向神经网络（BP算法）、自组织神经网络（自组织特征映射、竞争学习等）等。（三）数据挖掘的技术方法数据挖掘的方法通常可以分为两大类：一类是统计型，常用的技术概率分析、相关性、聚类分析和判别分析等：另一类是人工智能中的机器学习型。通过训练和学习大量的样品集得出需要的模式或参数。数据

13、挖掘的应用中，最终的耳标都是发现有价值的知识信息，有共同的思路和步骤，但是存在很大的差异和区别。由于各种方法有自身的功能特点及应用领域，数据挖掘技术的选择将影响最后结果地质量和效果。下面对数据挖掘中常用的关联分析、决策树和神经网络等儿种技术方法进行讨论，包括技术的基本思想、优势与缺点和主要应用领域（见表1）表1技术方法主要功能和特点主要应用领域关联分析分类、聚类零售业、保险业和通讯业决策树归纳分类、立观制造业、医药和零售业等遗传算法聚类、优化、高效性金融业、保险业和农业等贝叶斯网络分类、聚类和预测；易理解医学、制造业和电信等粗糙集方法不去定性分类零售业、金融业和制造业等神经网络预测、

14、分类和聚类；解释性差金融业、保险业和制造业等统计分析聚类；结果精确、易理解金融业、制造业和医学等（四）Web数据挖掘与相关技术1. Web挖掘与传统挖掘Web挖掘从传统的数据挖掘发展而来，但是与传统的数据挖掘相比有许多不同之处。传统的数据挖掘是以数据仓库为基础，对结构化的数据源进行信息的加工、分析和模式挖掘。而Web挖掘的对象是半结构化或无结构的Web文档,Web使用信息以及大量的动态的超链接信息，缺乏机器可理解的语义。因此有些数据挖掘技术并不适用于 Web挖掘，即使可用也需要建立在对Web信息进行预处理的基础之上。2. Web挖掘与信息检索信息检索与Web挖掘类似，都可帮助用户选择

15、感兴趣的文档。但是两者之间仍然有很大的差异。Web信息检索通常只针对静止的文档集进行操作，采用短术语表示用户的信息需求，着重于文档中显式存储的字词和链接实现快速信息检索，而且用户常会提出查询要求。而Web挖掘除了关注静止的文档集之外，述要分析用户的访问行为，从连续变化的文档流中识别出用户的兴趣，并做出相应的响应。与信息检索相比,Web挖掘更加注重的是网页内容和结构，挖掘结构独立于用户的需求，是用户无法预知的。3. Web挖掘与信息抽取信息抽取是把信息检索获得的文档集合转换成利于摘要和分析的信息。它侧重的是从文档中抽取有关事实。由于Web庞大，大多数信息抽取系统是针对特定的Web站点设计，系统扩展性差。信息抽取是数据挖掘前的处理阶段,Web挖掘同样采用了信息抽取中的部分技术。三、Web挖掘的步骤图1 Web挖掘的步骤(1)资源发现，即搜集所需的网络文档；(2)涪息选择和预处理, 即从检索到的网络资源中自动选择和预先处理得专门的信息;(3)模式发现，即从单个的Web站点以及多个站点之间发现普遍的模式;(4)分析，对挖掘出的模式进行确认或者解释。Web挖掘不同于传统的数据挖掘，它可以随互联网中的非结构化得异构的Web文档集合进行有效地挖掘。Web挖掘通常分为内容挖掘 (WCM)、Web结构挖掘(W

展开阅读全文

Web挖掘关键技术及研究

最新文档