计算机新技术论文－金锄头文库

资源描述

《计算机新技术论文》由会员分享，可在线阅读，更多相关《计算机新技术论文（5页珍藏版）》请在金锄头文库上搜索。

1、计算机科学新技术计算机科学新技术WebWeb 数据挖掘数据挖掘论文摘要：目前计算机 Web 数据挖掘技术被广泛应用于电子商务活动，它是随着网络技术和数据库技术的快速发展而出现的一种新技术，已成为现代电子商务企业获取市场信息极为重要的工具。介绍了 Web 数据挖掘的含义、特征及类别，探究了计算机 Web 数据挖掘技术在电子商务中的几种典型应用。 1 1 引言引言当前，随着网络技术的发展和数据库技术的迅猛发展，有效推动了商务活动由传统活动向电子商务变革。电子商务就是利用计算机和网络技术以及远程通信技术，实现整个商务活动的电子化、数字化和网络化。基于 Internet 的电子商务快速发

2、展，使现代企业积累了大量的数据，这些数据不仅能给企业带来更多有用信息，同时还使其他现代企业管理者能够及时准确的搜集到大量的数据。访问客户提供更多更优质的服务，成为电子商务成败的关键因素，因而受到现代电子商务经营者的高度关注，这也对计算机 web 数据技术提出了新的要求，Web 数据挖掘技术应运而生。它是一种能够从网上获取大量数据，并能有效地提取有用信息供企业决策者分析参考，以便科学合理制定和调整营销策略，为客户提供动态、个性化、高效率服务的全新技术。目前，它已成为电子商务活动中不可或缺的重要载体。 2 2 计算机计算机 webweb 数据挖掘概述数据挖掘概述 2.12.1 计算机

3、计算机 webweb 数据挖掘的由来数据挖掘的由来近年来,随着 Internet/Web 技术的快速普及和迅猛发展,使各种信息能以非常低的成本在网络上获得,而从中取得的数据量便难以计算,而且 Internet/WWW 的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持, 因此,如何在 WWW 这个全球最大的数据集合中发现有用信息,无疑将成为数据挖掘研究的热点。而 Web 挖掘便是指使用数据挖掘技术在 WWW 数据中发现潜在的、有用的模式或信息。它建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、筛选、转换、挖掘和模式

4、分析,最后作出归纳性的推理。计算机 Web 数据挖掘是一个在 Web 资源上将对自己有用的数据信息进行筛选的过程。Web 数据挖掘是把传统的数据挖掘思想和方法移植到 Web 应用中，即从现有的 Web 文档和活动中挑选自己感兴趣且有用的模式或者隐藏的数据信息。计算机 Web 数据挖掘可以在多领域中展示其作用，目前已被广泛应用于数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等多个方面，其中对商务活动的变革起到重大的推动作用方面最为明显。 2.22.2 计算机计算机 WebWeb 数据挖掘含义及特征数据挖掘含义及特征（1） Web 数据挖掘的含义。 Web 数据挖掘

5、是指数据挖掘技术在 Web 环境下的应用，是一项数据挖掘技术与 WWW 技术相结合产生的新技术，综合运用到了计算机语言、Internet、人工智能、统计学、信息学等多个领域的技术。具体说，就是通过充分利用网络（Internet），挖掘用户访问日志文件、商品信息、搜索信息、购销信息以及网络用户登记信息等内容，从中找出隐性的、潜在有用的和有价值的信息，最后再用于企业管理和商业决策。（2）Web 数据挖掘的特点。计算机 Web 数据挖掘技术具有以下特点：一是用户不用提供主观的评价信息；二是用户“访问模式动态获取”不会过时；三是可以处理大规模的数据量，并且使用方便；四是与传统数据库和

6、数据仓库相比，Web 是一个巨大、分布广泛、全球性的信息服务中心。 2.32.3 WebWeb 挖掘流程挖掘流程与传统数据和数据仓库相比,Web 上的信息是非结构化或半结构化的、动态的,并且是容易造成混淆的,所以很难直接以 Web 网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型 Web 挖掘的处理流程如下: (1)查找资源。从目标 Web 文档中得到数据。这些信息资源不仅限于在线 Web 文档,还包括电子邮件、电子文档、新闻组或者网站的日志数据甚至是通过 Web 形成的交易数据库中的数据等。 (2)信息选择和预处理。从取得的 Web 资源中剔除无用信息,将信息进行必要的整理

7、。例如,从 Web 文档中自动去除广告连接和多余格式标记、自动识别段落或者字段,并将数据组织成规整的逻辑形式甚至是关系表。 (3)模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。 (4)模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。 Web 挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得 IR(Information Retrieval)和信息抽取 IE(Information Extraction)相当重要。信息获得(IR)的目的在于找到相关 Web 文档,它只是把文档中的数据看成未经排序的词组的集合;而信

8、息抽取(IE)的目的在于从文档中找到需要的数据项目,它对文档的结构和表达的含义感兴趣,它的一个重要任务就是对数据进行组织整理并适当建立索引。 3 3 WebWeb 数据挖掘的分类数据挖掘的分类 Web 数据挖掘是一项具有挑战性的课题,它实现对 Web 存取模式、结构和规则以及动态的 Web 内容的查找。一般来说,Web 数据挖掘可分为 4 类:Web 内容挖掘、Web 结构挖掘、Web 使用记录挖掘和 Web 用户性质挖掘。其中,Web 内容挖掘、Web 结构挖掘和 Web 使用记录挖掘是 Web1.0 时代就已经有了的,而 Web 用户性质挖掘则是伴随着 Web2.0 而出现的。

9、 3.13.1 WebWeb 内容挖掘内容挖掘 Web 内容挖掘指从 Web 内容、数据、文档中发现有用信息,主要包括文本挖掘和多媒体挖掘两类,其对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。目前,Web 内容挖掘一般从两个不同的观点来进行研究:一种是从资源(IR) 查找的方面来看,即从用户的角度出发,研究怎样提高信息质量和帮助用户过滤信息。这方面的研究大部分都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上,它将单个的词汇看成文档集合的属性,只从统计的角度将词汇孤立地看待,而忽略该词汇出现的位置和上下文环境

10、。这种方法的弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们作了相应的研究,采取了不同技术,如信息增益、差异比等。另外一种是从数据库(DB)的观点进行 Web 内容挖掘,主要是试图建立 Web 站点的数据模型并加以集成,以支持复杂查询,而不只是简单的基于关键词的搜索。这要通过找到 Web 文档的模式、建立 Web 知识库来实现。数据库技术应用于 Web 挖掘主要是为了解决 Web 信息的管理和查询问题。 3.23.2 WebWeb 结构挖掘结构挖掘 Web 结构挖掘的对象是 Web 本身的超链接,即对 Web 文档的结构进行挖掘。由于有用的知识不仅包含在

11、 Web 页面的内容中,而且也包含在页面的结构中,所以 Web 结构挖掘是从站点的组织结构和页面结构中推导出知识,找出数据链的结构进行分类、聚类,从而发现页面间的关系,进而改进搜索引擎的性能。对于给定的 Web 文档集合,应该能够通过算法发现它们之间链接情况的有用信息,文档之间的超链接反映了文档之间的包含、引用或者从属关系,引用文档对被引用文档的说明往往更客观、更概括、更准确。 Web 结构挖掘在一定程度上得益于社会网络和引用分析的研究。Web 结构挖掘的基本思想是将 Web 看作一个有向图,它的顶点是 Web 页面,页面间的超链接就是图的边,然后利用图对 Web 的拓扑结构进行

12、分析。Web 结构挖掘算法一般可分为查询相关算法和查询独立算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS 和 Page Rank 分别是查询相关算法和查询独立算法的代表。他们的共同点是使用一定方法计算 Web 页面之间超链接的质量,从而得到页面的权重。著名的 Clever 和 Google 搜索引擎就采用了该类算法。 3.33.3 WebWeb 使用记录挖掘使用记录挖掘 Web 使用记录挖掘也叫 Web 日志挖掘或 Web 访问信息挖掘,在新兴的电子商务领域有重要意义,它通

13、过挖掘相关的 Web 日志记录,来发现用户访问 Web 页面的模式,通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。Web 使用记录数据除了服务器的日志记录外,还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie 中的信息、用户查询等一切用户与站点之间可能的交互记录。可见,Web 使用记录的数据量是非常巨大的,而且数据类型也相当丰富。根据对数据源的不同处理方法,Web 用法挖掘可以分为两种:将网络服务器的日志文件作为原始数据,应用特定的预处理方法进行处理后再进行挖掘;将网络服务器的日志文件转换为

14、图表,然后再进行进一步的数据挖掘。通常,在对原始数据进行预处理后就可以使用传统的数据挖掘方法进行挖掘。 3.43.4 WebWeb 用户性质挖掘用户性质挖掘 Web 用户性质挖掘是伴随着 Web2.0 出现的。基于 RSS、Blog、SNS 以及 Wiki 等互联网软件的广泛应用,Web2.0 帮助人们从 Web1.0 时代的各大门户网站 “填鸭”式的信息轰炸,过渡到了“人人对话”,每个普通用户既是信息的获取者,也是信息的提供者。面对 Web2.0 的诞生,Web 数据挖掘技术又面临着新的挑战。在 Web2.0 时代,网络彻底个人化了,它完全允许客户用自己的方式、喜好和个性化的定制服务

15、创造自己的互联网,它一方面给予互联网用户最大的自由度,另一方面给予有心商家有待发掘的高含金量信息数据。通过对 Web 用户自建的 RSS、Blog 等 Web2.0 功能模块下客户信息的统计分析,能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关 Web2.0 下的数据挖掘,根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将 Web 用户性质挖掘分为 5 类: (1)个性挖掘。针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习惯和个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化服务

16、。 (2)系统改进。Web 服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,Web 用法挖掘可以通过用户的记录发现站点的性能瓶颈,以提示站点管理者改进 Web 缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。 (3)站点修改。站点的结构和内容是吸引用户的关键。Web 挖掘通过用户的行为记录和反馈情况为站点设计者提供改进的依据,比如页面连接情况应如何组织、哪些页面能够直接访问等。 (4)智能商务。用户怎样使用 Web 站点的信息,无疑是电子商务销售商关心的重点,用户一次访问的周期可分为被吸引、驻留、购买和离开 4 个步骤, Web 挖掘可以通过分析用户点击流等 Web 日志信息挖掘用户行为的动机,以帮助销售商合理安排销售策略。 (5)Web 特征描述。这类研究关注怎样通过用户对站点的访问情况,统计各个用户在页面上的交互情况,以及对用户访问情况进行特征描述。4 4 计算机计算机 webweb

展开阅读全文