数据仓库与数据挖掘作业

资源描述

《数据仓库与数据挖掘作业》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘作业（12页珍藏版）》请在金锄头文库上搜索。

1、数据仓库与数据挖掘课程作业题目：利用Web挖掘技术构建电子商务网站作者：学号：专业：导师：摘要：Web挖掘是数据挖掘应用于互联网的具体表现形式，也是从海量的电子商务交易信息中提取知识或者有用的信息以掌握网络客户消费习惯的重要技术手段。本文主要介绍了Web挖掘技术在电子商务中的流程和应用，并构建了一个基于Web挖掘技术的电子商务网站的架构，协助电子商务企业更好的开展商务活动。关键词：web挖掘，电子商务，网站架构近十年来，数据挖掘技术已经在我国取得了长足的发展。电子商务也进入了高速的发展阶段，为越来越多的人所使用，已经成为现代社会高速高效的新型商业运作模式。由于电子商务的深入发展，大量客户

2、信息和交易信息的产生，如何利用这些数据，使之成为有用的数据，是电子商务企业的竞争点。电子商务网站是电子商务企业开展商务活动的平台，如何搭建有效的电子商务平台显得尤为重要，因此Web挖掘技术在电子商务中的应用为其提供了新的发展思路。1.Web挖掘技术的概念OEtzioni1定义web挖掘是“利用数据挖掘技术从Web文档和服务中自动地发现和抽取信息。”也就是对文档的内容、可利用资源的使用以及资源之间关系进行分析，从Web数据中发现潜在的有用信息和先前不知道的知识的整个过程。Web挖掘是发现知识的一个迭代过程，是理解网络消费者和商家的一个重要的策略。2.Web挖掘技术的分类2按挖掘对象的不同，一般将

3、Web挖掘分为三类：Web内容挖掘、Web结构挖掘和Web日志挖掘。如图所示：Web挖掘Web内容挖掘Web结构挖掘Web日志挖掘Web文本挖掘多媒体挖掘内部结构挖掘超链接挖掘Server,Cookie logs挖掘2.1.Web内容挖掘Web内容挖掘是指对Web页面内容进行挖掘，从文本，图像，音频，视频，动画等各种形式的网络资源中发现所需的特定化信息，以实现Web资源的自动检索，提高Web数据的利用效率。Web数据分布范围很广，有来自于数据库的结构化数据，也有用HTML标记的半结构化数据及无结构的自由文本数据信息。所以将其分为基于文本的挖掘和基于多媒体的挖掘两种。基于文本的Web挖掘方法有数

4、据库方法，建立Web数据仓库方法和新近的基于软件Agent的分类器方法、基于概念的文本信息挖掘法。Web多媒体的信息挖掘通常采用的方法为关联规则法和特征提取法。2.2.Web结构挖掘Web结构挖掘是挖掘Web潜在的链接结构模式，找到隐藏在一个个页面之后的链接结构模型，该模型可用于网页重新分类，寻找相似的网站，获得有关不同网页间相似度及关联度的信息。这有助于用户找到指向相关主题的权威站点。Web结构挖掘可分为超链接挖掘、页面结构挖掘等。这一领域最常用的是图论中的网落分析法，典型的算法有HITS算法、PageRank和HITS改进算法，人们采用这些算法主要是计算Web页面之间的关联程度。这不仅可用

5、于提高网上搜索引擎搜索的准确性，还可以用于挖掘网站之间的通信、相互参引关系。2.2.3Web日志挖掘Web日志挖掘是对Web日志站点的日志进行处理，把网络结构上的非结构化的数据组织成传统的数据挖掘方法进行处理，能够实现动态地向网络用户进行推荐的目的，在电子商务的交叉销售和售后服务有很重要的作用。在对WWW 进行web 挖掘的过程中，常使用的web 挖掘技术有关联规则，旨在通过挖掘发现类似“90% 的顾客在一次购买活动中购买物品A 的同时会购买物品B”这样的特征，经典的算法是Apriori算法；分类分析和聚类分析，这两者之间有相似处，其结果都是具有一定特征的群组，不过其本质差别很大，分类是在划分

6、之前有明确的划分标志，划分结果是在规划之中的，然而聚类是以“簇内最大相似、簇间最大不同”为宗旨的，它没有任何划分标志，最终可划分为几簇也不可知。序列模式与关联分析类似，它寻找的是事件之间时间上的相关性。能发现数据库中形如“在一段时间内，顾客购买物品A，然后购买物品B，而后购买物品C，则序列A-B-C出现的频率较高”之类的知识。3.常用的挖掘技术3.1. 统计分析(Statistical Analysis)统计分析方法是抽取有关Web访问者知识的最常见、最普通的技术。通过分析用户会话文件，我们可以进行频率、平均值和中位数等各种不同种类的基本的描述性分析。根据用户浏览路径中的访问页面、访问时间和访

7、问长度等变量，Web流量分析工具能定期产生各种统计分析报告。其中的统计信息包括最频繁访问的网页、每个页面的平均访问时间和网站的平均访问路径长度等。但是这些报告可能引起低层次的错误分析，例如监测未经授权的入口点或发现最常见的无效URL等。3.2. 路径分析(Path Analysis)路径分析就是要从图中确定最频繁的路径访问模式或大的参考序列。我们可以用许多不同类型的图形来进行路径分析。最常见的一种是表示网站物理布局的网站结构图，我们可以从图中找到用户的浏览模式，发现Web站点中最频繁的访问路径，从而可以调整站点的结构。目前多数挖掘算法属于类Apriori算法。其缺点是需要多次扫描数据库。提出了

8、一种基于有向图的从Web日志中挖掘用户频繁访问模式的新算法。该算法只需扫描数据库一次，即可直接挖掘出所有的Web频繁访问路径，提高了Web访问模式的效率。在Apriori算法和有向图存储结构的基础上，提出了会话矩阵和遍历矩阵的概念，设计了用户频繁路径快速挖掘算法。3.3. 关联规则(Association Rules)关联规则是指经常被一起访问的，支持度超过特定阈值的页面集合。它主要用于发现用户之间、页面之间以及用户浏览页面和网上行为之间存在的潜在关系。比如挖掘可能得出“浏览/products/Electronic Product.html 的用户75%都会浏览/products/ Softw

9、are.html”，并且“ 浏览/products/Software.html 的用户50%都会下订单”的规则，那么管理员应该在电子商品目录页面提供进入计算机软件目录页面的直接途径。最为著名的关联规则挖掘算法是R.Agrawal提出的Apriori算法，其余算法大多是以Apriori为核心，或是其变体，或是其扩展。如Apriori TID算法，Apriori Hybrid算法，DIC算法，Partition算法等。4.Web挖掘在电子商务中的流程与普通的数据挖掘不同的是，web挖掘的对象是互联网上的数据，而这些数据最大的特点是非结构化的，加之网络数据本身的动态特征，使得web挖掘过程更加复杂

10、。总体来说，web挖掘一般会经历数据准备、web挖掘、模式发现及分析几个阶段，如图所示：Web日志Web文档交易数据用户数据信息采集信息抽取预选择预处理Web挖掘模式发现模式分析反复1. 数据准备。数据准备无论在传统的数据挖掘还是web挖掘中都占有十分重要的地位，数据的数量和质量直接影响到挖掘的质量和效果。Web挖掘与普通挖掘的数据源不同，它主要来自于web日志，Web的结构大体为：客户端代理服务器 web服务器，web服务器日志记录的是多个用户访问单个站点的信息，它记录了用户每次访问网站进行网页请求的信息，可以全面记录用户登录的时间、IP、页面，通过Cookies来寻找用户浏览网页的痕迹，可

11、以分析用户的浏览行为，因此是很重要的数据来源。HTTP协议无法跟踪客户在网站上的所有行为，所以客户的属性信息在web服务器中是很少的，它主要来源于客户在注册本网站的时候留下的特征信息。此外，还有客户的交易数据和web文档等数据信息。2. 信息采集与抽取。数据源中包含了大量的数据信息，并不是所有的信息都会被采集，而是要抽取与挖掘主题息息相关的数据项。3. 选择和预处理。现实的数据都会存在冗余、不完全的特征，为了提高web挖掘质量，要对数据进行选择和预处理。这个环节包括数据净化、用户识别、路径补充、事件识别和格式化处理等。4. web 挖掘。选择合适的web 挖掘算法和工具进行挖掘。5. 模式发现

12、及模式分析。web挖掘的结果可能产生一些模式或潜在规则，而并不是所有的规则和模式都是适用的，因此要对规则进行验证和分析。需要注意的是，web挖掘不是单次的固定活动，而是一个反复的动态过程。5.Web 挖掘在电子商务中的应用领域1.商品推荐服务：在电子商务网站上购买一本书，页面会有提示：“购买了这本书的读者还购买了以下书籍”，这就是商品推荐服务的典型例子。商家从统计学的角度，通过对客户交易数据的处理，把客户分为不同的类别，提取出每一类客户所具备的共同特征，从而提供推荐商品的服务，以此推动交易量。这也是Web挖掘最普通的应用。2.个性化的网络营销服务：web 挖掘的终极目的是通过收集客户的浏览信息

13、、购物信息、交易结果和信用信息等，来寻找客户的兴趣和行为模式，以此来实现以用户需求为核心的网络营销服务，只有掌握了这些信息，掌握了网络消费者的偏好特征，才能为潜在顾客提供个性化的服务。一对一的个性化服务也是电子商务为之努力的方向。3.理解网络用户意图：通过路径游历模式的发现算法或数据立方体，发现被频繁访问的路径，从而了解用户浏览的意图。4.改进web 站点设计：通过用户聚类和关联规则的发现，调整站点之间的链接关系。根据用户常访问的路径来设置页面导航，或根据用户输入引擎的查询关键词来动态的调整web页面，为网络用户提供便利性、针对性的网页服务，这样也可以使用户驻留网页的时间延长。36.基于Web

14、挖掘技术的电子商务网站架构基于Web挖掘技术构建电子商务网站就是根据网络消费者的浏览行为自动构建浏览模式，包括频繁访问页面、页面聚类、用户聚类等等，然后根据当前用户的浏览模式，进行页面推荐和网站架构的调整，为用户提供个性化的服务。6.1模块分析基于Web挖掘技术构建的电子商务网站包括以下3个模块4：（1）基本模块基本模块的功能包括：会员注册、商品展示、商品查询、购物车设计、订单的生成、客户服务等。利用基本模块可以实现与用户的交流，还可以根据用户当前会话（Session），得到每个用户的当前访问序列，然后把序列列入模式库中，运算得到用户下一步可能访问的页面，这些页面的地址可以附加到用户当前访问页面的底部，作为推荐。（2）后台处理模块该模块主要为后台处理程序，从Web日志文件中发现访问者的浏览模式，对这些模式进行筛选，通过用户聚类和URL聚类建立模式库。利用Web日志挖掘算法从Web日志发现用户的浏览模式，并对这些用户行为

展开阅读全文

数据仓库与数据挖掘作业

最新文档