基于关联规则的校园网web日志挖掘研究与实现

资源描述

《基于关联规则的校园网web日志挖掘研究与实现》由会员分享，可在线阅读，更多相关《基于关联规则的校园网web日志挖掘研究与实现（60页珍藏版）》请在金锄头文库上搜索。

1、安徽大学硕士学位论文基于关联规则的校园网Web日志挖掘研究与实现姓名：张小林申请学位级别：硕士专业：计算机应用技术指导教师：郑诚 2010-05 I 摘要摘要万维网是一个巨大的、分布广泛的、全球性的信息服务中心，它涉及到人们生活中的方方面面。人们不再对网站、网页这些名词感到陌生了，政府机关、高校、公司都搭建了自己的网站，而且个人主页也相当流行。大家建设网站的目的都是相同的，就是通过网络这个平台展示企业、公司形象，拓展大家相互间的沟通和交流的渠道，是一个重要的交流窗口。同时人们也利用网络这个平台，实现网上购物、网上缴费等功能，我们将它称之为电子商务。当大家在访问一个

2、网站时，当你点击网站上某个超文本链接时，网站的 web 服务器就会产生一条访问记录，并存储在日志文件中。所以可以想象，每天一个网站会产生大量的访问记录。 Web 日志挖掘就是利用这些记录来分析访问者的爱好、访问习惯等。通过 web 日志挖掘可以分析合理的布局网站结构、提高 web 的服务效率、及时的发现网络攻击、发现电子商务的潜在客户等功能。本文首先介绍了数据挖掘的理论知识，以及当前国内外的研究现状；然后介绍了校园网的一些基本知识，指出了高校的校园网和其他商业网站之间的区别，高校校园网主要是为教学、科研服务的；同时对 web 数据挖掘和 web 日志挖掘的理论进行了研究，

3、并详细的介绍了它们的主要研究方法和流程。Web 日志挖掘的重点是数据的预处理技术和关联规则及基于关联规则的算法。另外，还详细的介绍了关联规则及其经典算法 apriori 算法，并指出其不足之处，提出了一些改进的策略。在具体实现的时候，提出了基于矩阵的挖掘算法能更快的发现频繁项集。最后，在对 web 日志挖掘理论和研究的基础上，设计实现了简单的 web 日志挖掘系统。并利用挖掘系统对我校主页 web 服务器、招生就业服务器的日志和二级单位的 web 服务器日志进行挖掘，并根据挖掘的结果对网站进行了改进。关键词：数据挖掘关键词：数据挖掘 web 日志挖掘日志挖掘关联规则关联规则

4、 apriori 算法算法 II Abstract World Wide Web is a huge, widely distributed, global information service center, which involves every aspect of peoples lives. We are familiar with the Website and Web. The government agencies, universities, companies built their own websites, whats more, home page is very

5、popular. The purpose of all construction sites are the same, that is, the platform network display business, company image, and develop ours communication and exchange .Its an important communication window. Same time, people also use the network platform to realize online shopping, online bill paym

6、ent and other functions, we call it e-commerce. When you visit a website or click on a hypertext link to the website, the sites web server will generate an access record, and stored in the log file. So we can imagine that a site will have a large number of daily records. Web log mining is to use the

7、se records to analyze the visitors preferences, access habits etc. Through analysis of web log mining can analyze a reasonable layout of site structure, improve Web-services, discover network attacks in time and find potential customers e-commerce functions. This paper introduces the theory of data

8、mining, and the current research status. Then introduces some basic knowledge of campus network, analyze the difference between the universitys campus network and other commercial websites. The university campus is mainly use for teaching and research services. Meanwhile, it studies the theory of We

9、b data mining and Web log mining, introduces their main research methods and processes. Web log mining focuses on data preprocessing techniques and the associated rules and algorithms based on association rules. In addition, It gives an particular description of the association rules algorithm and t

10、he classical apriori algorithm, and point out the deficiencies, made some improvement strategy. In the concrete realization of the time, proposed mining algorithm based on matrix faster discovery of frequent itemsets. Finally, web log mining on the basis of theory and research, designed a simple web

11、 log mining system. Mining system using the web server to my home school, Recruitment and Employment server logs and web server logs secondary unit III excavation, and improve the website according to the results of excavation site . Key Words: data mining;web mining；association rule；apriori Algorit

12、hm 第一章绪论 1 第一章绪论 1.1 论文的选题背景及意义第一章绪论 1.1 论文的选题背景及意义随着网络的飞速发展和个人 pc 的迅速普及，也促使了 web 技术和需求的快速发展。在当代社会中，人们的日常生活已经离不开互联网了，它涉及到人们生活中的各个方面，如新闻、教育、电子商务等。互联网没有地理位置的限制，没有区域的限制，由此可见它的分布之广，覆盖范围之大，信息量之大。构建或正在构建的企业、个人网站越来越多，这就给人们提出了一系列问题，譬如如何管理和运用这些网络资源，如何更好的发挥它的作用等。因此网络管理者必须要能掌握 web 服务器的运行情况，和访问情况。并能根

13、据掌握的情况能对 web 服务器进行详细分析，从而来发现网站的不足，提供有效的信息帮助网站建设者对网站的布局进行优化。目前，电子商务已经发展成为互联网上最炽热的应用，为了了解用户的喜好，关注的产品等，我们要分析 web 日志文件；要了解网站中哪些信息、哪些版块是用户关注较多的，要分析 web 日志文件；要监控 web 服务器的安全情况，也需要分析 web 日志文件。 Web 服务器每天产生大量的日志记录，这些日志主要记录了访问者和服务器之间的交互信息，其中可能蕴含了部分用户在网站上访问行为的有趣数据，隐含了他们的需求和感兴趣的内容。通过分析这些日志数据或许能够发现一些有意义的

14、隐藏的访问模式。当了解了用户在网站上的访问模式和兴趣爱好，可以更好的帮助我们优化网站的组织结构。例如，可以为高关联度的站点或者页面之间提供快速访问途径，这样可以提高用户获取有效信息的效率，方便用户访问。了解了用户的兴趣爱好，可以协助企业制定更加完善的市场营销策略，这主要是用在电子商务和一些商业网站。当获取用户的兴趣和需求后，可以有针对性的为用户推荐感兴趣的需求和信息；根据他们的兴趣，在用户经常访问的页面或站点上放置广告。还可以通过分析 web 日志文件来获取服务器的访问状况，提高 web 服务器的安全性和访问效率。例如，及时的发现一些异常访问，防止 web 服务器遭到攻击，提高

15、安全性；可以为用户提供个性化的页面，将其感兴趣的内容放置在易于查找的位置，合理的调整网站的布局结构，以达到用户轻松、快捷的访问网站。目前，基于万维网的应用越来越多，web 的数据量也在急速的膨胀，可以用几百兆兆字节来计算，并且增长的势头并没有停止。使用数据仓库来复制、存储基于关联规则的校园网 Web 日志挖掘研究与实现 2 或集成 web 上所有的数据是不可能的，因此用一般的统计分析方法或 OLAP 来处理，显然是效率极低或是不可能实现的。还有就是为了更深层次的理解用户的行为、获取用户的访问模式和兴趣爱好等相关信息、web 站点的结构是否合理等，就要用到数据挖掘方法。随着数据挖掘

16、技术理论的不断进步，人们将数据挖掘技术成功地应用于传统数据库领域。随后很多研究者对于数据挖掘在像互联网数据这样的一些特殊数据源的应用也产生了浓厚的兴趣，并期望能挖掘到一些有价值的信息，于是就产生了 web 日志挖掘。 1.2 国内外研究现状 1.2 国内外研究现状 80 年代末一个新的术语“数据库中的知识发现”KDD，它首次出现是在 1989 年 8 月举行的第 11 届国际联合人工智能学术会议上。数据挖掘和知识发现已成为当前计算机科学界的一大热点。目前，数据挖掘的方法一般有三种：自顶向下（top-down）、自下向上（bottom-up）和混合法。数据挖掘技术和算法主要包括神经网络、决策树、智能超市搜索（mark basket analysis）、归纳逻辑程序、相关分析、粗集（rough set）、遗传算法、概念学习（concept learming）和聚类等。根据相关统计，目前使

展开阅读全文