基于web的数据挖掘技术研究

资源描述

《基于web的数据挖掘技术研究》由会员分享，可在线阅读，更多相关《基于web的数据挖掘技术研究（49页珍藏版）》请在金锄头文库上搜索。

1、基于W e b 的数据挖掘技术研究张云鹏 ( 计算机技术)指导教师 :朱连章 ( 教授)摘要随着计算机技术的迅速发展，尤其是网络的全球普及，使得网络上信息量无比丰富。工 nternet 上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难，用户不知道如何更有效地发现自己所需的信息资源。通过对 W eb的挖掘，我们就可以从 W eb页面中提取所需的知识: 对总的用户访问行为、频度、内容的分析，得到关于群体用户访问行为和方式的普遍知识，用以改进W eb服务设计.本论文系统地阐述了从数据挖掘、 W eb数据挖掘到w eb日志数据挖掘整个过程，运

2、用适合分析关联性问题的关联规则，找出用户所浏览的网页间的关联性;另外，结合用户存取时间、目标网页、偏好度( Pr ef )及停留时间等数据作为推荐系统参考因素。通过对相关数据的辅助分析及比较浏览序列长度的方法，最后验证个性化推荐服务的效能，网站管理者可以轻易做到推荐用户最佳浏览网页。本研究中采用假设验证的实验方法，并仿真一计算机教学网站雏形，以作为本研究实验验证的机制。关键词:W eb数据挖掘，关联规则，个性化推荐系统T h e res e a r c h o f d a t a m i n i n g t c c h n o l o g y b a s e d o

3、nW e b2 1 无 A N GYu n 一e n g ( C o m P u t e r Tec hno l o gy)D i re c t e dbyP rofe s s o r Z H UL i an一 z h a ll gAb s t r a c tD uetot hei n c r e a s i ngd c v e 1 O p m e ” t i n the com P u t e r t e c lm o l o gye sPe c i al l y t h e who l e w o r l d s o f 叭 /e b P o P ul ar i z e s an d W

4、亡 b i nc o m P ar abl yab u n d ant amo t I n t o f i n fo rmatio nT h e i n fo rmat i o n d i v e r s i t y i n t h e I n t e rn e tmake s ite 、 Je Il h a rderfor u s e r s tofi nd t 1 1 ed e s i redi n fon n ati o n . Us e rsa r el a c ko f e ffec t i v e w a y s o f r e 1 d e v i n g rel e v ant

5、i n format i o n and ar e e asi 1 y g o t l o stinthe c y b e r s P 即e -T hr o u ghW 己 b m i n i n g ， w e c andr aw ne o e s s ary kn o w l e d g e fromw 七 bP age : toana l y zethe c o nt e n t s t()t ota l use r re eei ve a 1 1 d v i s i t b e l1 a v i o r a n dfreq ue ntn e s s ， we c ang etth e

6、g en e ralkno wte d geo f b e 】l a v i o r aJ l d m o d e o fus e r s ， and u s e t ll a t t o i mPr o veo ur叭 /e b se rv e .Inth i s t hes i s ， we s y stem at i c al l y i n trod t I c e the e nt ir e P r o c e s s o f d ata Webm i n i n g and 认 /e b l o g d ata m i n i n g . A 刀 d the re s e ar c

7、 h w i l l b e ap P l i e d tot heass o c i atio n rul e s wh i c h are s u i t a b 1 e fo r anal y z i n g ass o c i at e d P r o b l e m ， fi n d i ngth e as s o c i at i o n o f t heP 铭 e l l l atu s e rsc hoo s e . B y th e s u P P o rt o f t heass o c i at i o n rul e t h e w亡 b s i tec o u ld

8、e as i I y adj u s t th e s t r u c tu reo f 从飞 b P age s toth e b e s t b ro w s i n g s tIUc tu r e o f the u s e r s ， and b e l n g re g ar d i n g asthe b a s i s o fs u P P o rt i n g s u i tabl e s e rv i c e s .We u s e the m etho d o f h y P o th e s i s te s t i n g . F i na l l y we b u

9、i l d a s i m P l ye 一 l e am ing 认飞 b s i t e toP ro o f t hat the h y P o 1 h e s i s i s w o rkin g .Ke y w o rds : 认七 b d a ta 一 min i n g ， as s o c i at i o n ru l e ， P e r s o n a l i d e a fol l o w独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过

10、的研究成果，也不包含为获得中国石油大学或其它教育机构的学位或证书而使用过的材料. 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。签名 : 纽立库网，，么月 / 。关于论文使用授权的说明本人完全了解中国石油大学有关保留、使用学位论文的规定，即:学校有权保留送交论文的复印件及电子版，允许论文被查阅和借阅;学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。( 保密论文在解密后应遵守此规定 )学生签名 : 粼 ; 鸡导师签名 : 葬鸳二2 沪的石年尽拓年

11、/ 二月产日月之日中国石油大学( 华东) 工程硕士学位论文第 1 章前言第 1 章前言1 . 1研究背景随着计算机技术的迅猛发展，网络技术也正以日新月异的速度迅速发展着。网民的数量以几何速度在快速增长，各式各样的商务、政务、学习等各类网站亦如雨后春笋般竞相出现，网络正以其独有的魅力吸引着越来越多的领域，网上的数据资源空前丰富。但是，网络上的数据资源中蕴涵的丰富知识是不是能够得到充分的利用呢?根据发达国家的网站可用性问题调查结果显示: 9 0%的企业网站可用性较差， 7 0%的企业对本企业网站设计不够满意，用户在商业网

12、站上找到所要信息的几率只有 42% ，由于用户不能从网站找到所需的信息而损失的潜在销售额大约为 5 0%，网上购物者最终放弃寻找欲购商品的几率为6 2 % 切。那么，网站可用性较差的主要原因是什么呢? 主要是因为网站设计者对用户需求缺少了解，网站的结构没有按照反映用户任务和他们所看到的信息空间的方式来组织.所以对于网站经营者来说，他们就需要根据用户的访问兴趣、访问频度、访问时间动态的调整页面结构，改进服务，开展有针对性的电子商务以更好的满足访问者的需求。而解决这些问题的一个有利的工具就是W eb 数据挖掘，它将数据挖掘的思想和方法应用到

13、W eb上，进行W eb挖掘，挖掘出有用的信息，并将其应用到电子商务等领域。它可以帮助网络服务提供商改善站点的服务质量，优化站点拓扑结构和页面之间的超链接关系，构建智能化 W eb站点; 在 W eb 上开展电子商务活动，为用户提供个性化服务; 也可以为个人用户提供导航工具帮助他们管理网络上的信息。1 . 2国内外研究现状早在 1 9 9 6 年就有学者MS . C h e n ， H . 晚n n i l a ， T . Y a n 提出T 可以将数据挖掘方法用于W eb研究领域使用。Man nila和C h en在研究过程中都假定去掉了图形

14、文件、声音文件。中国石油大学 ( 华东) 工程硕士学位论文第1章前言以后的 w e b服务器日志就如实的反映了用户在网站中的访问情况。M a n nil a把用户访问页面当作事件，从网站访问日志中试着寻找用户访问网站的周期。 C h e n 提出了最大前向参引模型，同时也提出用这种方法来分解用户访问的S ession成为一个个的事务( t r ansao tion) ，然后就可以在事务的基础上，挖掘用户访问模式。 T . Y an 研究了如何动态地根据用户当前访问提供推荐页面。他首先对用户进行分类，然后根据同类用户访问过的页面情况，决定为当前

15、用户提供的页面内容。1 9 9 7 年D . 5 . w . N g u 和x . 物等人也研究了S i t e H e l p e r 系统，其主要方法是使用信息提取的方法提取页面信息，并且结合用户访问历史、用户个人资料提供的线索，向用户动态推荐访问的页面。1 9 9 7 年P e r k o w i t z 等人在人机界面研究领域，提出了a d a p t i v e w e bsit e 的概念，主要研究如何以历史访问为依据，使得W eb服务器提供的服务页面可以自动或者半自动的调整。1 9 9 8年 H an 把 W eb 服务器访问日志集成到数据立方体

16、结构( d a t a c u b e str u c t u r e)中，这样就可以对访问日志用传统的在线数据分析处理过程( O L AP) 来处理日志数据了。因为其分析主要用的是动态网站日志，因此，他假定客户端的缓存影响不大。丫 a n 和 H a n 都认为区分用户和用户访问s ession是一件比较困难的事情，都没有提出解决的方法。 S chech t er 等人也提出了对用户访问请求进行预测的想法。根据用户访问的情况提前动态生成用户下一个即将访问的页面内容。1 999 年， J . B org es等人提出了引入超链接概率原理，修改了传统意义上对序列的界定，可以把用户的访问在网站结构中记录下来，根据访问的条件概率判断用户频繁访问路径。2 0 00年，台湾学者J udy 等人提出了T A M 模型，对访问某网站的2 00个学生，进行问卷调查，以寻找评价网站提供信息质量的要素.目前，在一些国外专业研究web 数据挖掘的网站上面出现了几种比较简单的用户访问日志分析工具。主要是统计

展开阅读全文

基于web的数据挖掘技术研究

最新文档