基于web的数据挖掘技术研究

上传人:小** 文档编号:47473637 上传时间:2018-07-02 格式:PDF 页数:49 大小:1.73MB
返回 下载 相关 举报
基于web的数据挖掘技术研究_第1页
第1页 / 共49页
基于web的数据挖掘技术研究_第2页
第2页 / 共49页
基于web的数据挖掘技术研究_第3页
第3页 / 共49页
基于web的数据挖掘技术研究_第4页
第4页 / 共49页
基于web的数据挖掘技术研究_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《基于web的数据挖掘技术研究》由会员分享,可在线阅读,更多相关《基于web的数据挖掘技术研究(49页珍藏版)》请在金锄头文库上搜索。

1、基于W e b 的数据挖掘技术研究张云鹏 ( 计算 机技术)指导教师 :朱连章 ( 教授)摘 要随 着计算机技术的 迅速发展,尤 其是网 络的全球普及, 使得网络上信息量 无比 丰富。工 nternet 上信息资 源分 布的广泛性又给用户寻找感兴趣的信息增加了困 难, 用户不知道如何更 有效地发现自 己 所需的信息资源。通过对 W eb的挖掘, 我们就可以从 W eb页面中提取所需的 知识: 对总的用户访问行为、频度、内容的分析,得到关于群体用户访问行为和方式的普遍 知识, 用以 改进W eb服务设计.本 论文系统地阐 述了 从数据挖 掘、 W eb数据挖掘到w eb日 志数据挖掘整个过程,运

2、用适合分析关联性问题的关联规则,找出用户所浏览的网页间的关联 性;另外, 结合用户存取时间、目 标网 页、 偏好度( Pr ef )及停留时间等数据作为推荐系统参考因素。通过对相关数据的辅助分析及比 较浏览序列长度的 方法, 最后验证个 性化推 荐服务的效能,网站管理者可以轻易做到推荐用户最佳浏览网页。本研究中采用假设验证的实 验方法, 并仿真一计算机教学网 站雏形,以作为本研究实验验证的机制。关键词:W eb数据挖掘,关联规则,个性化推荐系统T h e res e a r c h o f d a t a m i n i n g t c c h n o l o g y b a s e d o

3、nW e b2 1 无 A N GYu n 一e n g ( C o m P u t e r Tec hno l o gy)D i re c t e dbyP rofe s s o r Z H UL i an一 z h a ll gAb s t r a c tD uetot hei n c r e a s i ngd c v e 1 O p m e ” t i n the com P u t e r t e c lm o l o gye sPe c i al l y t h e who l e w o r l d s o f 叭 /e b P o P ul ar i z e s an d W

4、亡 b i nc o m P ar abl yab u n d ant amo t I n t o f i n fo rmatio nT h e i n fo rmat i o n d i v e r s i t y i n t h e I n t e rn e tmake s ite 、 Je Il h a rderfor u s e r s tofi nd t 1 1 ed e s i redi n fon n ati o n . Us e rsa r el a c ko f e ffec t i v e w a y s o f r e 1 d e v i n g rel e v ant

5、i n format i o n and ar e e asi 1 y g o t l o stinthe c y b e r s P 即e -T hr o u ghW 己 b m i n i n g , w e c andr aw ne o e s s ary kn o w l e d g e fromw 七 bP age : toana l y zethe c o nt e n t s t()t ota l use r re eei ve a 1 1 d v i s i t b e l1 a v i o r a n dfreq ue ntn e s s , we c ang etth e

6、g en e ralkno wte d geo f b e 】l a v i o r aJ l d m o d e o fus e r s , and u s e t ll a t t o i mPr o veo ur叭 /e b se rv e .Inth i s t hes i s , we s y stem at i c al l y i n trod t I c e the e nt ir e P r o c e s s o f d ata Webm i n i n g and 认 /e b l o g d ata m i n i n g . A 刀 d the re s e ar c

7、 h w i l l b e ap P l i e d tot heass o c i atio n rul e s wh i c h are s u i t a b 1 e fo r anal y z i n g ass o c i at e d P r o b l e m , fi n d i ngth e as s o c i at i o n o f t heP 铭 e l l l atu s e rsc hoo s e . B y th e s u P P o rt o f t heass o c i at i o n rul e t h e w亡 b s i tec o u ld

8、e as i I y adj u s t th e s t r u c tu reo f 从 飞 b P age s toth e b e s t b ro w s i n g s tIUc tu r e o f the u s e r s , and b e l n g re g ar d i n g asthe b a s i s o fs u P P o rt i n g s u i tabl e s e rv i c e s .We u s e the m etho d o f h y P o th e s i s te s t i n g . F i na l l y we b u

9、i l d a s i m P l ye 一 l e am ing 认 飞 b s i t e toP ro o f t hat the h y P o 1 h e s i s i s w o rkin g .Ke y w o rds : 认 七 b d a ta 一 min i n g , as s o c i at i o n ru l e , P e r s o n a l i d e a fol l o w独 创 性 声 明本人声明 所呈交的 论文是我个人在导师指导下进行的 研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论 文中 不包含其他人已 经发表或撰写过

10、的 研究成果,也不包含为获得中国 石油大学或其它教育机构的 学位或证书 而使用过的材料. 与我一同 工作的同 志对本研究 所做的 任何贡献均己 在论文中作了明确的 说明 并表示了谢意。 签 名 : 纽 立 库网, , 么 月 / 。关于论文使用授权的说明本人完全了 解中国石油 大学有关保留、 使用学位论文的 规定, 即:学校有权保留送交论文的复印件及电 子版, 允许论文被查阅和借阅;学校可以 公布论文的全部或部分内 容, 可以 采用影印、 缩印或其他复制手段保存论文。( 保 密论 文在解密 后 应遵守 此规定 )学 生 签 名 : 粼 ; 鸡 导 师 签 名 : 葬鸳二2 沪的 石年 尽拓 年

11、/ 二月产 日月之日中国石油大学( 华东) 工程硕士学位论文第 1 章 前言第 1 章 前言1 . 1研究背景随着计算机技术的迅 猛发展,网 络技术也正以日 新月 异的 速度迅速发展着。网民的 数量以 几何速 度在快速增长, 各式各样的商务、 政务、 学习 等各 类网 站亦如雨后春笋 般竞 相出 现,网 络正以 其独 有的魅力吸引着越来越多的 领域, 网上的 数据资源空前丰富。但是,网 络上的 数据资源中蕴涵的丰富知识是 不是能够得到充分的利 用呢?根据发达国 家的网 站可用性问题调查结果显示: 9 0%的企业网 站 可 用性较差, 7 0%的 企业 对本企业网站设计不 够满意, 用户在商业网

12、 站上找到所要信息的几率只 有 42% ,由 于用户不能从网站找到所需的 信息而 损失的潜在销售额大约 为 5 0%,网上购物者最终放弃寻找欲购商品的 几率为6 2 % 切 。那么, 网站可用性 较差的 主要原因是什么呢? 主要是因 为网 站设计者对用户需求缺少了解,网站的结构没有按照反映用户任务和他们所看到的信息空间的方式来组织.所以 对于网站经营者来说, 他们就需要 根据用户的访问兴趣、访问 频度、 访问时 间动态的 调整页 面结 构,改 进服务, 开展有 针对性的电子商务以更好的满足访问者的需求。而解决这些问 题的一 个有利的工具就是W eb 数据挖掘,它将数据挖 掘的思 想和方法应用到

13、W eb上, 进行W eb挖掘, 挖掘出 有用的信息,并将其 应用到电 子商务 等领域。它可以帮助网 络服务提供商改善站点的服 务质量,优化 站点拓扑结 构和页面之间的超链接关系, 构建智能化 W eb站点; 在 W eb 上开展电 子商务活 动,为 用户提供个性化服务; 也可以 为个人用 户提供导航工 具帮助他 们管理网络上的信息。1 . 2国内外研究现状早在 1 9 9 6 年就有 学者MS . C h e n , H . 晚n n i l a , T . Y a n 提出T 可以 将数据挖掘方 法用于W eb研究领 域使用。Man nila和C h en在研究过 程中 都假定去掉了 图形

14、文件、声音文件。中国石油大学 ( 华东) 工程硕士学位论文第1章 前言以后的 w e b服务器日 志就如实的反映了用户在网站中的访问 情况。M a n nil a把用户访问 页面当 作事件,从网站 访问日 志中 试着寻找用户 访问网站的周期。 C h e n 提出了最大前向参引模型,同时也提出用这种方法来分解用户访问 的S ession成为一个个的事 务( t r ansao tion) , 然后就 可 以 在事务的 基础上, 挖掘用户访问 模式。 T . Y an 研究了 如何动态地根据用户当 前访问 提供推荐页面。他首先对用户 进行分类, 然后根据同 类用户访问 过的页面情况,决定为当 前

15、用户提供的 页面内 容。1 9 9 7 年D . 5 . w . N g u 和x . 物等人也研究了S i t e H e l p e r 系统, 其主 要 方法是使用信息提取的方法提取页面信息,并 且结合用户访问 历史、 用户个人资料提供的线索,向用户动态推荐访问的页面。1 9 9 7 年P e r k o w i t z 等人在人机界面研究 领域, 提出了a d a p t i v e w e bsit e 的概念, 主要研究如何以历史访问为 依据, 使得W eb服务器提供的服务页面可以自动或者半 自 动的调整。1 9 9 8年 H an 把 W eb 服务器访问日 志集 成到数据立方体

16、结构( d a t a c u b e str u c t u r e)中, 这样就可以对访问日 志用传统的在线数据分析处 理过程( O L AP) 来处理日 志数据了。 因为其分 析主 要用的是动态网 站日志, 因此, 他假定客户端的 缓存影响 不大。丫 a n 和 H a n 都认为区 分用户和用户访问s ession是一件比 较困 难的事情, 都没有提出 解决的方法。 S chech t er 等人也提出了 对用户访问 请求进行预测的想法。根据用户访问的情况提前动态生成用户下一个即将访问的页面内容。1 999 年, J . B org es等人提出 了引入 超链接概 率原理, 修改了 传统意义上对序列的界定, 可以把用户的 访问 在网 站结构中 记录下来, 根据访 问的 条件概率判断用户频繁访问 路径。2 0 00年, 台湾学者J udy 等人提出了T A M 模型, 对访问 某网 站的2 00个学生, 进行问 卷调查,以 寻找评价网站提 供信息质量的要素.目 前, 在一些国 外专业研究web 数据挖掘的网 站上面出 现了 几种比较简单的 用户访问日 志分析工具。 主要是统计

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 宣传企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号