加权关联规则挖掘和基于兴趣度知识评价研究

资源描述

《加权关联规则挖掘和基于兴趣度知识评价研究》由会员分享，可在线阅读，更多相关《加权关联规则挖掘和基于兴趣度知识评价研究（56页珍藏版）》请在金锄头文库上搜索。

1、摘要在数据库知识发现 ( K K D ) 研究中，许多关联规则挖掘和基于兴趣度的知识客观评价，把数据库中的各属性假设为具有相同的重要性。但在某些研究和应用领域，不同的属性在用户看来应具有不同的重要性，为体现属性的重要性，引入属性加权。如何对加权后的关联规则进行挖掘及评价，这就是本文的研究工作。在加权关联规则挖掘的研究中，主要的工作是从事务数据库中产生加权频繁项目集。由于加权频繁项目集不具有向下封闭性，也就是，加权频繁项目集的子集不一定加权频繁。因此，不能用现有的A p r i o r i 算法及其改进算法产生加权频繁项目集。本文针对已有的一些加权关联规则挖掘方法中的不足

2、，设计了两个不同的挖掘加权频繁项目集的算法，并对这两个算法加以比较。与算法一相比，理论上，算法二是基于格的理论设计，有效减少了候选集中元素的个数，并通过对原始事务数据库进行转化，使得计算项目集的支持数的方法较为简单，且扫描数据库的次数较少，因此，算法二比算法一要好。在实验上，本研究实现了这两个算法，并在合成数据上运行，验证了这两个算法的正确性和有效性。并且，这两个算法在各种实验数据上运行的结果表明，算法二在执行时间上的效率要优于算法一，且扩展性较好，符合理论分析结果。在基于兴趣度的知识评价研究中，本文给出了兴趣度定义，并对兴趣度的取值进行了讨论。用兴趣度对规则评价时，通过设定

3、最小兴趣度闽值，以产生用户感兴趣的知识。此外，本文还把兴趣度扩展为加权兴趣度，以对挖掘产生的加权关联规则进行评价，得到对用户具有实际指导意义的知识。关键字:数据挖掘，数据库知识发现，加权关联规则，加权频繁项目集，兴趣度，加权兴趣度，知识评价ABS T RACTT h e s a m e i m p o r t a n c e o f t h e a tt r i b u t e s a r e c o n s i d e r e d i n s o m e s t u d i e s o f m i n i n ga s s o c i a t i o n r u l e s a n d

4、o b j e c t i v e e v a l u a t i o n o f k n o w l e d g e b a s i n g i n t e r e s t i n K K D . B u td i ff e r e n t c l i e n t v i e w t h e a tt r i b u t e s h a v i n g d i ff e r e n t i m p o r t a n c e i n s o m e f i e l d s o f t h es t u d y a n d a p p l i c a t i o n . T h u s , t

5、 h e a t tr i b u t e s a r e g i v e n w e i g h t s f o r r e fl e c t i n g t h e i ri m p o rt a n c e . H o w t o m i n i n g a n d e v a l u a t i n g t h e a s s o c i a t i o n r u l e s w i t h w e i g h t s i ss t u d i e d i n t h i s p a p e r .I n t h e s t u 勿o f m i n i n g a s s o c

6、i a t i o n r u l e s w i t h w e i g h t ， i t i s m a j o r w o r k t o o b t a i nt h e f r e q u e n t i t e m s w i t h w e i g h t s . T h e p r e s e n t e d A p r i o r i a l g o r i t h m a n d it s i m p r o v i n ga l g o r i t h m c a n t b e u s e d i n p r o d u c i n g f r e q u e n t

7、 i t e m s w it h w e i g h t s , b e c a u s e o f t h e ya r e n o t d o w n w a r d c l o s u r e . T h u s , t w o d i ff e r e n t a l g o r i t h m s a r e d e s i g n e d t o m i n i n gfr e q u e n t i t e m s w it h w e i g h t s . T h e a l g o r i t h m s i m p r o v e t h e e x i s t e d

8、 a l g o r i t h m s o fm i n i n g f re q u e n t i t e m s w i t h w e i g h t s . C o m p a r i n g t h e f i r s t a l g o r i t h m , t h e s e c o n da l g o r i t h m b a s e o n l a tt i c e t h e o ry and d e c r e a s e t h e n u m b e r o f c a n d i d a t e i t e m sT h r o u g h t r a n

9、 s la t i n g t h e p r i m i t i v e d a t a b a s e , t h e s e c o n d al g o r it h m m a k e c a l c u l a t i n gt h e c o u n t s o f i t e m s s i m p l y a n d t h e n u m b e r o f s c a n n i n g d a t a b a s e d e c r e a s e . T h u s t h es e c o n d a l g o r i t h m i s b e t t e r

10、t h an t h e fi r s t .T h e t w o a l g o r i t h m s a r e f u l fi l l e d i n e x p e r i m e n t and t e s t e d b y u s i n g s y n t h e t i cd a t a . T h e e x p e r i m e n t a l r e s u l t v a l i d a t e t h e a l g o r it h m s a r e c o r r e c t and v a l i d . U s i n gd i ff e r e

11、n t t e s t i n g d a t a , t h e r e s u l t s h o w t h a t t h e s e c o n d a l g o r i t h m e x c e e d t h e f i r s t i nt i m e and it s e x p ans i b i l i t y i s v e ry g o o d . T h i s is a c c o r d a n c e t o t h e ana l y s i s i n t h e o ry .I n t h e s t u d y o f k n o w l e d

12、g e e v a l u a t i o n b a s i n g i n t e r e s t , t h e d e f i n i t i o n o f i n t e r e s ti s g i v e n and i t s v a l u e i s d i s c u s s e d i n t h i s p a p e r . I n o r d e r t o p r o d u c e t h e i n t e re s tk n o w l e d g e t o c l i e n t , t h e m i n i m u m o f i n t e r

13、 e s t i s s e t , w h e n e v a l u a t i n g k n o w l e d g e b yu s i n g i n t e r e s t . F u rt h e r m o r e , t h e i n t e r e s t w i t h w e i g h t i s g i v e n t h r o u g h e x p a n d i n g t h ei n t e r e s t i n t h i s p a p e r . W h e n t h e m i n e d a s s o c i a t i o n r

14、u l e s a r e e v a l u a t e d b y u s i n g t h ei n t e r e s t w i t h w e i g h t , t h e p r a c t i c al k n o w le d g e f o r c l i e n t c an b e o b t a i n e d .K e y Wo r d s : d a t a mi n i n g , K D D , a s s o c i a t i o n r u l e s w i t h w e i g h t s , f r e q u e n t it e m sw

15、 i t h w e i g h t s , i n t e r e s t ， i n t e r e s t w i t h w e i g h t , k n o w l e d g e e v a l u a t i o n加权关联规则挖掘和基于兴趣度知识评价研究第一章数据挖掘与知识评价概述近年来随着数据库技术的发展，人类积累的数据量正在以指数速度增长，大量的数据被描述为“ 数据丰富，但信息贫乏” 。如何从数据库中发现并提取出有用的知识，即数据库知识发现( k n o w le d g e d is c o v e ry in d a t a b a s e s

16、, K D D ) 成为一个重要的研究课题。知识发现过程可粗略地理解为三个过程: 数据准备 d a t a p r e p a r a t io n ) , 数据挖掘、解释和评价 ( i n t e r p re t a t i o n a n d e v a l u a t i o n ) 1Z l o1 . 1 数据准备数据准备主要完成数据的选取 ( d a t a s e l e c t i o n )和数据预处理( d a t ap r e p r o c e s s i n g ) ，其主要目的是根据用户的需求从原始数据库中抽取一组数据，并对这些数据中存在的不完整性、噪声和不一致性进行处理，以便从这些数据中挖掘产生知识。数据预处理过程又包括数据清理( d a t a c l e a n i n g ) , 数据集成和变换、数据归约、离散化和概念分层生成。1 、数据清理。数据清理主要是填充空缺的值，识别孤立点、消除噪声，并纠正数据中的不一致。( 1 )如果在数据中存在空缺值. 在不影响挖掘结果的前提下。填充空缺值

展开阅读全文