数据挖掘理论与方法若干问题研究

上传人:li45****605 文档编号:44652606 上传时间:2018-06-14 格式:PDF 页数:130 大小:6.27MB
返回 下载 相关 举报
数据挖掘理论与方法若干问题研究_第1页
第1页 / 共130页
数据挖掘理论与方法若干问题研究_第2页
第2页 / 共130页
数据挖掘理论与方法若干问题研究_第3页
第3页 / 共130页
数据挖掘理论与方法若干问题研究_第4页
第4页 / 共130页
数据挖掘理论与方法若干问题研究_第5页
第5页 / 共130页
点击查看更多>>
资源描述

《数据挖掘理论与方法若干问题研究》由会员分享,可在线阅读,更多相关《数据挖掘理论与方法若干问题研究(130页珍藏版)》请在金锄头文库上搜索。

1、华东 理工大学 博 士 学 位 论 文第 I 页数据挖掘理论与方法若干问题研究数据挖掘就是从大量的数据集中 抽取和精炼新的 模式或知识的过程,目 前已 经成为一 个重要的 研究课题。 本文以 提高数据挖掘的效率为目 的,以 微机机群为平台,以 油田 地质数据库为背景开展研究工作,主要包1提出了两种处理缺损数据的方法.往是不完整的、含有噪声的或不一致的,六个方面的内 容。 据挖掘所面向的数据库或数据仓库中的数据往 以为确保数据挖掘的效率和质量,必须对这些 数 据 进 行 预 处 理 。 本 文 提 出 了 两 种 处 理 缺 损 数 据 的 方 法 护种 是 基 于 B a y e sia n

2、网 络 的 缺 损 数据处理方法; 另一种是基于数据库先验知识的 缺损数据处理方法, 它充分利用数据库的冗余信息来推断缺损数据。2 . 提出了两种聚类新算“ A 分 析 是 数 据 挖要内容, 它能帮助我们了解数据 分布的整体状况。本文提出了两种新的聚类学习算法是进化聚类学习方法,蚁群算 法是解决离散优化问题的一种重要算法,本文首次将其应用到聚类学习中,提出了一种基 于蚁群算法的进化聚类学习方法,取得了 很好的效果;另一种是基于代表点的聚类方法, 对于一些非球形分布的数据集,用普通的方法聚类的效果不理想, 利用该方法可以 首先根据领域知识选取一些代表点,然后再进行聚类学习,实验效果较好. 3

3、. 提出了两种关联规则挖掘算规则是人们感兴趣的规则, 也是数据挖掘的重要研究内容。本文提出了两种新的关联规 Ii 挖掘算呼种 是 基 于 概 念 格 的 关 联 规 则 挖 掘 方法, 将概念格的方法应用到关联规则挖掘中来,首先建立概念格的H a s s e 图, 然后利用 H a s s e图的节点 进行关联规则挖掘;另一种是基于微机机群平台的挖掘关联规则的并行方 法,我们发现矩阵中的上三角矩阵具有良 好的性质,将该性质运用到关联规则的挖掘中来 可以大大提高挖掘效率。4提出了 一种基于超图理论的离群数据挖掘群数据挖掘是新兴的研究课题,在生产科中有广泛的应用前景。 本文提出了 一种基于超图理论

4、的解决高维离群数据挖掘的方法权重的法首先建立了 超图模型, 然后利用超图的分割算法寻找频繁超边,根据超边上 来检测离群点.5 . 提出了离群数据再挖掘的概念和算法。 离群数据一般可以分为三种情况: 一是错误, 二是正常的 偏离, 三是含有一定信息量的数据。其中第三种情况的数据是我们感兴趣的. 本文提出了在离群数据集中进行再挖掘的概念, 并给出了 一种基于频繁属性子空间的再挖掘算法。6提出了 一种 基于M u l t i - A g e n t 理 论的智能 数据挖掘 体系结 构。 仅仅 从改 进算法 和提 高硬件速度的角度来提高数据挖掘的效率,已经远远不能适应数据量日益增长的需要,因此需要新的

5、理念来指导数据挖机机群为数据挖掘提供了高效廉价的硬件平台 M u l t i - A g e n t 理论为 我 们提 供了 新的 思 路, 根 据W o o l d r ig e 等 人的 观点 我 们 将单 独一 台 微 机 视 为 一 个A g e n t , 将 微 机 机 群 看 作 是M u lti- A g e n t 系 统 , 这 样 就 可 以 用M u lti- A g e n t 理 论 来第II页管理这些计算机。在此基础上我们提出了一种基于 Mu l t i -华东 理工大学 博 士 学 位 论 文4 e e n t 理论的智能数据挖掘体系 结构并讨论了 在微机机群平

6、台上进行并行挖掘的方法。关键词: 数据挖掘数据预处理进化聚类概念格离群数据挖掘华东 理工大学博 士 学 位 论 文第m页R e s e a r c h o n T h e o r y a n d Me t h o d s o f D a t a Mi n i n gD a t a m in i n g i s a k i n d o f p r o c e s s w h ic h e x a c t s a n d r e f in e s n e w p a tt e rn s o r k n o w l e d g e f r o m l a r g e s c a l e d a t

7、a b a s e s . A n d n o w i t b e c o m e s a n i m p o rt a n t re s e a r c h fi e l d . T h e m a in s u b j e c t o f t h i s p a p e r i s t o i m p r o v e t h e e ff i c i e n c y o f d a t a m i n i n g f o r t h e o i l fi e l d d a t a b a s e o n t h e P C c l u s t e r p l a t f o r m .

8、T h e m a i n c o n t r i b u t i o n s a r e a s f o ll o w s :1 . T w o a l g o r i t h m s f o r d e a l i n g w i t h i m p e r f e c t d a t a w e r e p r e s e n t e d i n t h i s p a p e r . S o m e d a t a o f t h e d a t a b a s e o r d a t a w a r e h o u s e t e n d t o b e i m p e r f e

9、c t , n o i s y o r i n c o n s i s t e n t . T h e s e d a t a m u s t b e p r e p r o c e s s e d i n o r d e r t o i m p r o v e t h e e ffi c i e n c y a n d q u a l i ty o f d a t a m i n i n g . T w o m e t h o d s t o d e a l w i t h i m p e r f e c t d a t a w e r e p r e s e n t e d a s f o

10、 l l o w s : O n e i s b a s e d o n B a y e s i a n n e t w o r k , a n o t h e r i s u s e d t o d e d u c e t h e m i s s i n g v a l u e w i t h r e d u n d a n t in f o r m a t io n i n d a t a b a s e b a s e d o n e x p e r i e n c e k n o w l e d g e2 . T w o n e w c l u s t e r i n g a l g

11、o r i t h m s w e r e p r e s e n t e d i n t h i s p a p e r . C l u s t e r a n a l y s i s i s a n im p o r t a n t p a rt o f d a t a m i n in g a n d i t c a n h e l p u s t o m a s t e r t h e d i s t r i b u t i o n o f t h e d a t a s e t a s a w h o l e . T w o n e w m e t h o d s f o r c l

12、 u s t e r i n g a s f o l l o w s : o n e i s a n e v o l u t i o n a ry c l u s t e r i n g a l g o r it h m b a s e d o n a n t c o l o n y . A n t c o l o n y i s a n i m p o rt a n t w a y t o re s o lv e t h e d i s c r e t e o p t im i z a t i o n p r o b le m . I n t h i s p a p e r , A n e

13、w c l u s t e r in g a l g o r i t h m b a s e d o n a n t c o l o n y w a s p r e s e n t e d f o r t h e f i r s t t i m e A n o t h e r m e t h o d i s b a s e d o n t y p i c a l d a t a . T o s o l v e t h e p r o b l e m s e x i s t i n g i n t r a d i t i o n a l c lu s t e r i n g a l g o r

14、i t h m s w h i c h a r e f a v o r a b le t o id e n t i 勿c lu s t e r s w i t h s a m e s i z e a n d s p h e r i c a l s h a p e a n d s e n s i t i v e t o o u t l i e r s , a n e ff e c t iv e c l u s t e r in g a l g o r i t h m u s i n g t y p i c a l d a t a i s d e s i g n e d i n t h i s p

15、 a p e r . I n t h i s a p p r o a c h , s o m e w e l l s c a tt e r e d d a t a p o i n t s a r e f i r s t s e l e c t e d . A n d t h e n c l u s t e r i n g i s s t a rt e d .3 . T w o n e w a l g o r i t h m s f o r m i n i n g a s s o c i a t i o n r u l e s w e r e d e s i g n e d i n t h i

16、s p a p e r . A s s o c i a t i o n r u l e s a r e i n t e r e s t e d a n d k e y t o s o m e d e p a r t m e n t s . T w o a l g o r i t h m s f o r t ra i n in g a s s o c i a t i o n r u l e s a r e p r e s e n t e d . T h e f i r s t a l g o r i t h m i s d e s i g n e d b a s e d o n c o n c e p t l a tt i c e . H a s s e g r a p h o f c o n c e p t l a t t i c e i s b u i l t a c c o r d i n g to t h e d a t a a n d a s s o c i a t i o n r u le s c a n b e f o u n d fr o m t h e k n o t

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号