基于中间知识库的可继承聚类研究

上传人:206****923 文档编号:47262772 上传时间:2018-07-01 格式:PDF 页数:135 大小:4.75MB
返回 下载 相关 举报
基于中间知识库的可继承聚类研究_第1页
第1页 / 共135页
基于中间知识库的可继承聚类研究_第2页
第2页 / 共135页
基于中间知识库的可继承聚类研究_第3页
第3页 / 共135页
基于中间知识库的可继承聚类研究_第4页
第4页 / 共135页
基于中间知识库的可继承聚类研究_第5页
第5页 / 共135页
点击查看更多>>
资源描述

《基于中间知识库的可继承聚类研究》由会员分享,可在线阅读,更多相关《基于中间知识库的可继承聚类研究(135页珍藏版)》请在金锄头文库上搜索。

1、摘要数据挖掘是当今研究热点, 它是从大量的、 不完全的、 有噪声的实际应用数据中, 提取隐含在其中的、事先未知的、但又潜在有用的知识的过程。随着技术的进步,数据挖掘的对象发生很大变化,已由静态数据集变化为动态数 据流,本文研究对象正是这种大规模连续动态环境,其数据通常是 G B级甚至是 T B 级的, 数据按照一定的规律不断更新。 在这种环境中,己有的知识发现方法面临新的 问题,主要体现在以下几点:( 1 ) 数据挖掘效率不高。( 2 )处理能力跟不上。面对大 规模数据,囿于原有挖掘模型, 很多传统算法根本无法处理。 ( 3 ) 无法满足实时更新 的需求。数据是动态的,而且频繁更新,因此挖掘过

2、程需要不断进行,来跟踪数据的变化。而传统算法无法实现快速更新,满足这种实时需求。针对上述困难,围绕聚类问题,本文采用可继承的观点来处理大规模动态环境的 数据聚类分析, 不仅采用内 存中的增量继承方式, 而且把挖掘过程中有价值的知识固 化为外存的永久继承,实现知识产生知识,从而提供快速灵活查询。主要工作包括: ( 1 ) 提出知识发现中可继承问 题, 给出其中关键定义: 进化基、 进化冲量、 进化操作、继承度和继承灵活性,并以此为基础,把可继承问题进行分类,给出不同类型可继承的研究方向 和重点。分析了传统 F a y y a d模型、强度挖掘模型和简单增量模型对处理大规模连续动态环境的不适应性,

3、 剖析传统挖掘过程中挖掘算法的参数依赖, 提出基于中间知识库的可继承聚类模型并给出其中中间知识的定义,界定其可加减性、等价性、浓缩性。 ( 2 )给出 聚类中1M知识的 设计: E D S ( E x t e n d e d D a t a S u m m a ry ) 和 E C F ( E x t e n d e dC l u s t e r in g F e a t u r e ) , 给出他们的统计学基础,分析其加减性、 压缩性和时空代价, 说明其合理性和对可继承聚类模型的适用性; 给出三种中间知识获取方法:1 ) 基于距离的方法, 根据每个单元簇的均方根半径判断新加入的点的归属 2

4、)基于网格的方法, 采用动态的网格来获取中间知识, 针对网格的稀疏特性, 使用哈希技术来定位每个项目。3 )动态自 组织特征影射方法。根据计数器变量并引入累积误差,来决定神经元的增加与删除,从而更好的适应动态环境。 ( 3 ) 给出外存中中间知识元数据、 时间索引、 中间知识库、 中间知识表的结构定义, 采用扩展的B N F 识的管理和查询。语法给出中间知识结构化模式查询语言l K M Q L , 进行中间知 在分析时间粒度的基础上,给出三种中间知识保存方法,分别计算其时效误差, 分析和证明了每种方法在中间知识保存过程中的存储容量和查询精度。 ( 4 ) 设计了基于中间知识库的划分聚类方法,给

5、出中心变化时的聚类质量变化公式; 在层次算法中, 给出相异度矩阵的递推公式,并改进其合并策略以 提高效率; 在基于密度的算法中, 给出同质密度和密度相连的定义,以发现不同密度摘要层次的聚类;在基于模型的算法中,把标准方差插入到密度函数,给出单元簇成员在 M 步中发生的简化公式。在基于窗口操作的算法中,本文给出窗口相减操作过程。 C S ) 开发原型系统, 验证中间知识获取、 存储和维护方法以 及本文提出的运行于其上的各类算法的正确性和效率, 分别跟采样以及传统算法作对比, 证明了本文提出聚类模型对大规模连续动态环境的处理能力; 通过对噪声和起伏数据的输入, 验证模型的稳定性。 通过在不同数据规

6、模和维度上的运行,分析其可伸缩性。关摺绿 匆班发男、 粱类、可 缪 承 勿识 发 男、沪 间匆好Ab s t r a c tA B S T R A C TT o d a y D a t a m i n i n g i s b e c o m in g a h o t t o p i c i n t h e f i e l d s o f d a t a p r o c e s s i n g . I t i s s u c h ap r o c e s s t h a t c a n f i n d p o t e n t i a l l y u s e f u l k n o w l e d

7、 g e i n t h e v a s t a m o u n t o f d a t a p r o d u c e d i ns o m e r e a l a p p l i c a t i o n .Wi t h t h e d e v e l o p m e n t o f t e c h n o l o g y , t h e o b j e c t s o f k n o w l e d g e d i s c o v e ry h a v e c h a n g e dg r e a t l y a n d t h e c o n c e p t o f a d y n a

8、m i c d a t a i s m o r e a p p r o p r i a t e t h a n a s t a t i c d a t a s e t .I n t h i s p a p e r w e f o c u s o n t h e d a t a m i n in g o f h u g e d y n a m i c d a t a e n v i r o n m e n t w i t h v o l u m e o f G Bo r T B a n d f r e q u e n t l y u p d a t e d b y s o m e r u l e

9、 s . O b v i o u s l y i n s u c h e n v i r o n m e n t m o s tt r a d i t i o n a l d a t a m i n i n g m e t h o d s m e e t n e w p r o b l e m s a s f o l l o w s , f i r s t , e ff i c i e n c y o f d a t am i n i n g i s l o w . S e c o n d , e ff e c t o f d a t a m i n i n g i s l o w a n d

10、 t r a d i t i o n a l a l g o r i t h m s c a n t p r o c e s st h e d a t a a t a l l b e c a u s e o f t h e l i m it a t i o n o f d a t a m i n i n g m o d e l .T h i r d , t r a d i t i o n a l a l g o r i t h mc a n t m e e t t h e r e q u e s t o f r e a l t i m e u p d a t e . D a t a i s d

11、 y n a m i c a n d r e q u i r e m e n t f o r d a t a m i n i n gi s s h o r t- t e r m . T h u s , d a t a m i n i n g p r o c e s s s h o u l d r u n c o n t i n u o u s l y a n d t r a c e t h e c h a n g e o fd a t a . Wh i l e t r a d i t i o n a l m e t h o d s c a n t s a t i s f y t h a t k

12、 i n d o f r e q u e s t .F o r t h e a b o v e r e a s o n s , t h i s d i s s e r ta t i o n f o c u s e s o n t h e i n h e r i t a b l e c l u s t e r i n g p r o b l e ma n d e m p l o y s i n h e r i t a b l e m e t h o d t o a n a l y z e t h e l a r g e s c a l e d y n a m i c d a t a . N o

13、t o n l y i s t h ei n c r e m e n t a l t h i n k in g a d o p t e d , b u t a l s o t h e v a l u a b l e k n o w l e d g e g a i n e d d u r i n g t h e K D D p r o c e d u r e i s i n h e r i t e d a n d s a v e d o n t h e h a r d d i s k t o q u e ry q u i c k l y , w h i c h in d u c e sk n o

14、 w l e d g e p r o d u c i n g k n o w le d g e . T h e m a i n c o n t r i b u t e s o f t h i s d i s s e r ta t i o n a r e a s f o l l o w s :F i r s t l y , t h e i n h e r i t a b l e p r o b le m i n t h e k n o w l e d g e d i s c o v e r y p r o c e s s i s d e s c r i b e d a n d t h e k e

15、 y d e f i n i t i o n s o f e v o l u t i o n b as e , e v o l u t io n i m p u l s e , e v o l u t i o n o p e r a t i o n , I n h e r i t d e g r e ea n d i n h e r i t fl e x i b i l i t y a r e p r o v i d e d . B a s i n g o n t h e m t h e i n h e r i t a b l e p r o b l e m i s c l a s s i f

16、 i e d a n dd i ff e r e n t r e s e a r c h f i e l d a n d t h e i r e m p h as e s a r e d i s c u s s e d . T h e f u n c t io n o f i n h e r i t a b l ep r o b l e m n e e d e d i n a p p l i c a t i o n i s g i v e n f o r m a l l y . T h e u n f i t t i n g o f t r a d i t i o n a l m o d e l s s u c h a sF a y y a d m o d e l , I n t e n s i o n Min i n g m o d e l a n d S i m p l e I n c r e m e n t a l m o d e l i s a n a l y z e d , a n d an e w m o d e l i s g i v e n . T h e n

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号