基于显露模式的流数据集成架权分类算法研究

上传人:E**** 文档编号:118097304 上传时间:2019-12-11 格式:PDF 页数:70 大小:2.90MB
返回 下载 相关 举报
基于显露模式的流数据集成架权分类算法研究_第1页
第1页 / 共70页
基于显露模式的流数据集成架权分类算法研究_第2页
第2页 / 共70页
基于显露模式的流数据集成架权分类算法研究_第3页
第3页 / 共70页
基于显露模式的流数据集成架权分类算法研究_第4页
第4页 / 共70页
基于显露模式的流数据集成架权分类算法研究_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《基于显露模式的流数据集成架权分类算法研究》由会员分享,可在线阅读,更多相关《基于显露模式的流数据集成架权分类算法研究(70页珍藏版)》请在金锄头文库上搜索。

1、学校代号:1 0 5 3 2 学 密 号:G 0 7 1 0 0 0 8 9 级:普通 湖南大学工程硕士学位论文 基于显露模式的流数据集成加权 分类算法研究 途文签趱目期;2 Q ! ! 玺! 月鱼旦 签趱委员金圭廑;奎盏童熬援 | l I I II II III I I II II I IIIIl Y 19 0 7 4 4 2 R e s e a r c ho nt h ee m e r g i n gp a t t e r n s b a s e di n t e g r a t i v ew e i g h t e d c l a s s i f i c a t i o na l g o

2、 r i t h mf o rs t r e a md a t a b y M A O X i a o y a n B E ( H u n a nU n i v e r s i t yO f A r t sA n dS c i e n c e ) 2 0 0 5 At h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e R e q u i r e m e n t sf o rt h ed e g r e eo f M a s t e ro fE n g i n e e r i n g C o m p

3、 u t e rA p p l i c a t i o n i nt h e G r a d u a t eS c h o o l o f H u n a n U n i v e r s i t y S u p e r v i s o r L e c t u r e rC H E NZ U O S e n i o rE n g i n e e rP E N GS h u d o n g D e c e m b e r ,2 0 10 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其

4、他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名:毛丑屯舷日期:力,f 年f 月易日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“4

5、”) 作者签名:毛疗毛整日期:加1 年1 月6 日 导师签名:下忑穆日期:工o f f 年,月6日 彭拣 基于显露模式的流数据集成加权分类算法研究 摘要 近年来,随着证券交易、网络安全检测、电话通讯记录、无线传感网络等领 域各种应用形式的不断出现,一种不断变化、连续到达且规模巨大的流式数据逐 渐进入人们的视野,这即是流数据。流数据颠覆了数据库中传统静态的数据存在 形式,它具有分布形态不断变化、数据元素连续到达等一系列不同于传统数据的 特点,这使得流数据环境下的数据挖掘技术对挖掘算法提出了更高的要求。 通过对流数据单分类器算法和集成分类算法进行比较,我们发现,流数据集 成分类算法可以有效提高分类

6、性能。进一步的研究指出,应用基本显露模式构建 的单分类器算法可以取得很好的分类效果。基于上述研究,本文采用对多个流数 据基分类器进行集成加权的方法来提高分类性能,并采用具有很好区分性能的基 本显露模式来构建流数据集成分类算法的基分类器成员,最终提出了一种基于显 露模式的流数据集成加权分类算法。在训练基分类器时,为了使基于e E P s 的基分 类器具有较好的分类性能,算法通过训练e E P s 实现e E P s 权值的自适应,确保当 发生概念漂移时,基分类器可以快速收敛;在生成集成分类器时,通过在对基分 类器加权之前首先对其进行模型更新,使得构造的集成分类器算法可以很好地反 映数据分布特征和

7、有效地适应概念漂移现象。 实验结果表明,相同流数据环境下,本文算法分类精度略优于基于其他方法 构建基分类器的集成分类算法;并且本文算法性能明显优于基于基本显露模式构 建的单分类器算法。 关键字:数据挖掘,流数据,概念漂移,分类 硕上学位论文 A b s t r a c t I nr e c e n ty e a r s ,w i t ht h ee m e r g e n c eo fa l lk i n d so fa p p l i c a t i o n s ,s u c ha st h es t o c k m a r k e tt r a d i n g ,t h es e c u

8、r i t yt e s t i n gf o ri n t e r n e t ,t h et e l e c o m m u n i c a t i o nr e c o r d s ,a n d t h ew i r e l e s ss e n s o rn e t w o r k s ,p e o p l ep a yt h e i ra t t e n t i o n so n a ne v e r - v a r i a t i o n a l , c o n t i n u o u sa n dl a r g e s c a l es t r e a m i n gd a t

9、a ,n a m e l y , s t r e a md a t a T h es t r e a md a t a c h a n g e dt h ee x i s t i n gf o r mo ft h et r a d i t i o n a ls t a t i cd a t a ,a n di th a sm a n yp r o p e r t i e s d i f f e r e n tf r o mt h et r a d i t i o n a ld a t a ,f o re x a m p l e ,t h ed i s t r i b u t i o np a

10、t t e r n so fs t r e a m d a t aa r ec h a n g i n gc o n s t a n t l y , a n di t sd a t ae l e m e n t sa r er e a c h i n gc o n s e c u t i v e l y , w h i c h m a k e si td i f f i c u l tt od od a t am i n i n gi nt h ee n v i r o n m e n to fs t r e a md a t a B yc o m p a r i n gt h es i n

11、g l ec l a s s i f i e ra n dt h ee n s e m b l ec l a s s i f i c a t i o na l g o r i t h mi n t h ee n v i r o n m e n to fs t r e a md a t a ,W ef i n dt h a t ,w ec a ni m p r o v et h ep e r f o r m a n c eo f c l a s s i f i c a t i o na l g o r i t h m sf o rs t r e a md a t ab yi n t e g r

12、a t i n gt h e m I na d d i t i o nt ot h i s ,W e a l s of i n dt h a tah i g hc l a s s i f i c a t i o np r e c i s i o nc a nb ea c h i e v e db yu s i n gac l a s s i f i e r c o n s t r u c t e dw i t ht h ee s s e n t i a l e m e r g i n gp a t t e r n s ( e E P s ) B a s e do nt h e s eb a s

13、 e s m e n t i o n e da b o v e ,w ep r o p o s et oi m p r o v et h ec l a s s i f i c a t i o np r e c i s i o nb yi n t e g r a t i n g a n dw e i g h t i n gm u l t i p l ec l a s s i f i e r sf o rs t r e a md a t a ,a n da d o p tt h ee s s e n t i a le m e r g i n g p a t t e r n s t oc o n s

14、 t r u c tt h eb a s i cc l a s s i f i e r so fi n t e g r a t e d a l g o r i t h m F i n a l l y ,a n i n t e g r a t i v ew e i g h t e dc l a s s i f i c a t i o na l g o r i t h mf o rs t r e a md a t ai sp r o p o s e db a s e do nt h e e m e r g i n gp a t t e r n s i nt h i st h e s i s O n

15、t r a i n i n gt h eb a s i cc l a s s i f i e r ,t h ee s s e n t i a l e m e r g i n gp a t t e r ni st r a i n e di no r d e rt h a ti tc a nh a v ea na d a p t i v ew e i g h t ,i nt h i sw a y , w ec a nc o n s t r u c tab a s i sc l a s s i f i e rw i t hag o o dd i s t i n g u i s h a b i l i

16、 t y , w h i c hc a nb e c o n v e r g e dq u i c k l yw h e nt h ep h e n o m e n o no fc o n c e p td r i f t i n ga p p e a r s O ni n t e g r a t i n g t h e s ec o n s t r u c t e db a s i cc l a s s i f i e r s ,w eu p d a t et h e mc o n t i n u a l l yb e f o r ew e i g h t i n gt h e m , w h i c hm a k e si t p o s s i b l ef o rt h ei n t e g r a t e dc l a s s i f i c a t i o na l g o r i t h mt of i tf o rt h e d i s t r i b u t i o no fs t r e a md a t a

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号