基于粗集理论的数据过滤方法的研究

资源描述

《基于粗集理论的数据过滤方法的研究》由会员分享，可在线阅读，更多相关《基于粗集理论的数据过滤方法的研究（5页珍藏版）》请在金锄头文库上搜索。

1、计算机工程与应用!“#$%!数据库的建立是为了更有效地管理信息资源! 然而“所存贮的数据往往含有大量冗余或者不完整的属性“严重降低了数据挖掘算法的时间效率和算法质量! 如何删除冗余的属性“更好地提高挖掘效率“就是数据过滤所需要完成的工作!近来“ 粗糙集理论在特征选择算法中得到了广泛的应用!粗糙集理论:号之类的特征选出来作为唯一的特征集%(!$选出了高维的特征采用精度“一致性“信息论“距离“依赖性作为特征选择的评价标准%缺点是冗余属性与分类属性相对应“不利于冗余属性的走向% %$!经典的特征选择方法步骤(%$产生过程(*,?,0-A(?$产生下一个候选子集“采用完全搜索*( ?M(E0-A(?

2、IA,?I, N 9?*A?,A?*“O(-+,0J-,? ;?AP,JA-“+,?Q0?* %“C$!(?#-%*#-;%540%$0!$($0=/9%?A#:#0=/9%其中)#0-/9%为条件概率 $)#0-/9%“(79)和9)G2:; 3?AB CDECFGH$7IEDJ G ?K 1?LMEDJ :IN OIK?JL:EO?I )POQDIPDC#%RS!%!“$04%T0#!$,:;$3?AB CDE EBD?JU :IN OEC :MMX YZZ#Z6)+ G $+3)$: )UCEDL ?K I?;7Z32#)dZ88$55Q3$: 1?LMJDcBDICO_D )UCEDL

3、 K?J I?;QDNAD 5OCP?_DJU 5:E:V:CDC COIA 3?AB )DEC1H$7I$OI * X#ONVDJAADJ Z Y DNC$)?KE 1?LMEOIA$):INODA?$)OL:EO?I 1?IPOC 7IP#%RR#$!RST0“%#$)2 78)7 3#)*+aZ82) 7 G$3?AB 5Z) :IN 3?AB 1:CC)?KE;:JD 7LMDLDIE:EO?IC ?K EBD 3?AB )DEC ZMMJ?:cPBYH$7IEDOQADIE 5DPOCO?I )MM?JE$d:IN?c ?= ?K ZMMOP:EO?IC :IN ZN_:IPDC ?

4、K3?AB )DEC *BD?JU$5?JNJDPBE$;DJ ZP:CDLOP ,VOCBDJC#%RR!$44#T4#$张文修#吴伟志#梁吉业等$粗糙集理论与方法YH$北京$科学出版社#!“%图4信息群的应用象(平级业务)*(信息集合)和(选择相关表)等充分体现(信息群)概念的产品功能东北大学计算中心 ,辽宁,110004)，张斌,Zhang Bin(东北大学信息科学与工程学院,辽宁,110004) 刊名：计算机工程与应用英文刊名：COMPUTER ENGINEERING AND APPLICATIONS 年，卷(期)：2005，41(12) 被引用次数：2次参考文献(6条)参考文献(

5、6条)1.Pawlak Z Rough sets 1982(02)2.Pawlak Z Rough set theory and its application to data analysis 19983.GRZY MALA.BAUSSE J W LERS:a System of Knowledge Discovery based on Rough Sets 19964.ZIARKOW, SHANN.KDD-R a Compre_hensive System for Knowledge Discovery Databases using Rough Sets 19955.SLOW INSKI

6、 R.STEFANOWSK I J Rough DAS and Rough Class Software Implementations of the Rough SetsApproa_ch 19926.张文修.吴伟志.梁吉业粗糙集理论与方法 2001相似文献(10条)相似文献(10条)1.学位论文赛英粗糙集扩展模型及其在数据挖掘中的应用研究 2002该文以国家自然科学基金项目“管理决策中数据仓库与数据挖掘新技术研究“为背景,从理论和应用两个方面较全面和系统地阐述了这一理论的研究内容和方法 .完成的工作和取得的创新性成果在于:经过对粗糙集理论的深入研究,作者找到了粗糙集与模态逻辑、模糊集

7、、代数系统和区间集代数等抽象理论之间的关系,一是粗糙集可以为抽象理论提供语义解释,从而使我们能更好地理解掌握这些抽象理论;二是粗糙集建立了各个独立的抽象理论之间的内在关系,使彼此独立的抽象理论联系在了一起.作者研究了粗糙集扩展理论,提出了一种多层粗糙集模型CBM-RS.该模型是一种基于覆盖的扩展的多层粗糙集模型.作者提出了从不一致决策表中挖掘最简规则的粗糙集方法MI-RS.作者提出了有序信息表上的数据分析与数据挖掘模型OITM.该文的研究成果,对于拓宽粗糙集的理论及粗糙集在数据挖掘中的应用,有一定的理论和实践意义.2.期刊论文杨宝华.钱远军.胡学钢基于粗糙集(Rough Set)理

8、论的数据挖掘(KDD)过程及其实现 -计算机与农业2003(7)数据挖掘是从数据库中抽取隐含的具有潜在应用价值得信息,进行数据挖掘的方法很多,其中基于粗糙集的数据挖掘方法简单可行.粗糙集是一种处理模糊和不确定性数据的工具,本文结合银行申请信用卡的实例利用粗糙集进行数据挖掘,消去冗余属性,抽取决策规则.3.学位论文韩中华基于粗糙集的数据挖掘方法研究 2004该文主要研究了基于粗糙集和统计方法的数据挖掘方法,并对两种方法进行了对比研究,对粗糙集方法进行了扩展,提出一种基于变精度粗糙集的数据挖掘方法 ,以胶合板缺陷检测为对象,对数据挖掘技术进行了探索研究,并进行了大量的实验研究和理论分析,取得

9、了重要的理论和应用研究成果.该文的研究工作主要有以下几个方面:第一,对数据挖掘技术、数据挖掘技术的实现、数据挖掘技术的主要应用和基于粗糙集的数据挖掘系统的开发软件进行了探讨和研究.第二,研究了数据预处理方法.进行了数据补齐、数据离散化的方法研究,在数据离散化方法中提出了一种基于谱系聚类法的数据离散化方法,利用聚类分析方法的特点,在保持所要求的分类能力不变的情况下,根据数据的内部特点,对原数据进行聚类达到离散化,从而有效减小挖掘算法的搜索空间.第三,对决策表的各属性依赖度进行了研究.分别采用两种依赖度方法对决策表的属性进行了依赖度研究,获得了对决策分析影响大的属性和属性之间的依赖关系,得

10、出了各属性对决策分析的影响程度.第四,研究了基于粗糙集软计算方法的数据挖掘方法.以胶合板缺陷检测为研究对象,进行了基于粗糙集的数据挖掘方法的应用研究,通过研究获得了对胶合板缺陷进行分类的决策规则 ,并使用知识逻辑语言进行了决策规则的解释,实验证明通过决策规则对胶合板缺陷数据进行分类准确率达到91.93.第五,将变精度粗糙集理论引入到数据挖掘系统中,以胶合板缺陷检测数据为对象进行实验研究和理论论证,实验证明变精度粗糙集能够减少数据挖掘系统的运行时间,提高系统实时性,对数据挖掘技术的研究具有重要价值.第六,在数据挖掘过程中,进行了判别分析与粗糙集方法的对比研究.经实验证明粗糙集方法在数据挖掘

11、过程中能够有效的去除冗余属性和提取决策规则.最后,对全文所做的工作进行了总结,并对下一步研究工作进行了展望.4.期刊论文郭庆琳.郑玲.Guo Qinglin.Zheng Ling 基于粗糙集数据挖掘的汽轮机故障预报及诊断研究 -现代电力2006,23(3)针对当前专家系统知识获取瓶颈的难题,提出了基于粗糙集数据挖掘的汽轮机故障预报及诊断方法.粗糙集理论把知识直接与真实或抽象世界有关的不同模式联系在一起,能有效分析处理不精确、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律.将汽轮机故障历史数据首先进行模糊化及离散化处理,然后构建故障诊断决策表,以决策表作为主要工具,即“知识

12、库“,采用粗糙集数据挖掘方法直接从决策表中提取出潜在的诊断规则,为汽轮机提供有效的故障诊断.提出了基于粗糙集的分类规则学习和约简算法,实现了基于粗糙集数据挖掘的汽轮机故障预报及诊断系统,其诊断正确率达到了88%.实验表明该方法可行,对汽轮机故障预报及诊断系统的设计具有借鉴意义和深入研究的价值.5.学位论文王庆东基于粗糙集的数据挖掘方法研究 2005数据挖掘技术是机器学习、数据库和统计理论相结合的产物，是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取隐含的、先前未知的并有潜在价值的信息的非平凡过程。粗糙集理论是上世纪八十年代初由波兰数学家首先提出的一种刻画不确定性和不完整

13、性知识的数学工具。该理论近年来日益受到广泛关注，已在人工智能与知识发现、模式识别、故障检测、专家系统等方面得到了成功的应用。本文在总结和借鉴前人经验的基础上，针对数据挖掘中常见的问题，从理论和应用两个方面进行了数据挖掘方法研究。在数据挖掘过程中，直接在原始数据表上进行数据挖掘往往效果不佳，尤其是在数据量较大的情况下；因此对数据表进行变形，然后在变形的基础上进行挖掘是一种行之有效的方法。本文鉴于此分别从数据挖掘中存在的海量高维数据、噪声数据、数据的不完整以及模型的可理解性差等问题出发，分别提出了相应的数据表分解算法。通过引入信息理论与粗糙集分析结合使用，还对加权聚类方法进行了研究。本文的

14、具体研究内容如下：1.介绍了数据挖掘技术的概念、产生背景、研究任务、主要方法以及研究热点。回顾了粗糙集理论的发展历程，详细介绍了粗糙集理论的基础知识，并对当前国内外粗糙集理论的研究现状进行了详细阐述。2.在数据挖掘中，直接在海量高维数据集上进行挖掘得到的规则往往数目众多、规则长度长，用于决策分析的有效性低。基于这一发现，本文利用粗糙集理论，提出了一种粗糙集属性选择量度，该量度从提高分类正确性和子数据库纯度的角度着手选择属性用于分类，进而利用该量度提出了一种数据表分解方法。本文详细分析了数据库分解方法的信息论性质，证明利用粗糙集信息量度选择出的属性集是原始决策系统的一个约简，且该分解方法的计

15、算时间复杂度远小于经典粗糙集约简算法的计算时间复杂度，在提高计算速度的同时不会损失信息量。3.针对海量高维数掘库建立分类模型是很困难的，计算时间复杂度高，得到的分类模型可理解性差，难以解释。本文从属性构造的角度出发，基于粗糙集理论，提出一种属性分解方法来识别数据表中的中间概念层次，建立多层分类模型。本文提出了基于粗糙集的一致性搜索指标和最小值指标，利用两个指标来重新标定中间概念层次。这样把原数据表分解为小型数据表分层次进行分类，而且由于中间概念层次物理意义分明，使得模型的可理解性大为增加。4.针对处理不完备信息系统时传统方法的不足，本文提出了一种不完备信息系统分解方法。该方法不需事先对系

16、统进行完备化，而是基于粗糙集模板评价函数选择模板，再利用模板逐层从不完备系统中提取完备子集。然后利用粗糙集理论来构造中间变量，依据中间变量分解不完备信息系统以简化规则集。最后利用得到的规则集逐层进行推理和决策分析。以汽轮发电机组的振动故障诊断数据为实例给出了该方法的具体实现过程，验证了该算法在处理不完备信息系统时的有效性。5.通过引入信息理论，提出了一种新的基于粗糙集相似模型的加权聚类方法以及基于信息论的类提纯方法，利用互信息熵值对各个属性进行加权进行重复聚类，最终得到满足聚类要求的模式类。6.汽轮发电机组结构及振动的复杂性使其故障具有多层次性，随机性，同时还存在故障信息不完整性等特点。为进一步验证数据表分解算法的有效性，本文以汽轮发电机组振动为实际例子，利用粗糙集属性选择量度，选择合适属性进行分类，建立了粗糙集分层故障诊断模型。通过与一般粗糙集故障诊断模型的对比，发现该模型得到的规则集支持度高，实用性高，且分层诊

展开阅读全文

基于粗集理论的数据过滤方法的研究

最新文档