基于差别矩阵的模糊粗糙集约简

资源描述

《基于差别矩阵的模糊粗糙集约简》由会员分享，可在线阅读，更多相关《基于差别矩阵的模糊粗糙集约简（40页珍藏版）》请在金锄头文库上搜索。

1、河北大学硕士学位论文基于差别矩阵的模糊粗糙集约简姓名：白晨燕申请学位级别：硕士专业：计算机软件与理论指导教师：翟俊海 2011-05 摘要 I 摘要模糊粗糙集是将粗糙集和模糊集结合起来处理不精确和不确定信息的数学理论。目前关于模糊粗糙集的研究主要集中在模糊粗糙集的定义上，而对于模糊粗糙集约简的研究还比较少。现存的模糊粗糙集约简主要有两种方法基于依赖度函数的模糊粗糙集约简和基于差别矩阵的模糊粗糙集约简。二者都是从粗糙集的约简方法扩展而来的，前者在模糊粗糙集的下近似的计算上与模糊粗糙集定义的下近似不相符，后者使用了与前者不同的方法，从而避免了前者存在的问题。然而它

2、们都只能处理条件属性为连续型、决策属性为离散型的数据，目前还不存在能处理条件属性和决策属性都为连续型数值数据的模糊粗糙集约简方法。针对这一问题，本文分析了现存的基于差别矩阵的模糊粗糙集约简方法，从理论上将其扩展为可以处理条件属性和决策属性都为连续型数值的数据，提出了利用模糊粗糙集理论对条件属性和决策属性都为连续型数值的数据求约简的方法，并在若干数据集上进行了实验，实验结果表明本文提出的方法是可行的、有效的。关键词粗糙集模糊粗糙集模糊粗糙集约简差别矩阵 Abstract II Abstract Fuzzy rough sets are mathematical th

3、eories that combines rough sets with fuzzy sets together to deal with imprecise and uncertain information. The existing research about fuzzy rough sets mainly concentrate on definitions of fuzzy rough sets, and there are few work on fuzzy rough sets reduct. There are two primary fuzzy rough sets red

4、uct methods- one is based on dependency function and another based on discernibility matrix. Both of them are extended from rough sets reduct methods. The lower approximation of the former is not accordance with that of fuzzy rough sets, and the latter uses a different way from the former and avoids

5、 the problem of the former. However, both of them can only deal with data sets with continuous condition attributes and discreet decision attributes. There is no method to deal with data sets with continuous condition attributes and decision attributes using fuzzy rough sets reduct. By analyzing the

6、 latters work, we extend the theory of fuzzy rough sets reduct using discernibility matrix. We propose a fuzzy rough sets reduction method to deal with data sets with continuous condition and decision attributes. We do some experiments on several datasets, and the experimental results show our metho

7、d in this paper is feasible and effective. Keywords Rough sets Fuzzy rough sets Fuzzy rough sets reduct Discernibility matrix 第 1 章绪论 1 第 1 章绪论 1.1 研究的目的与意义粗糙集和模糊集都能够处理不确定和不精确的数据，都是经典集合论的推广和应用。模糊集由Zadeh在 1965 年提出，它用 0 和 1 之间的实数来表示对象对于集合的隶属程度5。模糊集合论中的对象的不确定性不依赖于论域中的其他对象，它反映了对象本身的不确定性，它的隶属函数往往

8、由专家或统计给出，因而具有较强的主观性。而粗糙集的不确定性是由于我们掌握的数据信息不够充分引起的，它反映了对象之间的不确定性。二者都描述数据的不确定性，但各有特点，具有很强的互补性4。因此，很多学者便尝试着将两者结合起来，以增强它们处理不确定信息的能力，由此产生了模糊粗糙集的概念。用模糊粗糙集理论对数据进行属性约简是模糊粗糙集的一个重要应用。我们知道，用粗糙集理论进行属性约简只能局限于数值类型为离散型的数据，粗糙集理论对实际生活中大量存在的连续型数值的数据无法求约简。因此使用模糊粗糙集理论对连续型数值数据求约简具有重要的研究价值。现存的模糊粗糙集约简理论主要有两种：一种是

9、基于属性依赖度的约简方法20；另一种是基于差别矩阵的约简方法18。此两种方法有一个共同的缺点，它们只能对那些条件属性为连续型数值、而决策属性为离散型数值的数据求约简。对于那些条件属性和决策属性都为连续型数值的数据如何利用模糊粗糙集理论求约简？目前还不存在这方面的研究。从理论上来说，研究用模糊粗糙集理论对条件属性和决策属性都为连续型数值的数据求约简是对模糊粗糙集理论的一个完善。本文的工作就是对现存的基于差别矩阵的约简方法18进行扩展，提出基于差别矩阵的模糊粗糙集约简的理论。 1.2 国内外发展现状 1.2.1 粗糙集理论的发展现状 1.1.1.1 粗糙集的研究现状粗糙集是一

10、种处理不确定和不精确数据的新的数学工具，最初是由波兰数学家 Pawlak提出的1。粗糙集理论用论域代表研究对象的全体集合，利用经典集合论中的等河北大学工学硕士学位论文 2 价关系将论域分为若干个互斥的等价类，然后将这些等价类作为描述对象之间的关系和概念的基本粒子4。粗糙集理论的一个显著优点是不需要提供问题本身所处理的集合之外的任何先验信息。对于任意的概念，粗糙集用上近似和下近似两个近似集合来描述这一概念，而无需其他外界信息。粗糙集自问世以来一直备受关注。目前，粗糙集已成为计算机科学尤其是人工智能领域的重要研究方法，为机器学习、数据挖掘、决策分析、专家系统、演绎推理、模式识别等领域

11、提供了一种很有效的理论框架。粗糙集已广泛应用于工程学、环境学、医学、金融、图像处理、语音识别等很多方面2,3。 1.1.1.2 粗糙集的约简的研究现状目前，粗糙集的一个重要应用是对大规模数据进行属性约简。计算机在处理问题时面临大批量的数据往往会降低效率，为了提高处理速度，可以采取对数据的冗余属性进行约简的方法对数据进行预处理。粗糙集理论可以用来对数据中的冗余属性进行约简，在保证精度的条件下剔除不必要的属性。粗糙集的约简方法主要有四种：盲目添加或删除属性法、基于属性依赖度的约简方法、基于差别矩阵的约简方法和基于信息熵的约简方法4。 1. 盲目添加或删除属性法通俗易懂，然而实用性很差

12、，因此它只是作为一种理论方法，很少应用于实际问题； 2. 基于属性依赖度的方法是一种实用、有效的约简方法，已被广泛应用，它的不足之处是只能求出一个约简，而且不能保证求出的约简是最优的； 3. 基于差别矩阵的方法是一种理论很完备的约简方法，它能够求得所有的约简，然而为此要耗费大量的时间和空间，因此在实际中，我们一般不求出所有的约简，只用它求得一个接近最优的约简； 4. 基于信息熵的约简方法利用了互信息和信息增益的概念来表示属性的重要程度，它的思想类似与基于属性依赖度的约简方法，二者不同之处在于度量属性的重要程度的标准不同。粗糙集的约简方法已经发展得相当成熟，在上述四种基本的约简方法

13、的基础上，有不少学者对其进行了改进，取得了良好的效果6,8,35。第 1 章绪论 1.2.2 模糊粗糙集理论的发展现状 1.2.2.1 模糊粗糙集的研究现状目前对模糊粗糙集的研究主要集中在对模糊粗糙集的定义上，已有很多种模糊粗糙集的定义，本文将已存的模糊粗糙集的定义大致分为四种模型： Dubois和Prade模型12,13、 Kuncheva模型16、Yao和Nakamura模型15和Nanda模型10。 1. Dubois 和 Prade 模型模糊粗糙集最早是由Dubois和Prade提出的12,13，它将粗糙集和模糊集完美地结合起来，能够更加准确地描述不确定和不精确的

14、数据。模糊粗糙集是将经典粗糙集的等价关系扩展到模糊相似关系得到的理论。等价关系满足自反性、对称性和传递性，而模糊相似关系满足自反性、对称性和-传递性。Dubios和Prade将等价关系、等价类等概念推广为模糊相似关系和模糊等价类等概念，被逼近的对象也由清晰集合变成模糊集合。粗糙集里面定义的上近似和下近似是清晰集合，而Dubios和Prade定义的模糊粗糙集的模糊上近似和模糊下近似是模糊集合。 Dubios 和 Prade 的定义将经典粗糙集完整地推广为模糊粗糙集，为后面关于模糊粗糙集的研究奠定了理论基础。这种模型是我们研究模糊粗糙集最常用的模型。 2. Kuncheva 模型和

15、Dubios和Prade的思想完全不同，Kuncheva从模糊包含的角度定义了模糊粗糙集 16。这种模型将等价划分推广为弱模糊划分。Kuncheva首先介绍了弱模糊划分和包含度的概念。弱模糊划分是模糊分类问题的一个重要概念，它的作用类似于清晰集合的等价划分。包含度反映了一个集合包含于另一个集合的程度。在此基础上，Kuncheva从弱模糊划分的角度定义了模糊粗糙集的正域、负域和边界域。当处理的数据是离散型数值时，Kuncheva模型定义的模糊粗糙集退化为和粗糙集一致的情况。 Kuncheva模型不同于Dubois 和Prade模型，这种模型类似于变精度粗糙集36及概率粗糙集37。 3

16、. Yao 和 Nakamura 模型 Nakamura和Yao先后对模糊粗糙集进行定义，他们都是从模糊集的截集的角度来定义模糊粗糙集的15，在本文中将他们看做一种模型。一个模糊集可以用一个清晰集合来表示，即截集。而粗糙集是由三个清晰集合来定义的：上近似、下近似和边界域。Yao 3 河北大学工学硕士学位论文 4 方法的核心是将模糊集用截集来表示，将模糊粗糙集表示为截集的形式。 Yao 定义了三种模型：粗糙模糊集、模糊粗糙集和更一般化的模型。他认为粗糙模糊集是模糊集在清晰近似空间上的逼近；模糊粗糙集是清晰集在模糊近似空间上的逼近；而他定义的更一般化的模型是模糊集在模糊近似空间上的逼近。实际上 Yao 的一般化模型正是我们常常提到的模糊粗糙集，可以证明，这种模型和 Dubios 和 Prade 的定义的模糊粗糙集

展开阅读全文