计算机数学外文翻译外文文献英文文献模糊随机森林

资源描述

《计算机数学外文翻译外文文献英文文献模糊随机森林》由会员分享，可在线阅读，更多相关《计算机数学外文翻译外文文献英文文献模糊随机森林（18页珍藏版）》请在金锄头文库上搜索。

1、模糊随机森林Piero Bonissone a, Jos M. Cadenas b,*, M. Carmen Garrido b, R. Andrs Daz-Valladares c摘要：当将单个分类器非常适宜的组合到一起时候，获得的分类精度通常会显著增加。多分类器系统就是几个单独的分类器相组合的结果。接下来文中提到的Breiman研究方法，多分类器系统是建立在模糊决策树形成的“森林根底上的，例如：以提出的模糊随机森林为根底。这种方法结合了多分类器系统的鲁棒性，而且随机性增加了树的多样化，模糊逻辑和模糊集的灵活性也增强了不完全数据的管理能力。本文提出了利用各种组合的方法来获得多分类器系统最终决

2、策的方法，而且对它们进行了比拟。其中一局部用组合方法加权，它给多分类器系统(叶子或树)的不同决策一个权重。对几个数据集的比照研究说明了提出的多分类器系统和不同组合方法的高效性。多分类器系统具有很好的分类精度，当测试普通的数据集，可以同最好的分类器相媲美。然而，与其他分类不同的是，当测试不完整的数据集有缺失和模糊值，提出的分类器测试精度分类精度也很好。1 引言分类一直是一个具有挑战性的问题1,14。可用于企业和个人的信息爆炸，进一步加剧了这个问题。目前已经有许多技术和算法解决分类问题。在过去的几年里，我们还看到了基于各种方法的多分类系统方法的增加，多分类系统方法已经被证明比单个分类器的结果要好2

3、7。然而，不完全信息不可防止地会出现在现实领域和状况下。当测量一个特定的属性时候，实验过程中的器材故障或噪音影响可能会导致数据信息的不完整。换句话说，如果我们想得到非常准确的信息，代价会非常昂贵或者根本不可能。此外，有时从专家那里获得额外的信息可能会很有用，这通常是涉及种类的模糊概念的时候：小，多或少，接近等。大多数现实世界的问题，数据有一定程度的不精确。有时，这种不精确非常小是可以忽略的。其他时候，不精确的数据可以通过一个概率分布建立模型。最后，还第三个问题，不精确是非常明显而且概率分布不是自然模型的情况。因此，本身存在模糊的数据，9,28,30,31也存在一些实际的问题。因此，有必要用属

4、性来处理信息，反过来讲，分类技术在知识学习和分类方面对信息丧失和值不准确的研究是有价值的。此外，这种方法可取还因为它在处理噪音数据的时候具有鲁棒性。在本文中，我们将集中讨论如何开始多分类器系统，使得他它可以和最好的分类器相媲美甚至比最好的分类器分类效果还要好，然后把它扩展到不完全信息上面缺失值和模糊值，使其在处理符号属性和数值属性6,10有噪音的数据具有鲁棒性。要构建多分类器系统，我们按照随机森林方法8，以及处理不完整信息的方法，我们通过使用模糊决策树作为基分类器构建随机森林。因此，我们尝试综合使用两者的鲁棒性，一个树集成和一个模糊决策树，随机性增加了森林中树的多样性并增强了模糊逻辑及模糊集管

5、理不完整数据的灵活性。多数投票法是随机森林标准组合方法。如果分类器具有不相同的精度，那么当使用加权的多数投票法，在得到最后决策的时候，给比拟有“能力的分类器大点的权值是合理的。在这项工作中，我们提出多分类器系统通过不同加权组合方法获得最终决策的方法，并对它们进行了比拟。在第2节中，我们回忆了构成一个多分类器系统的主要元素，对如何将每个分类器的输出结合起来产生最终的决策提出了简明的描述，我们还讨论了分类技术中模糊逻辑组合方面的一些问题。在第3节中，我们解释了多分类器系统的学习和分类方面问题，多分类器系统我们也把它称作模糊随机森林。在第4节，我们定义了模糊随机森林结合方法。在第5节，我们展示了模糊

6、随机森林不同的计算结果。最后，在第六节中给出了结论。2 多分类器系统和模糊逻辑当我们把单独的分类器合理组合在一起时，多分类器系统和模糊逻辑，在分类精度上通常能有一个更好的性能或者能够更快的找到更好的解决方案1。多分类器系统是由几个单独的分类器相组合而成。多分类器系统在基分类器的类型和数目、每个分类器使用的数据集的属性、最终的决策中每个分类器的决策组合、分类器使用的数据集的大小和性质等方面有所不同。2.1.基于决策树的总效果近年来，一些技术被提出使用在不同的基分类器上。然而，这项工作集中在使用决策树作为基分类器的集成上。因此，我们在论文中按时间顺序说明了这个概念的进化。Bagging 7可以称得

7、上是实现分类器集成的最古老的技术之一。在bagging方法中，通过使用不同的样例集建立每个分类器，可以让分类器多样化，这些样例集合是通过放回式重新采样方法从原始训练集中得到的。Bagging之后便利用这些分类器的决策通过使用统一加权进行投票。boosting算法15,32通过一次增加一个分类器实现集成。第K步参加集成的分类器是从原始数据集选择出的数据集中训练出来的。开始样例分布是均匀的，然后新的数据集增加误判样例的可能性的例子。因此，分布在每一步都在进行修改，在第K步中增加了在第K-1步分类器误判的样例的可能性。 Ho的随机子空间技术19，在训练集成用的单个分类器时，在可用的属性中随机选择子集

8、。Dietterich 13提出一种方法叫做随机化。这种方法中，在集成用的每棵树的每个结点，定好分裂结点最好的20个属性，每一个结点随机的使选择其中一个。最后，Breiman 8提出了随机森林集成，其中，随机属性选择通过串联方式使用bagging方法。森林的每棵树的每个结点，可用属性的子集是随机选取的，结点选择这些属性中可以用的最好的属性。在每个结点属性的数量随机选择，这个数量是这个方法的一个参数。在最近的一篇文章3，Banfield等人比拟了这些决策树集成创新技术。他们提出了在每个数据集上用算法的平均排序进行评估的方法。2.2.组合方法在24,25的文献中有一些关于分类器组合的观点。在这篇文

9、章中，我们继续多分类器系统组合分组方法用于可训练的和不可训练中的观点。非可训练组合器指的是那些集成中的分类器单独训练成之后不再需要训练。可训练组合器指的是在分类器单独训练中或训练之后可能还需要训练。在文献中可训练的组合器也被称为数据依赖的组合器，并分为隐式依赖和显式依赖。隐式数据依赖组包含可训练组合器，在可训练组合器中组合样例的参数不依赖目标例子。换句话说，在系统用于新的样例分类之前参数是训练好的。显式数据依赖组合器使用的参数是目标例子的函数。2.3.分类技术中的模糊逻辑虽然决策树技术已经被证明是可解释的，高效的，能够处理大数据集，但在训练集中遇到小扰动时却高度不稳定。出于这个原因，模糊逻辑已

10、被纳入决策树建立技术。凭借其内在的弹性，模糊逻辑提供了克服这种不稳定性的解决方案。在21-23,26,29中，我们找到一些模糊集及其根本近似推理能力成功地与决策树相结合的方法。这种集成保存了两个组成局部的优势：用可理解性语言变量和决策树的普及及其简易来管理不确定。由此产生的树显示出对噪声的鲁棒性的增强，对模糊和不确定情况进行了扩展应用，并支持树状结构的可理解性，这种树状结构仍然是产生知识的主要代表。因此，我们以模糊决策树为基分类器提出随机森林。在决策树为根底的各种集成技术之中，我们选择随机森林，是因为，如boosting，会产生最好的结果3。此外，如8中的结论，随机森林比基于boosting的

11、集成更耐噪音当训练集中类属性值的一小局部是随机改变的。因此，与单个分类器相比拟，我们采用了多分类器系统的结果，基于随机森林的集成使用模糊决策树作为基分类器而不使用清晰决策树，增强了抗噪能力。此外，模糊决策树的使用增加了随机森林的优势，我们之前已经阐述了这种技术的类型：用语言变量的可理解性管理不确定性，扩展了不确定或模糊的应用。3模糊随机森林：基于模糊决策树的集成继Breimans的方法，我们提出了多分类器系统，它是一种模糊决策树形成的随机森林。我们将它作为模糊随机森林集成，并把它记作FRF集成。在本节中，我们描述了建立多分类器系统学习阶段的要求，及其分类阶段。在Breiman8提出的随机森林

12、中，每个树建造成最大并且不修剪。在每棵树的建造过程中，每一次结点需要分裂即在结点选择一次测试，我们只考虑可用属性全集的一个子集和实现每次分裂的一个新的随机选择。这个子集的大小是随机森林中唯一的重要设计参数。因此，每次分裂时，一些属性包括最好的可能不会被考虑，但在同一个树中，一次分裂中不包括的属性在其他分裂中可能会被用到。随机森林有两个随机元素8：1bagging用来对每个树的输入数据集的进行选择;及2属性的集合被看成是每个结点分裂的候选。这些随机化增加了树的多样性，当他们的输出组合到一起时，整体的预测精度显著提高。当一个随机森林建成，森林中每棵树约1 /3的样例的训练集中去除。这些样例被称为“

13、走出袋外OOB8；每个树有一组不同的OOB样例。OOB例子并不用来建造树，而是为树建立一个独立的测试样本8。3.1模糊随机森林学习我们提出算法1来生成随机森林，它的树是模糊决策树，因此定义一个根本的的算法来生成FRF集成。 FRF集成中的每一棵树沿着指导生成的都是模糊树，修改它以适应FRF集成的函数方案。算法2展示了生成算法。算法2可以在建树的时候不用考虑分裂结点的所有属性。我们在每个节点随机选择可用属性全集的一个子集，然后选择最好的一个进行分裂。因此一些属性包括最好的那个在每次分裂的时候可能不会被考虑，但是再一次分裂中没有用到的属性在这个树进行其他结点分裂的时候可能会用到。算法2是基于ID3

14、的建树方法，数值属性通过模糊划别离散化。本研究就是用11中提到的对数值属性进行模糊划分算法的方法。每个数值属性的域用梯形模糊集来表示。所以树的每一个内部结点的划分是建立在数值属性根底上的，这将为每一个模糊集的划分产生一个孩子结点。每个属性的模糊划分保证了完整性域中没有点在模糊化分之外，而且是强化分(满足，它们是划分的模糊集，它的隶属函数是)。此外，算法2使用一个叫做的函数，指的是样例满足形成树的结点的程度。这个函数的定义如下：树中用到的每一个样例指派了一个初始值1，说明这个例子刚开始的时候只能在树的根结点找到。基于数值属性的分裂，根据样例属于不同模糊集划分的隶属程度，这个样例可能属于一个或者

15、两个孩子结点，例如，这个样例到达孩子结点的隶属函数会大于零，。当样例在结点分裂的属性有缺失值的时候，样例通过修改后的值到达每一个孩子结点。算法2中的停止原那么是(1)结点样例是纯的，例如结点包含的例子都是一类。(2)可用属性集为空(3)结点允许的样例的纯度最大值已经到达。当用上述算法做FRF集成的时候，我们获得了为每一个模糊树获得了OOB集。通过算法1和算法2，我们在Breiman的随机森林的设计原理中融合了模糊树的概念。3.2 模糊随机森林分类在这局部中，我们阐述了用FRF集成如何实现分类。首先，我们介绍用到的概念。然后，我们定义两个为目标样例获得FRF集成的主要策略。这些策略的具体样例将

16、在下一局部中定义，而且我们为FRF集成提出了不同的组合方法。表示法我们介绍一下在FRF集成中策略和组合方法用到的需要定义的一些标记。是FRF集成中树的个数。我们用表示一棵特定的树。是树中到达一个样例的叶子结点的数目。模糊树中的内在刻画是对一个样例进行分类时，由于构成数值属性的划分的模糊集有交集，这个样例可能会被分到一个或者两个叶子中去。我们用表示树中特定的叶子。是类的个数。我们用表示某个特定的类。是我们用来做训练或者测试的一个样例。是样例从树到叶子结点满足的程度，我们在3.1中已经说明。对类的支持，在每个叶子结点可以用来获得，指的是叶子中属于类的程度之和，指的是那个叶子中的样例所有满足程度的和。

展开阅读全文

计算机 数学 外文翻译 外文文献 英文文献 模糊随机森林

计算机数学外文翻译外文文献英文文献模糊随机森林