极端学习机:理论和应用

上传人:简****9 文档编号:110822889 上传时间:2019-10-31 格式:DOC 页数:14 大小:1.99MB
返回 下载 相关 举报
极端学习机:理论和应用_第1页
第1页 / 共14页
极端学习机:理论和应用_第2页
第2页 / 共14页
极端学习机:理论和应用_第3页
第3页 / 共14页
极端学习机:理论和应用_第4页
第4页 / 共14页
极端学习机:理论和应用_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《极端学习机:理论和应用》由会员分享,可在线阅读,更多相关《极端学习机:理论和应用(14页珍藏版)》请在金锄头文库上搜索。

1、极端学习机:理论和应用摘要过去的几十年里,前馈神经网络的学习速度远比需求的慢,且在应用方面有很大的障碍。两个关键因素是:(1)基于缓慢的梯度学习算法广泛用于神经网络训练;(2)所有网络的参数通过这样的学习算法调优迭代。与传统的实现不同,本文提出了一种新的学习算法称为单隐藏层前馈神经网络(SLFNs)的极端学习机,该算法随机选择隐藏节点和分析确定SLFNs权值的输出。从理论上讲,该算法倾向于在极快速度的学习中提供良好的泛化性能。基于一些人为的和真正的基准函数逼近和分类问题的实验结果,包括非常大的复杂的应用表明:在大多数情况下,该算法可以产生良好的泛化性能,比传统流行的前馈神经网络学习速度快几千倍

2、。关键词:前馈神经网络;反向传播算法;极端学习机;SVM;实时学习;随机节点1.绪论前馈神经网络依靠其能力已广泛应用于许多领域:(1) 直接从输入样本近似复杂非线性映射;(2)对于一个使用经典参数化技术很难处理大类自然和人工现象提供模型。另一方面,缺乏加快神经网络的学习算法。传统的学习算法通常远低于需求。通过使用传统的方法可能需要数小时数天甚至更多的时间来训练神经网络,是不足为奇的。从数学的角度来看,研究前馈神经网络的逼近能力都集中在两个方面:紧凑输入集的逼近和有限集合训练样本的逼近。许多研究人员探究了标准多层前馈神网络的逼近能力。Hornik7证明了如果激活函数是连续的,有界的,非常量的,然

3、后可以通过依靠紧凑输入集的神经网络近似计算连续映射。Leshno17的结果改进Hornik7和证明含有非多项式的前馈网络可以估计(测量)连续函数。在实际应用中,用有限的训练集训练神经网络。对于有限训练集的函数逼近,Huang and Babri 11显示,最多具有N个隐藏节点和几乎所有非线性激活函数的单层前馈神经网络(SLFN),可以得到N个不同的观察值。应当注意,在前馈神经网络的所有之前的理论研究文章和几乎所有实际的学习算法中,需要调整输入权重(连接输入层到第一个隐层)和隐藏层阈值。 传统上,需要调整前馈网络的所有参数,从而存在不同层之间的依赖关系(权重参数和阈值)。过去几十年,基于梯度下降

4、的方法主要用于前馈经网络的各种学习算法。然而,由于不当的学习步骤或者可能容易收敛到局部最小值,基于梯度下降学习方法非常缓慢。为了获得更好的学习性能,这样的学习算法需要许多迭代学习步骤。 23,10所示,随机选择的输入权重和隐藏层的阈值(这样的隐藏节点可以被称为随机隐藏节点)的SLFNs(N个隐藏节点)可以学习不同观察值。与所有参数需要调整的前馈网络的流行的思考和大多数实际的实现不同,在应用中,它可能不需要调整输入权重和第一个隐藏层阈值。事实上,在我们的文章16中,基于人工和实际大型应用的一些仿真结果表明,该方法不仅使学习非常快,而且会产生良好的泛化性能。 在本文中,我们首先严格证明了,如果隐藏

5、层的激活函数是无限可导的,SLFNs的输入权重和隐藏层阈值可以随机分配。在随机地选择输入权重和隐藏层阈值之后,SLFNs可以简单地视为一个线性系统,其输出权重(隐藏层到输出层连接),可以通过隐层输出矩阵的MoorePenrose广义逆操作分析确定。基于这一概念,提出了一种简单学习算法SLFNs称为极端学习机(ELM),它的学习速度比反向传播算法(BP)的传统前馈网络学习快成千上万倍,同时能获得更好的泛化性能。不同的于传统的学习算法,本文提出的学习算法不仅倾向于达到最小训练误差,而且使权重的范数达到最小。Bartlett有关前馈神经网络泛化性能1理论陈述了前馈神经网络能达到更小的训练误差。权重的

6、规范越小,网络的泛化性能更好。因此,本文提出的学习算法对前馈神经网络具有良好的泛化性能。 新提出的算法可以很容易地学习实现,达到训练误差最小,获得最小的权重范数和良好的泛化性能,运行得非常快。为了与其他受欢迎的SLFN学习算法区分,在本文中,它被称为极端学习机。 本文组织如下。第二节严格证明了如果隐藏层的激活函数无限可导,那么SLFNs的输入权重和隐藏层的阈值可以随机分配。第三节进一步提出了单隐藏层的ELM学习算法。第四节提出了性能评估。第五节给出讨论和结论。附录介绍了一般线性系统的Moore-Penrose广义逆,最小范数的最小二乘解在ELM学习算法中发挥着重要的作用。2. 带有随机隐藏节点

7、的单隐藏层前馈神经网络 给定N个不同样本,和,具有个节点,激活函数为的SLFN的数学模型为: (1) 其中,是连接第i个隐藏节点和输入节点的权重向量,是连接第i个隐藏节点和输出节点的权重向量,是第i个隐藏层节点的阈值。表示和的内积。本文选择线性输出节点。带有个隐藏节点的SLFNs,激活函数能够零误差逼近N个训练样本,存在使得(2)成立的。 (2)上述N个方程可以写简洁: (3)其中, (4) (5)在Huang et al. 11,10中,H称为神经网络的隐藏层输出矩阵;H的第i列是输入在第i个隐藏节点的输出。 如果激活函数g是无限可导的,我们能证明所需数量的隐藏节点个数严格说来,我们有:定理

8、 2.1 给定一个具有N个隐藏节点以及在任何区间都无限可导的激活函数的标准SLFN。对N个任意不同样本,SLFN在随机产生的情况下,形成的隐藏层输出矩阵H是可逆的,且证明.H的第i列向量属于欧几里得空间R,其中是任何时间间隔的R。遵循Tamura and Tateishi ( 23,p.252)同样的证明方法,我们之前的文章(10,定理2.1,它可以很容易地证明向量c不属于任何维度小于N的子空间。基于连续概率分布随机产生的,我们假设所有的有。猜想向量c是一个N-1维的子空间,则存在这个子空间的一个正交向量: (6)其中,。假设,则等式(6)可进一步写为: (7)其中。由于在任何区间内无限可导,

9、我们有: (8)其中是关于的第l次导数。然而,对于多于N-1个的可导的线性等式只有N-1个自由系数是矛盾的。所以,向量c不属于任何维数小于N的子空间。 因此,从任何区间随机选择N个隐藏节点的阈值使得对应的属于是可能的。这意味着,任何从区间中选择的权重向量和阈值,H的列向量都是满秩的。 Huang and Babri 11指出,这种激活函数包括s形以及径向基函数、正弦、余弦、指数以及许多非正规的函数。定定理 2.2. 对于任意小的,及在任何区间都无限可导的激活函数,对N个任意不同样本,总存在个隐节点的SLFN,使得在随机产生的情况下,。证明:定理的有效性是很明显的,否则根据定理2.1只能选择使得

10、3. 极端学习机(ELM)的提出 根据定理2.1和2.2,我们提出了一个极简单有效的方法训练SLFNs。3.1 传统的基于梯度的SLFNs的解决方案传统上,为了训练SLFN,我们希望找到特殊的使得 (9)(9) 与最小化损失函数(10)是等价的。 (10)当H是未知的,基于梯度的学习算法通常用于搜索的最小的。通过使用基于梯度的学习算法最小化的过程,权重和阈值的集合是向量W,迭代调整如下: (11)是学习速率。用于前馈神经网络的学习算法是从输出到输入的传播可以有效地计算梯度的BP学习算法。BP学习算法有几个问题:(1) 学习速率太小,算法收敛很缓慢。当太大,算法变得不稳定并且发散。(2) 影响B

11、P学习算法性能的另一个特点是局部最小值的存在6。学习算法在一个远于全局最小值的局部最小值处停止是不符合需求的。(3) 使用BP算法可导致练神经网络的过度训,使其泛化能力变差。因此,需要验证,以及在极小化过程中引入停机准则。(4) 基于梯度的学习在大多数应用程序中都非常耗时。 本文的目的是用基于梯度的算法解决上述问题,并提出一种高效的前馈神经网络学习算法。3.2 SLFNs的最小范数的最小二乘(LS)解决方案的提出 不像传统的函数逼近理论需要调整输入权重和隐藏层阈值,定理2.1和2.2严格证明,只要激活函数是无限可导,输入权重和隐藏层阈值可以随机分配。不同于一般理解的SLFNs的所有参数需要调整

12、,输入权重和隐藏层阈值不一定需要调节,并且一旦随机参数在算法学习之前被确定隐藏层输出矩阵H能保持不变,这是有趣和令人惊讶的。从等式(9)看来,对固定的输入权重和隐藏层阈值,训练一个SLFN等价于找到线性系统一个最小二乘解: (12)如果隐藏节点的数量等于训练样本的个数N,当输入权重和隐藏层阈值已产生。则矩阵H是方阵,并且是可逆的。SLFNs可以零错误的逼近这些训练样本。 然而,在大多数情况下,隐藏节点的数量远低于训练样本的数量,即,H不是方阵,可能不存在使得。根据附录中的定理5.1,以上线性系统的最小范数的最小二乘解是: (13)其中是H的广义逆矩阵22,19。备注1. 正如在附录中所讨论的,

13、我们有重要属性:(1) 最小训练误差。特殊解是线性系统的一个最小二乘解,最小训练误差可由其得到: (14)尽管几乎所有的学习算法都希望达到最小训练错误,然而,但由于局部极小问题,或在应用程序中训练迭代趋于无穷不现实等原因,往往难以实现。(2) 权重最小范数。在所有最小二乘解中特殊解有最小范数: (15)(3) 在的最小范数的最小二乘解是唯一的。3.3 SLFNs学习算法的提出 本小节给出SLFNs的一种简单学习方法。该方法被称为极端学习机。具体算法可简单描述如下:ELM算法:给定训练样本集合,激活函数和隐藏单元个数.(1)指定任意输入输入权值和阈值;(2)计算隐藏层输出矩阵H;(3)计算输出权

14、重。 (16)其中 备注2 定理2.1所示,在理论上这个算法适用于任何无限微分激活函数。Huang and Babri 11指出,这种激活函数包括s形以及径向基函数、正弦、余弦、指数以及许多非正规的函数。根据定理2.2,所需隐藏节点的个数上限是不同训练样本的数量,即。备注3 一些文章11,23,10,9,4表明,带有N个隐藏节点的SLFNs可以学习N个不同的观察值。Tamura and Tateishi 23 and Huang 10,9严格证明了随机选择S型隐藏节点(输入权重和隐藏层的阈值随机生成)的SLFNs(N个隐藏节点)可以学习N个不同的观察值。Huang et al. 11,9严格证明了如果输入权重和隐藏层的阈值允许调整(类似大多数传统算法的实现),SLFNs最多N个隐藏节点,大多数非线性激活函数可以学习N个不同的观察值,激活函数包括可导,不可导,连续,非连续的函数等。 本文严格证明了对任何无限可导的激活函数,带有N个隐藏节点的SLFNs可以学习N不同样本。在学习错误允许的条件下,SLFNs要求小于N隐藏节点。不同于以前的文章11,23,10,9,4和本文介绍的ELM算法,Ferrari and Stengel 4表明,N个s形隐藏节点的SLFNs,输

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号