冶金自动化2004年增刊18570

资源描述

《冶金自动化2004年增刊18570》由会员分享，可在线阅读，更多相关《冶金自动化2004年增刊18570（14页珍藏版）》请在金锄头文库上搜索。

1、冶金自动化冶金自动化 20042004 年增刊年增刊 1857018570本文由 ohvuxaiv 贡献pdf 文档可能在 WAP 端浏览体验不佳。建议您优先选择 TXT，或下载源文件到本机查看。冶金自动化年增刊学习算法的应用研究与比较邢明海，陈祥光，王渝（北京理工大学化工与环境学院，北京）要摘本文比较研究了神经网络中常用的种改进算法，针对个应用于不同问题的神经网络进行训练，得出了各算法适应的环境。在此基础上，总结出了针对不同的实际问题，要根据网络的大小，应用方向（函数逼近，模式识别）以及误差精度要求等方面来选择合适的算法。在实际问题中

2、的应用结果表明，恰当的算法能够对运算速度、泛化能力等得到较好的效果；神经网络的改进算法比较结果，对实际问题中选择恰当的算法提供了理论依据，有实用价值。关键词神经网络；算法；算法快速引言随着神经网络在各个领域的深人应用，人们在选择神经网络进行实际工作的时候，都离不开合适的学习算法。近十几年来，许多研究人员对学习算法进行了研究，提出了很多改进的方法。但是，大都只是局限于理论上的研究，在实际应用中具体应选择哪种学习算法，仍然是比较困难的问题。本文就此问题进行了研究，通过对实际的四个应用于不同问题的神经网络使用九种改进的学习算法进行训练，比较得出

3、了各学习算法的适用范围，对实际应用中的选择具有一定的参考价值。改进的快速学习算法主要可以分为两类：一类是使用试探法，是从最速梯度下降法发展而来的，其中包括可变学习率算法（）和弹性算法（；）另一类是使用标准的数值优化技术，包括更新法（）更新法（）重置法（）比，，一、例梯法（）算法（）单步割线法（）算法共扼度，、和一，（）。学习算法简介可变学习率算法（）在标准的最速梯度下降法中，训练时，学习率是固定不变的。如果学习率设置过高，学习过程将会发生震荡和不稳定；相反，如果学习率设置过低，学习过程将会花费

4、很长时间才能达到收敛。在训练之前就设置好最优的学习率是不可能的，实际上，随着训练的进行，最优的学习率也是在变化的。如果允许学习率在训练过程中是可变的，那么最速梯度下降法的性能就会有所提高。可变的学习率就是要保证在保持训练稳定的前提下使学习步长尽可能的大，学习率是根据局部误差曲面的复杂性而改变的。训练时，首先计算出初始的网络输出和误差，每一步都使用当前的学习率计算出权值和偏置，然后算出输出和误差。如果新的误差超过旧的误差一定的比率（通常是）那么就忽略这个新的权值和偏，置，同时将学习率减小（通常是原来的。相反的话，倍）就保留新的权值和偏置。如果新的误差小于

5、旧的误差，那么就要将学习率提高（通常为原来的倍）。提高学习率的过程其限度不能超过在学习过程中出现大的误差。因此，对于局部而言，使用的就是近似的最优的学习率。当较大的学习率能够保证稳定的学习，那么学习率将持续增加。当学习率太大而导致误差提高时，那么它就会减小，直到恢复稳定的学习过程。弹性算法（）多层神经网络的隐层主要使用型的传递函数。这些函数通常叫做“ 挤压式的” 函数，因为它们把无限的输人范围压缩到有限的输出范围。型函数的主要特征是当输人变大的时候斜率逐渐趋近于零。当使用最速下降法训练一个多层神经网络的时候，由于梯度可能是一个很小的范围，因此权值

6、和偏置只收稿日期作者简介邢明海（，辽宁盖州人，一）男，博士研究生，主要从事信息管理系统、建模与仿真方面的研究。（冶金自动化年增刊能发生很小的变化，即使权值和偏置离它们的优化值还很远时也是如此。弹性算法的主要目的就是消除这些偏导数幅度的不利影响。导数的符号用来表示权值调整的方向，而导数的值对权值的调整并没有影响。权值大小的改变由一个独立的更新系数确定，当关于权值的误差函数的导数在两个连续步符号相同，那么这个更新系数就增大；当符号相反的时候，这个更新系数就减小；如果导数是零，那么更新系数不变。如果权值发生震荡，那么权值的改变幅度就会减小；如

7、果在几步内权值持续地向一个方向改变，权值改变的幅度就会增大。共辘梯度算法基本的反传算法是在下降最快的方向（梯度的反方向）调节权值。这是误差函数减小最快的方向，然而，尽管这个函数在梯度的反方向减小最快，但并不意味着会产生最快的收敛。共扼梯度算法中，在共扼的方向执行搜索，收敛更快。这里介绍种不同的共扼梯度算法。所有的共扼梯度算法第一步都是使用最速下降方向进行搜索。然后沿着当前的搜索方向执行一个线性搜索以确定优化的移动方向：一（）二（）然后确定下一个搜索方向（与先前的搜索方向共扼）确定新的搜索方向的一般过程是结合新的最速，下降的方向和先前的搜索方向：

8、一（）各种共扼梯度算法是根据常计算方式不同分的。数的而区更新法（）为当前梯度和先前梯度的范数平方之比。这种方法中，乙一更新法（）。由和提出，通过下式得出重置法（）对于所有的共扼梯度算法，搜索方向都会被周期性地重置到负梯度方向，标准的重置点是循环次数等于网络权值和偏置的次数的时候，但是有一些其他的重置方法能够提高训练的效率。在研究的基础之上提出了这种重置的方法。在这种方法中，如果当前梯度和先前梯度之间存在很小的正交性就重置。由如下不等式判断：如果这个不等式满足，则搜索方向就被重置为负梯度方向。比例共扼梯度法（）上述共扼梯度法需要

9、进行线性搜索，这种线性搜索计算量是很大的，每一步都要对所有的输人参数进行多次计算。提出的比例共扼梯度法能够避免在线性搜索中消耗大量的时间。其基本思想是将模型信任区域方法和共扼梯度法结合。算法一，（）算法（）算法可以代替共扼梯度法解决快速优化问题。算法的基本方式是：洲（）其中是当前权值和偏置的误差函数的哈希矩阵（二次导数）算法通常比共扼梯度算法。收敛的快，但是，计算前向神经网络的哈希矩阵计算量很大而且很复杂。有一类算法是基于算法的，但是不需要进行二次导数的计算，叫做算法。在这种方法的每一步，只更新作为梯度函数的一个近似的哈希矩阵。单步割

10、线法（）由于算法很复杂并占用大量内存空间，因此提出了只需要小存储空间的割线近似法。单步割线法在算法和共扼梯度法之间建立了一座桥梁。这种算法不存储完全的哈希矩阵，它（冶金自动化年增刊假定在每一步，先前的哈希矩阵都是单位矩阵。这有一个好处就是新的搜索方向不需要计算矩阵的逆。算法（）同算法一样，算法也是设计用来达到二阶练速度而不必）计算哈希矩阵。当误差函数具备平方和的形式，哈希矩阵被近似为：梯度可以表示为：（）（）其中，是雅克比矩阵，包含网络误差函数的一阶导数。。是网络误差。雅克比矩阵的计算比哈希矩阵的计算容易得多。算法使用近似的哈希矩阵

11、：一一，（）零的的候，就使用近希矩阵的算法；很大，当是系数时这是似哈就是小步长的梯度下降法。算法能更快更精确地达到误差最小值，所以目标就是要能够尽快地转换到算法。因，此在每一连续的步后减小，仅仅在当有可能使误差函数增大时增大。这样，误差函数在算法的每一步总是减小的。训练算法速度比较对于一个给定的问题很难说出哪一种学习算法是最快的最有效的。这取决于很多因素：研究问题的复杂性、训练样本中的数据点数量、网络中权值和偏置的数量、标误差以及网络应用于模式识别还是函目数逼近等。本文进行了不同学习算法的一些基本比较。对四个应用于不同问题的神经网络进行训练，其中两个属于模式识别问题，另两个属于函数逼近问题。使用不同结构和复杂程度的神经网络，并且训练网络达到不同的精度要求。表列出了所研究的四个基本问题，和它们的网络结构、标误差。目问题名称问题类型函数逼近网络结构一一一一一

展开阅读全文