冶金自动化2004年增刊18570

上传人:kms****20 文档编号:40403539 上传时间:2018-05-26 格式:DOC 页数:14 大小:44KB
返回 下载 相关 举报
冶金自动化2004年增刊18570_第1页
第1页 / 共14页
冶金自动化2004年增刊18570_第2页
第2页 / 共14页
冶金自动化2004年增刊18570_第3页
第3页 / 共14页
冶金自动化2004年增刊18570_第4页
第4页 / 共14页
冶金自动化2004年增刊18570_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《冶金自动化2004年增刊18570》由会员分享,可在线阅读,更多相关《冶金自动化2004年增刊18570(14页珍藏版)》请在金锄头文库上搜索。

1、冶金自动化冶金自动化 20042004 年增刊年增刊 1857018570本文由 ohvuxaiv 贡献pdf 文档可能在 WAP 端浏览体验不佳。建议您优先选择 TXT,或下载源文件到本机查看。 冶金 自动化 年增刊 学习算法的应用研究与比较邢明海, 陈祥光 , 王 渝( 北京理工大学 化工与环境学院, 北京 ) 要 摘 本文比较研究了神经网络中常用的 种改进 算法, 针对 个应用于不同问题的神经网络进行训练, 得出了各 算法适应的环境。在此基础上, 总结出了针对不同的实际问题, 要根据网络的大小, 应用方向( 函数逼近, 模式识别) 以及 误差精度要求等方面来选择合适的 算法。在实际问题中

2、的应用结果表明, 恰当的 算法能够对运算速度、 泛化能力等得到较好的效果; 神经网络的改进 算法比较结果, 对实际问题中选择恰当的算法提供了理论依据, 有实用价值。 关键词 神经网络; 算法; 算法 快速 引言随着神经网络在各个领域的深人应用, 人们在选择神经网络进行实际工作的时候, 都离不开合适的 学习算法。近十几年来, 许多研究人员对 学习算法进行了研究, 提出了很多改进的方法。 但是, 大 都只是局限于理论上的研究, 在实际应用中具体应选择哪种学习算法, 仍然是比较困难的问题。本文就 此问题进行了研究, 通过对实际的四个应用于不同问题的神经网络使用九种改进的学习算法进行训练, 比 较得出

3、了各学习算法的适用范围, 对实际应用中的选择具有一定的参考价值。 改进的快速 学习算法主要可以分为两类: 一类是使用试探法, 是从最速梯度下降法发展而来的, 其中包括可变学习率算法( ) 和弹性 算法( ; )另一类是使用标准的数值优化技术, 包括 更新法( ) 更新法( ) 重置法 ( )比 , , 一 、 例 梯 法( ) 算法( )单步割线法() 算法 共扼 度 , 、 和 一 , ( ) 。 学习算法简介 可变学习率算法( ) 在标准的最速梯度下降法中, 训练时, 学习率是固定不变的。如果学习率设置过高, 学习过程将会发 生震荡和不稳定; 相反, 如果学习率设置过低, 学习过程将会花费

4、很长时间才能达到收敛。在训练之前就 设置好最优的学习率是不可能的, 实际上, 随着训练的进行,最优的学习率也是在变化的。如果允许学习 率在训练过程中是可变的, 那么最速梯度下降法的性能就会有所提高。可变的学习率就是要保证在保持 训练稳定的前提下使学习步长尽可能的大, 学习率是根据局部误差曲面的复杂性而改变的。 训练时, 首先计算出初始的网络输出和误差, 每一步都使用当前的学习率计算出权值和偏置, 然后算 出输出和误差。如果新的误差超过旧的误差一定的比率( 通常是 )那么就忽略这个新的权值和偏 , 置, 同时将学习率减小( 通常是原来的 。相反的话, 倍) 就保留新的权值和偏置。如果新的误差小于

5、 旧的误差, 那么就要将学习率提高( 通常为原来的 倍) 。 提高学习率的过程其限度不能超过在学习过程中出现大的误差。因此, 对于局部而言, 使用的就是 近似的最优的学习率。当较大的学习率能够保证稳定的学习, 那么学习率将持续增加。当学习率太大而 导致误差提高时, 那么它就会减小, 直到恢复稳定的学习过程。 弹性 算法( ) 多层神经网络的隐层主要使用 型的传递函数。这些函数通常叫做“ 挤压式的” 函数, 因为它们把无 限的输人范围压缩到有限的输出范围。 型函数的主要特征是当输人变大的时候斜率逐渐趋近于零。 当使用最速下降法训练一个多层神经网络的时候, 由于梯度可能是一个很小的范围, 因此权值

6、和偏置只 收稿日 期 作者简介 邢明海( , 辽宁盖州人, 一)男, 博士研究生, 主要从事信息管理系统、 建模与仿真方面的研究。 ( 冶金 自动化 年增刊能发生很小的变化, 即使权值和偏置离它们的优化值还很远时也是如此。 弹性 算法的主要目的就是消除这些偏导数幅度的不利影响。导数的符号用来表示权值调整的 方向, 而导数的值对权值的调整并没有影响。权值大小的改变由一个独立的更新系数确定, 当关于权值 的误差函数的导数在两个连续步符号相同, 那么这个更新系数就增大; 当符号相反的时候, 这个更新系数 就减小; 如果导数是零, 那么更新系数不变。如果权值发生震荡, 那么权值的改变幅度就会减小; 如

7、果在 几步内权值持续地向一个方向改变, 权值改变的幅度就会增大。 共辘梯度算法 基本的反传算法是在下降最快的方向( 梯度的反方向)调节权值。这是误差函数减小最快的方向, 然 而, 尽管这个函数在梯度的反方向减小最快, 但并不意味着会产生最快的收敛。 共扼梯度算法中, 在共扼 的方向执行搜索, 收敛更快。这里介绍 种不同的共扼梯度算法。 所有的共扼梯度算法第一步都是使用最速下降方向进行搜索。 然后沿着当前的搜索方向执行一个线性搜索以确定优化的移动方向: 一 () 二 () 然后确定下一个搜索方向( 与先前的搜索方向共扼)确定新的搜索方向的一般过程是结合新的最速 , 下降的方向和先前的搜索方向:

8、一 () 各种共扼梯度算法是根据常 计算方式不同 分的。 数的 而区 更新法( ) 为当前梯度和先前梯度的范数平方之比。 这种方法中, 乙 一 更新法( ) 。 由 和 提出, 通过下式得出 重置法( ) 对于所有的共扼梯度算法, 搜索方向都会被周期性地重置到负梯度方向, 标准的重置点是循环次数等于网络权值和偏置的次数的时候, 但是有一些其他的重置方法能够提高训练的效率。 在 研究的基础之上提出了这种重置的方法。在这种方法中, 如果当前梯度和先前梯度之间存在很小的正交 性就重置。由如下不等式判断: 如果这个不等式满足, 则搜索方向就被重置为负梯度方向。 比例共扼梯度法( ) 上述共扼梯度法需要

9、进行线性搜索, 这种线性搜索计算量是很大的, 每一步都要对所有的输人参数 进行多次计算。提出的比例共扼梯度法能够避免在线性搜索中消耗大量的时间。其基本思想是 将模型信任区域方法和共扼梯度法结合。 算法 一 , () 算法( ) 算法可以代替共扼梯度法解决快速优化问题。 算法的基本方式是: 洲 () 其中 是当前权值和偏置的误差函数的哈希矩阵( 二次导数) 算法通常比共扼梯度算法 。 收敛的快, 但是, 计算前向神经网络的哈希矩阵计算量很大而且很复杂。有一类算法是基于 算 法的, 但是不需要进行二次导数的计算, 叫做 算法。在这种方法的每一步, 只更新作为 梯度函数的一个近似的哈希矩阵。 单步割

10、线法( ) 由于 算法很复杂并占 用大量内存空间, 因此提出了只需要小存储空间的割线近似法。 单步割 线法在 算法和共扼梯度法之间建立了一座桥梁。这种算法不存储完全的哈希矩阵, 它 ( 冶金 自 动化 年增刊假定在每一步, 先前的哈希矩阵都是单位矩阵。这有一个好处就是新的搜索方向不需要计算矩阵的逆。 算法() 同 算法一样, 算法也是设计用来达到二阶练速度而不必 ) 计算哈希矩阵。当误差函数具备平方和的形式, 哈希矩阵被近似为:梯度可以表示为: () () 其中, 是雅克比矩阵, 包含网络误差函数的一阶导数。 。 是网络误差。雅克比矩阵的计算比哈希矩阵的 计算容易得多。 算法使用近似的哈希矩阵

11、: 一 一 , ( ) 零的的 候, 就 使用近 希矩阵的 算法;很大, 当 是 系 数 时 这 是 似哈 就是小步长的 梯度下降法。 算法能更快更精确地达到误差最小值, 所以目 标就是要能够尽快地转换到 算法。 因 , 此在每一连续的 步后减小, 仅仅在当 有可能使误差函 数增大时增大。 这样, 误差函 数在算法的 每一步总是减小的。 训练算法速度比较对于一个给定的问题很难说出哪一种学习算法是最快的最有效的。这取决于很多因素: 研究问题的 复杂性、 训练样本中的数据点数量、 网络中权值和偏置的数量、 标误差以及网络应用于模式识别还是函 目 数逼近等。本文进行了不同学习算法的一些基本比较。对四个应用于不同问题的神经网络进行训练, 其 中两个属于模式识别问题, 另两个属于函数逼近问题。使用不同结构和复杂程度的神经网络, 并且训练 网络达到不同的精度要求。 表 列出了所研究的四个基本问题, 和它们的网络结构、标误差。 目问题名称 问题类型 函数逼近 网络结构 一 一 一一 一

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号