08第八章神经网络的参数优化设计方法资料

上传人:E**** 文档编号:100915860 上传时间:2019-09-25 格式:PDF 页数:13 大小:106.70KB
返回 下载 相关 举报
08第八章神经网络的参数优化设计方法资料_第1页
第1页 / 共13页
08第八章神经网络的参数优化设计方法资料_第2页
第2页 / 共13页
08第八章神经网络的参数优化设计方法资料_第3页
第3页 / 共13页
08第八章神经网络的参数优化设计方法资料_第4页
第4页 / 共13页
08第八章神经网络的参数优化设计方法资料_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《08第八章神经网络的参数优化设计方法资料》由会员分享,可在线阅读,更多相关《08第八章神经网络的参数优化设计方法资料(13页珍藏版)》请在金锄头文库上搜索。

1、 第第 8 章章 神经网络的参数优化设计神经网络的参数优化设计 在神经网络的泛化方法中,研究最多的是前馈神经网络的结构优化设计方法(剪枝 算法、构造算法及进化算法等,我们将在以后各章讨论) 。除了结构设计,其余前馈神经 网络的泛化方法还有主动学习、最优停止法、在数据中插入噪声、神经网络集成及提示 学习方法等,由于这些方法中神经网络的结构是固定的,因此神经网络性能是通过参数 优化改善的,我们称这些方法为神经网络的参数优化设计方法。本章介绍最主要的参数 优化设计方法,并给出了每种方法的算法实现和仿真例子。 8.1 主动学习 8.1.1 原理 按照学习机器对训练样本的处理方式,可将学习方式分为两类:

2、被动学习方式和主 动学习方式。被动学习是常用的学习方式,常被称为“从样本中学习” (Learning from samples) ,该方式被动地接受训练样本, 并通过学习从这些样本中提取尽可能多的信息。 与被动学习相反,主动学习属于更高层次的、具有潜意识的学习。主动学习对训练样本 的选择是主动的,通常通过对输入区域加以限制,有目的地在冗余信息较少的输入区域 进行采样,并选择最有利于提高学习机器性能的样本来训练分类器,从而提高了整个训 练样本集的质量。由上一章的讨论,训练样本质量对神经网络的泛化能力有极大影响, 甚至超过网络结构对泛化能力的影响。因此采用主动学习方法,是改进神经网络泛化能 力的一

3、个重要方法。 主动学习机制大部分用于分类或概念学习Baum1991,HwCh1990,SeOp1992。在 单概念学习中,MitchellMitch1982关于版本空间(Version Space)的论述有着较大的 影响。下面,我们先简要介绍一下这一理论。 如果X为一线性空间,概念c定义为X中点的集合。对目标概念t,训练样本可写 为( )()xx t ,,其中Xx为样本输入,( )xt为对x的分类。如果tx,则( )1=xt, 称( )()xx t ,为t的正样本;如果tx,则( )0=xt,此时称( )()xx t ,为t的负样本。显 然, 对线性空间内的任何两个可分概念 1 c和 2 c,

4、 如果( )()xx 1 ,c是 1 c的正样本 (负样本) , 则( )()xx 1 1 ,c必然是 2 c的负样本 (正样本) , 即任意两个可分概念的正负样本之间可以 互相转换。如果某概念c对x的分类与目标概念对其的分类( )xt相等,即( )( )xxtc=, 称概念c与目标概念的样本( )()xx t ,是一致的(Consistent)。 给定目标概念的一个训练样本集 (包括正样本和负样本) , 在其限制下进行概念学习 后,将得到一个学习后的概念,该概念应尽可能接近目标概念。这个学习后的概念被称 为归纳。学习的过程也就是从目标概念的样本集得到归纳的过程。于是,每个归纳都代 表一个点集

5、,且该归纳与训练样本集一致,即该点集中包含了所有的正样本输入,而不 包括任何一个负样本输入。显然,与同一个训练样本集一致的归纳可能有多个,而所谓 版本空间,即是与给定训练样本集一致的所有可能归纳的空间。版本空间的概念也可描 述如下:对概念类C和给定训练样本集T,版本空间定义为集合C的一个子集 T C,其 中中所有样本一致与且TcCcCT,=。 MitchellMitch1982假定 T C是一个偏序结构,并把单个概念的学习过程看成是 T C中的搜索过程。在版本空间理论中,称归纳 1 c比归纳 2 c更一般(more general),当 且仅当 12 cc。对两个不相等的归纳 1 c和 2 c

6、,如果 12 cc且 21 cc ,则称 1 c和 2 c是 不 可 比 的 。 T C中 最 小 ( most general ) 元 素G定 义 为 : ccCcCcG TT =有且对所有,。类似地,定义最大(most specific)元素 S为:ccCcCcS TT =有且对所有,。 在 CohnCohn1994的基于版本空间理论的神经网络选择采样方法中,需用两个 BP 网分别实现归纳S和G,称为 S-net 和 G-net,然后进行以下操作:在空间按一定概率 产生一个输入x, 并通过检查x是否落入S和G的差集GS (被称为不确定区域) 中, 我们便可以判断x点处的样本是否能提供新的信

7、息。若GS x,则抛弃x;否则进 行一次采样, 即询问x的分类( )xc。 如果( )1=xc(正样本) , 则推广 (Generalize)G, 结果使Gx;否则如( )0=xc(负样本) ,则特化(Specialize)S,结果使Sx。 可见,由于每次采样都在较好的位置进行,故每个样本都能得到新的信息,从而改进了 整个训练样本集的质量,使最终的神经网络有较好的泛化能力。 主动学习机制一般通过“询问”(Query)的方式实现,步骤如下: (1) 在输入定义域内按某种概率取一点x; (2) 判断该点是否位于不确定区, 如果不位于不确定区, 则抛弃该点;否则“询问”该点 输出y(进行一次采样);

8、 (3) 把),(yx加入样本集进行训练,直至采到足够的样本。 主动学习也可用于函数逼近,MackayMack1992c讨论了贝叶斯框架下候选样本输 入点信息的几个测度,可用于函数逼近问题的选择采样。 8.1.2 仿真例子:三角形概念学习 在本例中,我们用神经网络实现三角形概念的主动学习,CohnCohn1994曾用两个 BP 网 (分别实现归纳S和G, 称为 S-net 和 G-net) 学习该例子。 但是, 由于 Sigmoidal 神经元具有全局特性,给定位不确定区域带来了困难,因此 Cohn 使用了背景样本 (Background Samples) ,但同时也带来了参数不易整定的问题;

9、使用 BP 网的另一个问 题是神经网络规模无法确定。 事实上, 如果采用 RBF 网进行概念的主动学习, 则利用 RBF 网的局部特性和采用在线学习方式,上述问题均可得到解决。 在本例子中, 我们也用两个 RBF 网实现选择采样, 这两个子网分别实现归纳S和G, 沿用 Cohn 的叫法,我们也称之为 S-net 和 G-net。为测试了学习系统的泛化能力,我们 选择采样和随机采样策略进行了比较。随机采样时,我们在)2 , 2()2 , 2(范围内随机 产生 200 个均匀分布的样本输入,对每个样本输入都“询问”该点输出;选择采样时, 我们也在)2 , 2()2 , 2(范围内随机产生样本输入,

10、但只对那些位于不确定区域的样本 输入才“询问”该点输出。两种采样策略都产生 200 个训练样本。每次采到一个新样本 后,我们都先为该样本分配一个新隐节点,新隐节点的节点中心为新样本输入,输出权 值为网络对该样本的偏差,扩展常数取固定值;然后进一步优化网络结构,即用梯度法 调整网络各隐节点中心和输出权值,并合并网络中重叠的隐节点(如果有的话) 。 随机采样和选择采样系统的学习参数设置如下:梯度法训练时学习率 0.05,每个新 增隐节点的扩展常数为0.4, 两个隐节点中心之间的距离小于0.01时合并这两个隐节点。 图 8.1 随机采样得到的 200 个样本 为测试学习系统的泛化误差,我们还在区间)

11、2 , 2()2 , 2(内产生16814141= 个等间隔分布的测试样本。图 8.1 和 8.2 所示分别为某次试验中随机采样和选择采样得 到的 200 个样本。由图可见,与随机采样相比,由于每个样本都位于不确定区域,因此 选择采样得到的样本更多地集中在两类样本地交界处,即三角形概念地边界附近,这也 与我们的期望是一致的。另外,在该次试验中,采用选择采样策略时两个子网的最终隐 节点数为 84 和 23,对所有测试样本的测试误差(泛化误差)为 1.90%;而采用随机采样 策略时,两个子网的最终隐节点数为 171 和 28,测试误差则为 4.52%。 图 8.2 选择采样得到的 200 个样本

12、图 8.3 两种学习方式的测试误差曲线 为进一步对比两种学习系统的泛化能力,我们记录了两种学习方式下,随着训练样 本的增加,学习系统对所有测试样本的测试误差的变化曲线,如图 8.3 所示。可见,随 着训练样本的增加,两个学习系统的泛化性能都在改善,但相比之下选择采样系统的泛 化误差显然更小(图 8.3 中曲线 2) ,说明选择采样对泛化能力的改善是很明显的,同时 也说明了训练样本对神经网络泛化能力的影响。 8.2 在样本输入中添加随机噪声 8.2.1 噪声添加方法 由上一章结论可知, 在样本输入中添加随机噪声, 也可以改善神经网络的泛化能力, 而且噪声方差较小时,样本输入加噪声方法类似于神经网

13、络结构设计的正则化方法,而 正则化系数则与噪声方差有关。 样本输入加噪声方法既可以用于在线学习,也可以用于批处理方式离线学习;网络 类型可以是 BP 网,也可以是 RBF 网;参数学习算法可以是 BP 算法,也可以是 RBF 的梯 度训练算法。假定有N个训练样本,分别为() yz,x=,N,.,2 , 1=,则在线 BP 学习算法中样本输入插入噪声的算法如下: (1)从N个训练样本随机选择一个样本() yxz,=; (2)根据密度函数() 得到样本输入噪声矢量; (3)令() yz,+=x。 此后即可按在线梯度法进行权值修正。对于批处理方式,则每一轮次训练时所有样 本输入均应同时按上述方式加入

14、噪声。输入噪声密度函数() 通常选均值为零的高斯 分布或均匀分布,噪声方差则由具体问题决定。 8.2.2 仿真例子 神经网络训练的目标函数为An1996: () 2 )8 . 0(3sin)(+=xxy (8.1) 训练样本和测试样本产生方式如下: 训练样本数 15 个, 其输入 i x为区间1 , 1内的等间 隔点,输出由上式计算,并添加噪声 i e。噪声 i e服从均值为 0,方差为 0.4 的正态分布; 测试样本数 201 个,其输入 i x也为区间1 , 1内的等间隔点,输出由上式计算。泛化误 差定义为训练后的神经网络对所有测试样本的误差平方和。 我们用 RBF 网进行训练,采用梯度法

15、进行批处理方式学习(见第 4 章) 。另外,RBF 网的隐节点数取 25, 初始输出权值取 1 . 0 , 1 . 0内随机值, 初始数据中心取0 . 1 , 0 . 1内 随机值,初始扩展常数取 3 . 0 , 1 . 0内随机值,最大训练次数 1000。数据中心、扩展常数 和输出权值均用梯度法求解,它们的学习率均为006. 0。训练时插入样本输入的噪声服 从均值为 0,方差为 0.1 的高斯分布。 图 8.2 为某次训练的结果。图中虚线为目标函数曲线, “+”为输出加噪声的 15 个训 练样本,点划线为输入未加噪声训练得到的神经网络函数曲线,实现则为输入添加高斯 噪声训练后得到的神经网络函

16、数曲线。由图可见,未加输入噪声的拟合曲线几乎穿过所 有的训练样本,由于训练样本输出含有噪声,因此产生了明显的过拟合,而加输入噪声 的拟合曲线则平滑的多,而且尽管该曲线与目标曲线存在泛化误差,但泛化误差的值比 未加输入噪声的拟合曲线要小的多,因此噪声起到了平滑作用。 图 8.3 是该次训练的学习曲线。由图可见,在输入噪声的作用下,训练误差不能象 不加输入噪声那样单调下降。事实上,当训练数据被循环地作为网络的输入时,由于每 次添加的噪声不同,迫使神经网络不能精确地拟合训练数据,从而使噪声起到了平滑作 用,防止了过拟合。 图 8.2 输入噪声的平滑效应 图 8.3 输入加噪声训练的学习曲线 为了更全面地对比加噪声和不加噪声训练的性能差别,我们将两种方法均进行了 100 次测试,每次测试时除了一种方法加噪声,另一种方法不加噪声,其它所有条件完 全相同(网络结构、数据中心、权参数初始值

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号