智能控制6-2－金锄头文库

资源描述

《智能控制6-2》由会员分享，可在线阅读，更多相关《智能控制6-2（44页珍藏版）》请在金锄头文库上搜索。

1、6.5 自适应线性元件,自适应线性元件（Adaptive Linear Element，简称Adaline）也是早期神经网络模型之一，它是由美国的威德罗和霍夫于1959年提出的。,另外，自适应线性元件采用的是W-H学习法则，也称最小值方差（LMS）规则对权值进行训练，从而能够得到比感知器更快的收敛速度和更高的精度。,它与感知器的不同之处在于其神经元采用的是线性激活函数，这时网络输出可以是任意值，而不是像感知器中只能取0或是1。,自适应线性元件的主要用途是线性逼近一个函数而进行模式联想。另外，它还适用于信号处理滤波、预测、模式识别和控制。,6.5.1 自适应线性神经元模型和结构,线性神经元可以训

2、练网络学习一个与之对应的输入输出函数关系，或线性逼近任意一个非线性函数，但它不能产生任何非线性的计算特性。,和感知器一样，偏差可以用来作为网络的另一个可调参数，提供额外可调的自由变量，以获得期望的网络特性。,6.5.1 自适应线性神经元模型和结构,6.5.1 自适应线性神经元模型和结构,此函数的输入输出关系为：,6.5.2 W-H学习规则及其网络的训练,W-H学习规则是由威德罗和霍夫提出用以修正权矢量的学习规则，所以用他们两个人姓氏的第一个字母命名。,W-H学习规则可以用来训练一层网络的权值和偏差，使之线性地逼近一个函数而进行模式联想（Pattern Association）。,6.5.2 W

3、-H学习规则及其网络的训练,由上式可以看出：线性网络具有抛物线型误差函数所形成的误差表面，所以只有一个误差最小值。,通过W-H学习规则来计算权值和误差的变化，并使网络误差的平方和最小化，总能够训练一个网络的误差趋于这个最小值。,定义一个线性网络的输出误差为：,E(W,B) 只取决于网络的权值及目标矢量。我们的目的是通过调节权矢量，使E(W,B) 达到最小值，所以在给定E(W,B) 之后，利用W-H学习规则修正权矢量和偏差矢量，使E(W,B) 从误差空间的某一点开始沿着E(W,B) 的斜面下滑。,6.5.2 W-H学习规则及其网络的训练,此式称为W-H学习规则，又叫规则，或最小均方差算法(LM

4、S)。,这样的选择可以达到既快速又正确的结果。,6.5.2 W-H学习规则及其网络的训练,自适应线性元件的网络训练过程可以归纳为以下三步骤：,2.检查：将网络输出的平方和与期望误差相比较，如果其值小于期望误差，或训练已达到事先设定的最大次数，则停止训练。否则继续；,1.表达：计算训练的输出矢量A=W*P+B，以及与期望输出之间的误差E=T-A；,3.学习：采用W-H规则计算新的权值和偏差，并返回到1。,每进行一次上述三个步骤，可以认为是完成一个训练循环。,6.5.2 W-H学习规则及其网络的训练,如果经过训练，网络仍达不到期望目标，可以有两种选择：检查一下要解决的问题是否属于线性网络；或对网络

5、进行进一步训练。,如果网络训练获得成功，那么当一个不在训练样本数据库中的输入矢量输入到网络中时，网络趋于产生一个与其相联想的输出矢量。这个特性称为泛化，这在函数逼近以及输入矢量分类中是相当有用的。,虽然仅适用于线性网络，但W-H规则仍然很重要，因为它展现了梯度下降法是如何来训练一个网络的，此概念后来发展成反向传播法，使之可以训练多层非线性网络。,6.6 反向传播网络BP网络,反向传播网络（Back Propagation Network，简称BP网络）是对非线性可微分函数进行权值训练的多层前向网络。,在人工神经网络的实际应用中，80-90的模型是采用BP网络或它的变化形式。,BP网络是前向网络

6、的一种。,6.6 反向传播网络BP网络,它主要作用于以下几个方面：,1.函数逼近：用输入矢量和相应的输出矢量训练一个网络来逼近一个函数。,可以说，BP网络是人工神经网络中前向网络的核心内容，体现了人工神经网络最精华的部分。,2.模式识别：用一个特定的输出矢量将它与输入矢量联系起来。,3.分类：把输入矢量以所定义的合适的方式进行分类。,4.数据压缩：减少输出矢量的维数以便于数据传输或存储。,6.6.1 BP网络模型与结构,一个具有R 个输入的单层神经网络模型结构如图6-12所示：,图6-12 单层BP神经网络网络结构图,I,6.6.1 BP网络模型与结构,一个具有2 个输入和一个隐含层的神经网络

7、模型结构如图6-13所示：,感知器和BP网络的主要区别在激活函数上：前者是阀值函数，后者是S型或者线性函数。,图6-13 多层BP神经网络网络结构图,I,上图中：输入个数2，隐含层神经元个数4，输出层神经元个数3个。,6.6.1 BP网络模型与结构,BP网络的激活函数必须是处处可微，通常采用S 型激活函数，此种激活函数通常用对数和双曲正切等一类S 形状的曲线表示，如图6-14所示：,图6-14 S 型激活函数,对于多层网络，这种激活函数所划分的区域不再是线性划分，而是由一个非线性的超平面组成的区域。它是比较柔和、光滑的任意界面，因而它的分类比线性划分精确、合理，这种网络的容错性好。,6.6.1

8、 BP网络模型与结构,另外一个特点就是由于激活函数是连续可微的，它可以严格利用梯度法进行推算，它的权值修正的解析式十分明确，其算法被称为误差反向传播算法，也称BP算法，这种网络也称为BP网络。,因为S型函数具有非线性放大系数功能，它可以把输入从正无穷大到负无穷大的信号变换成-1,1之间的输出，对较大的输入信号，放大系数较小；而对较小的信号，放大系数则较大，所以采用S型函数可以处理和逼近非线性的输入输出关系。,6.6.1 BP网络模型与结构,所以只有当希望对网络的输出进行限制，如0,1之间，则输出层采用S函数，否则，均是隐含层采用S函数，而输出层采用线性函数。,6.6.2 BP算法,BP网络的产

9、生归功于BP算法的获得。,其主要思想为：对于q 个输入学习样本P1Pq，已知与其对应的输出样本为T1Tq。学习的目的是用网络的实际输出A1Aq与目标函数T1Tq 之间的误差来修正其权值，使An 与期望值Tn 尽可能接近，即：使网络输出层的误差平方和达到最小。,BP算法属于算法，是一种有导师（监督式）的学习算法。,它是通过连续不断地在相对于误差函数斜率下降的方向上计算网络权值和偏差的变化而逐渐逼近目标的。每一次权值和偏差的变化都与网络误差的影响成正比，并以反向传播的方式传递到每一层的。,6.6.2 BP算法,BP算法是由两部分组成：信息的正向传递与误差的反向传播。,若在输出层没有得到期望的输出

10、，则计算输出层的误差变化值，然后转向反向传播，通过网络将误差信号沿原来的连接通路反传回来修改各层神经元的权值，直至达到期望目标。,在正向传递过程中，输入信息从输入经隐含层逐层计算传向输出层，每一层神经元的输出作用于下一次神经元的输入。,6.6.2 BP算法,为明确起见，现以图6-16所示两层网络为例进行BP算法推导。,设输入为P，输入神经元有r 个，隐含层内有s1个神经元，激活函数为f1，输出层内有s2个神经元，对应的激活函数为f2，输出为A，目标函数为T。,图6-16 具有一个隐含层的简化网络图,6.6.2 BP算法,1. 信息的正向传递,(1) 隐含层中第i 个神经元的输出为：,(2) 输

11、出层第k 个神经元的输出为：,(3) 定义误差函数为：,6.6.2 BP算法,2.利用梯度下降法求权值变化及误差的反向传播,(1) 输出层的权值变化,对从第i 个输入到第k 个输出的权值有：,其中：,同理可得：,6.6.2 BP算法,2. 利用梯度下降法求权值变化及误差的反向传播,(2) 隐含层的权值变化,对从第j 个输入到第i个输出的权值有：,其中：,同理可得：,6.6.2 BP算法,2.利用梯度下降法求权值变化及误差的反向传播,(3) 误差反向传播的流程,误差反向传播过程实际上是通过计算输出层的误差ek，然后将其与输出层激活函数的一阶导数 f2相乘来求得ki。,由于隐含层中没有直接给出目标

12、矢量，所以利用输出层的ki 进行误差反向传递来求出隐含层权值变化量w2ki。,然后计算ei 同样通过将ei 与该层激活函数的一阶导数相乘，求得ij，以此来求出前层权值的变化量。,如果前面还有隐含层，沿用上述同样方法，依此类推，一直将输出误差ek一层一层的反推到第一层为止。,6.6.2 BP算法,2.利用梯度下降法求权值变化及误差的反向传播,(4) 误差反向传播的图形解释,下图给出了误差反向传播的形象的图形解释。,图6-17 误差反向传播算法的图形解释,pj,wij,. . .,ei,w1i,1i,e1,k=1,2,s2; i=1,2,s1; j=1,2,r,. . .,w2i,wki,ki,2

13、i,e2,ek,6.6.3 BP网络的设计,在进行BP网络的设计时，一般应从网络的层数、每层中的神经元个数和激活函数、初始值及学习速率等几个方面来进行考虑。下面讨论一下各自选取的原则。,6.6.3 BP网络的设计,1. 网络的层数选取,另外，没有必要仅用具有非线性激活函数的单层网络解决问题，而且其效果也不好。,理论上已证明，具有偏差和至少一个S 型隐含层加上一个线性输出层的网络，能够逼近任何有理函数。这实际上已经给了我们一个基本的设计BP网络的原则。,增加层数可进一步降低误差、提高精度，但同时也使网络复杂化，从而增加网络权值的训练时间。,误差精度的提高可通过增加隐含层中神经元的数目获得，其训练

14、效果比增加层数更容易观察和调整。,6.6.3 BP网络的设计,1.网络的层数选取,需解决的问题确定后，输入输出层的神经元数就确定了。在设计中要尽量较小网络模型的规模，以便减小训练时间。,因为能用单层非线性网络解决的问题，用自适应线性网络一定也能解决，而且自适应线性网络的运算时间还要更快。而对于只能用非线性函数解决的问题，单层网络的精度不够高，只有增加层数才能才能达到期望的结果。,因此，对于可用一层网络解决的问题，应首先选用感知器或自适应线性网络解决，因为单层不能发挥非线性激活函数的特长。,6.6.3 BP网络的设计,2.隐含层的神经元数选取,网络训练精度的提高，可以通过采用一个隐含层，而增加神

15、经元数目的方法来获得。这在结构实现上，要比增加隐含层数目简单得多。,在具体设计时，比较实际的做法是通过对不同神经元数进行训练对比，然后选取最佳数目再适当加上一点余量。,6.6.3 BP网络的设计,3.初始权值的选取,由于系统是非线性的，初始值对于学习是否达到局部最小、是否能够收敛以及训练时间长短的关系很大。,如初始值选得太大，使得加权后的输入之和落在S函数的饱和区，将使整个调整过程几乎停顿。所以一般初始值取为 (-1,1) 之间的随机数。,为防止停顿现象的发生，威德罗提出一种选定初始权值的策略：选择权值的量级为(s1)(1/r)，其中s1为第一层神经元数目。利用此方法可以在减少训练次数下得到满

16、意的训练结果，其方法仅需使用在第一隐含层的初始值选取上，后面层的初始值仍然采用随机取数。,6.6.3 BP网络的设计,4. 学习速率的选取,学习速率决定每一次循环训练中所产生的权值变化量。,大的学习速率可能导致系统的不稳定；小的学习速率导致较长的训练时间，可能收敛很慢，不过能保证系统不跳出误差表面的低谷而最终趋于最小误差值。,在一般情况下，倾向于选择较小的学习速率以保证系统稳定性。通常学习速率选取范围在0.01-0.8 之间。,和初始权值的选择过程一样，在一个神经网络的设计过程中，网络要经过几个不同的学习速率训练，通过观察来判断学习速率是否合适。,对于较复杂的网络，在误差曲面的不同部位可能需要不同的学习速率。,6.6.3 BP网络的设计,5.期望误差的选取,在设计网络的过程中，期望误差值也应当通过对比训练后确定一个合适的值，合适是相对于所需要的隐含层的节点数来确定，因为较小的期望误差值是要靠增加隐含层的节点，以及训练时间来获得的。,在一般情况下，作为对比，可以同时对两个不同期望误差值的网络进行训练，最后通过综合因素的考虑来确定采用其中一个网络。,6.6.

展开阅读全文