第二章感知器网络－金锄头文库

资源描述

《第二章感知器网络》由会员分享，可在线阅读，更多相关《第二章感知器网络（34页珍藏版）》请在金锄头文库上搜索。

1、第二章感知器网络2.1 标准MP模型1943年，Mc Culloch和Pitts发表了他们关于人工神经网络的第一个系统研究。1947年开发出用于模式识别的网络模型感知器：M P模型，即阈值加权和模型，单输出的感知器，它实质上就是一个典型的人工神经元。按照M P模型的要求，该人工神经元的激励函数是阶跃函数。通常考虑某一神经元要受到其他神经元的作用，因而总是以n个神经元相互连接形成神元计算模型。一个神经元具备相应的输入和输出。但是神经元自身的状态，决定其输出的有无，即每一个神经元从其他n1个神经元接受信息，产生神经兴奋和冲动。在其他条件不变的情况下，不论何种刺激，只要达到阈值以上

2、就能产生一个动作电位，并以最快速度作非衰减的等幅传递输出。一旦输人的总和小于阈值，神经元处于抑制状态，没有被激励，也就没有任何输出产生。对n个互连的神经元中的第i个神经元，外界输入的总和影响其激励值。i神经元的状态以某种函数形式输出，即有：wji代表神经元i与神经元j之间的连接强度(模拟生物神经元之间突触连接强度)，称之为连接权； ui代表神经元i的活跃值，即神经元状态； vj代表神经元j的输出，即是神经元i的一个输入； i代表神经元i的阈值。函数f表达了神经元的输入输出特性。在MP模型中，f定义为阶跃函数：如果把阈值i看作为一个特殊的权值，则改写为为用连续型的函数表达神经元的

3、非线性变换能力，常采用s型函数：MP模型在发表时并没有结出一个学习算法来调整神经元之间的连接权。但是可以根据需要，采用一些常见的算法来调整神经元连接权，以达到学习目的，Hebb学习规则就是一个常见学习算法。Hebb学习规则：神经网络具有学习功能，对于人工神经网络而言，这种学习归结为神经元连接权的变化。调整 wji的原则为：若第i和第j个神经元同时处于兴奋状态，则它们之间的连接应当加强，即：2.2 简单感知器感知器是一种早期的神经网络模型，由美国学者F.Rosenblatt 于1957年提出。由于在感知器中第一次引入了学习的概念，使人脑所具备的学习功能在基于符号处理的数学模型中得到

4、了一定程度的模拟，所以引起了广泛的关注。简单感知器模型实际上仍然是MP模型的结构，但是它通过采用有监督学习来逐步增强模式划分的能力，达到学习的目的。感知器处理单元对n个输入进行加权和操作，即：感知器在形式上与MP模型差不多，它们之间的区别在于神经元间连接权的变化。感知器的连接权定义为可变的，这样感知器就被赋予了学习的特性。感知器的学习是有监督学习,感知器的训练算法的基本原理来源于著名的Hebb学习律，其基本思想是：逐步地将样本集中的样本输入到网络中，根据输出结果和理想输出之间的差别来调整网络中的权矩阵。设W为网络的权向量，X为输入向量网络的训练样本集为一、离散单输出感知器训

5、练算法: 1.初始化权向量W； 2.重复下列过程，直到训练完成：对样本集中的每一个样本X(1)输入X；(2)计算OF(XW)；(3)如果输出不正确，则当O0时，取WW+X当O1时，取WW-X上述算法中，当O0时，按W+X修改权向量W。这是因为，理想输出本来应该是1，但现在却是0，所以相应的权应该增加，而且是增加对该样本的实际输出真正方贡献的权。当O1时恰好相反。感知器学习算法二、离散多输出感知器训练算法: 1.初始化权向量W； 2.重复下列过程，直到训练完成：对样本集中的每一个样本X(1)输入X；(2)计算OF(XW)；for i1,m执行如下操作oiyiThenif oi0 then

6、for j1,nwij=wij+xielse for j1,nwij=wij-xi 在算法中，依次对输出层的每一个神经元的理想输出和实际输出进行比较。如果它们不相同则对相应的联接权进行修改,相当于将对离散单输出感知器的神经元的处理逐个地用于离散多输出感知器输出层的每一个神经元。三、连续多输出感知器训练算法: 1.用适当的小伪随机数初始化权矩陈W； 2.初始精度控制参数、学习率、精度控制变量d= +1 3While d do d=0 for 每个样本(x，y) do 输入样本x=x1,x2,xn 计算OF(XW) 修改权矩阵W： for i1, n, j1,mwij=wij+ (yj-oj

7、)xi 计算累积误差 for j1, m do d=d+(yj-oj)2误差型学习规则： (1)任选一组初始权值Wi(0) (2)计算某一输入模式对应的实际输出与期望输出的误差 (3)如果小于给定值，结束，否则继续。 (4)更新权值(阈值可视为输入恒为1的一个权值）：式中为在区间(0,1)上的一个常数，称为学习步长，它的取值与训练速度和w收敛的穗定性有关；女d,y为神经元的期望输出和实际输出；xi为神经元的第i个输入(5)返回(2)，重复，直到对所有训练样本模式，网络输出均能满足要求。感知器举例在简单感知器上用误差学习算法实现表1所示真值表。设置初始化参数w1(0)0.2，w2(0)

8、-0.5，(0)0.1。在这样的参数条件下，网络的实际输出为表2所示。可见，有3个输入样本相应的输出都与期望的输出不符，即产生了误差。此时，简单感知器产生的样本划分线：表1 真值表表2 实际输出线性不可分问题多层感知器Minsky得出的最令世人失望的结果是：感知器无法实现最基本的“异或”运算，而“异或”运算是电子计算机最基本的运算之一。这就预示着人工神经网络将无法解决电子计算机可以解决的大量的问题。因此，它的功能是极为有限的，是没有前途的。 “异或”运算的定义：由定义可知，这是一个双输入、单输出的问题，也就是说如果感知器能够表达它，则此感知器输入应该是一个二维向量，输出则为标

9、量。因此，该感知器可以只含有一个神经元。设输入向量为(x，y)，输出为O，神经元的阈值为。从网络函数图可以看出，无论如何选样a,b 的值，都无法使得直线将点(0,0)和点(1,1)划分开来。即使使用S形函数也难以做到这一点。这种单层感知器不能表达的问题被称为线性不可分问题：如果在输入和输出层间加上一层或多层的神经元(隐层神经元)，就可构成多层前向网络, 称为多层感知器可以证明，只要隐层和隐层单元数足够多，多层感知器网络可实现任何模式分类。但是，多层网络的权值如何确定，即网络如何进行学习，在感知器上没有得到解决；当年 Minsky等人就是因为对于非线性空间的多层感知器学习算法未能

10、得到解决，使其对神经网络的研究作出悲观的结论。感知器收敛定理例2.1 采用单一感知器神经元解决一个简单的分类问题：将四个输入矢量分为两类，其中两个矢量对应的目标值为1，另两个矢量对应的目标值为0，即输入矢量： X=-0.5 0.5 0.3 0.0;-0.5 0.5 -0.5 1.0目标分类矢量： D=1.0 1.0 0.0 0.0首先定义输入矢量及相应的目标矢量：X=-0.5 0.5 0.5 0.0;-0.5 0.5 -0.5 1.0；D=1.0 1.0 0.0 0.0；输入矢量可以用右图来描述，对应于目标值0的输入矢量用符号“。”表示，对应于目标值1的输入矢量符号+表示。输入矢量

11、图训练结束后得到如图所示的分类结果，分类线将两类输入矢量分开，其相应的训练误差的变化如图所示。这说明经过4步训练后，就达到了误差指标的要求。分类结果误差变化曲线讨论局限性1）由于激励函数为阈值函数，输出矢量只能取0，1，所以仅可以解决简单的分类问题； 2）输入矢量线性可分时，学习在有限次数内收敛； 3）输入矢量的奇异性导致较慢的收敛。比如当输入/输出矢量分别为：P=-0.5 0.5 +0.3 0.1 80-0.5 +0.5 0.5 +1.0 100;T=1 1 0 0 1; 时，必然导致训练的困难； 4）异或问题不可解。2.3 自适应线性阈值单元Adaline adaptiv

12、e linear neuron自适应线性神经元Adaline是美国Stanford大学 Widrow教授在1961年提出的一种连续时间线性网络。这种模型主要用于自适应系统等一些连续可调过程。Widrow提出的自适应线性神经元模型实际上是一个连续时间线性阈值逻辑元件。神经元的输入信号矢量Xk x0k, x1k, x2k, , xnk的各分量被权矢量Wk w0k, w1k, w2k, , wnk加权(w0k连接单位输入x0k来控制阈值电平)，得到模拟输出和二值输出，其模拟输出为：二值输出为 Adaline模型中通过输入理想响应dk，用类似于误差学习的算法LMS来训练神经元。比较yk和dk，

13、将差值送到LMS学习算法，对权矢量进行训练。反复多次的训练调节后，yk 和dk的误差在许可范围内时，表明Adaline模型已训练完毕。设有n个输入为二元值(+1, -1)，则Xkx1k, x2k, , xnk有 2n个可能的输入模式。对于一般的逻辑实现，可将这2n个输入模式中的每一个，划分为(+1)和(-1)两类。因此，对n 个输入、一个输出的Adaline模型可以实现个可能的逻辑功能。然而，单个Adaline模型只能进行线性划分，也就只能实现中的一部分逻辑功能。线性神经元模型学习 W-H学习算法（LMS）训练步骤：（1）表达：计算训练的输出矢量Y=W*X+B ，以及与期望输出

14、之间的误差E=D-Y;（2）检查:将网络输出误差的平方和与期望误差相比较，如果其值小于期望误差，或训练已达到事先设定的最大训练次数，则停止训练；否则继续：（3）学习：采用W-H学习规则计算新的权值和偏差，并返回到（1）。讨论1）收敛性修正的学习规则，输入向量X(K)归一化 W(k+1)=W(k)+e(k)X(k)/|X(k)|2 |X(k)|2 x 2 i(k) e(k)=q(k)-XT(k)W(k) E(k)= q(k)- XT(k)W(k)= XT(k)W(k) 代入 W(k)e(k) XT(k)X(k)/|X(k)|2 =e(k) 即：e(k+1)-e(k)= e(k) 当00(0,1) 实际取值范围(0.1,1) 2) 可以取接近1的数。 3)2种改进学习算法 i) 收敛性结论同前 e(k+1)=(1- )e(k) ii)高收敛阶算法取f()不同形式，可以得到不同的收敛阶次 E(k+1)=e(k)e(k+1) E(k+1)= e(k)2 E(k+1)= e(k)3 注意问题：收敛区域不同

展开阅读全文

第二章 感知器网络

第二章感知器网络