模式识别第3章人工神经网络及模式识别

上传人:我** 文档编号:113737429 上传时间:2019-11-09 格式:PPT 页数:46 大小:651.50KB
返回 下载 相关 举报
模式识别第3章人工神经网络及模式识别_第1页
第1页 / 共46页
模式识别第3章人工神经网络及模式识别_第2页
第2页 / 共46页
模式识别第3章人工神经网络及模式识别_第3页
第3页 / 共46页
模式识别第3章人工神经网络及模式识别_第4页
第4页 / 共46页
模式识别第3章人工神经网络及模式识别_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《模式识别第3章人工神经网络及模式识别》由会员分享,可在线阅读,更多相关《模式识别第3章人工神经网络及模式识别(46页珍藏版)》请在金锄头文库上搜索。

1、第3章 人工神经网络及模式识别,2019/11/9,2,引言,模式识别:研究的是如何用计算机实现人脑的一些功能。 人脑:可看作是由大量神经元组成的巨大的神经网络。 人工神经网: 1943年,McCulloch和Pitts提出了神经元的数学模型 1949年,Hebb提出神经元的学习准则,为神经网络的学习算法奠定了基础 50年代末,Rosenblatt提出了感知器模型,首次把神经网络的研究付诸工程实践。 1982年,Hopfield提出了神经网络模型,设计出用电子线路实现这一网络的方案,开拓了神经网络用于联想记忆和优化计算的新途径,大大促进了神经网络的研究。 1986年,Rumelhart及Lee

2、Cun等提出了多层感知器的反向传播算法,克服了阻碍感知器模型发展的重要障碍。 现在神经网络的应用已渗透到多个领域,如智能控制、模式识别、信号处理、计算机视觉、优化计算、知识处理、生物医学工程等。,2019/11/9,3,3.1 人工神经元,3.1.1生物神经元 胞体。是神经细胞的本体(可看成系统) 树突。长度较短,接受自其他神经元的信号(输入) 轴突。它用以输出信号 突触。它是一个神经元与另一个神经元相联系的部位,是一个神经元轴突的端部将信号(兴奋)传递给下一个神经元的树突或胞体; 对树突的突触多为兴奋性的,使下一个神经元兴奋; 而对胞体的突触多为抑制性,其作用是阻止下一个神经元兴奋。,201

3、9/11/9,4,神经元的基本工作机制,一个神经元有两种状态:兴奋和抑制。 平时处于抑制状态的神经元,其树突和胞体接收其他神经元经由突触传来的兴奋电位; 多个输入在神经元中以代数和的方式叠加; 如果输入兴奋总量超过某个阈值,神经元就会被激发进入兴奋状态,发出输出脉冲,并由轴突的突触传递给其他神经元。 神经元被触发之后有一个不应期,在此期间内不能被触发,然后阈值逐渐下降,恢复兴奋性。,2019/11/9,5,3.1.2 人工神经元,(1)输入xi :相当于其他神经元的输出; (2) 权值 i :相当于突触的连接强度 (3) f: 是一个非线性函数 ,如阈值函数或Sigmoid函数,2019/11

4、/9,6,神经元的动作:,当f为阈值函数时,其输出为:,也可写为:,或:,其中:,2019/11/9,7,选取不同的输出函数f,y的取值范围也不同,则,则,某些算法要求f可微,此时通常选用Sigmoid函数:,若,或:若,则,则,或:,Sigmoid函数的特性:1)非线性,单调性。2)无限次可微。3)当权值很大时可近似阈值函数。当权值很小时可近似线性函数。,2019/11/9,8,如果神经元ui接收来自另一神经元uj的输出,则当这两个神经元同时兴奋时,从uj到ui的权值wij就得到加强。 具体到前述的神经元模型,可以将Hebb规则表现为如下的算法: 式中 是对第i个权值的修正量 是控制学习速度

5、的系数。太大会影响训练的稳定性,太小则使训练的收敛速度变慢,一般取0 1; 人工神经网络首先要以一定的学习准则进行学习,然后才能工作,3.1.3 神经元的学习算法- Hebb学习规则,2019/11/9,9,3.2 前馈神经网络,3.2.1 前馈神经网络 (用于监督学习) 网络的神经元接受前一级输入,并输出到下一级,无反馈。 节点分为两类:输入节点与计算单元。 每个计算单元可有任意个输入,但只有一个输出,而输出可藕合到任意多个其他节点的输入。 前馈网络通常分为不同的层,第i层的输入只与第i-1层的输出相联。输入节点为第一层。输入和输出节点由于可与外界相连,称为可见层,而其他的中间层则称为隐层

6、。,2019/11/9,10,3.2.2 感知器(Perceptron ),也称双层神经网络、单计算层感知器 (1)输入层, 也称为感知层 每个节点接收一个输入信号,n个输入信号构成输入列向量X (2)具有计算单元的输出层 有m个神经元节点,均有信息处理能力,m个节点向外部输出信息,构成输出列向量O。 (3) 两层之间的连接权值 用权值列向量Wj表示,m个权向量构成单层感知器的权值矩阵W。,感知器模型示意图,2019/11/9,11,感知器用于模式识别 输入X:样本的特征向量。 输出O:每个节点输出为:,输出向量O可以用来表示类别属性: 例如: 若X j时,应使对应于该类的输出节点的输出Oj=

7、1, 而其他节点的输出则为Oi=0 (或-1),,2019/11/9,12,例: 单计算节点感知器 (1)设输入向量 X=(x1 ,x2)T 则输出为:,则由方程 w1j x1+w2j x2- Tj=0 确定了二维平面上的一条分界线。 (2) 输入n维向量,X=(x1,x2,,xn)T wijx1+w2jx2+wnj Tj=0 确定了n维空间上的一个分界平面 可见:一个最简单的单计算节点感知器具有分类功能。可实现线性分类器,感知器的学习规则,可以用已知类别的模式向量或特征向量作为训练集 若X j,应使对应于该类的输出节点的输出Oj=1, 而其他节点的输出则为Oi=0 (或-1) 设理想的输出为

8、: Y=y1,y2,y3,.,ymT 某次迭代(k)上的实际输出为: Y=y1,y2,y3,.,ymT 对权值利用Hebb规则作如下的修改: wij(k+1)= wij(k)+ wij(k) 其中: wij(k)=(yj-yj)xj, i=1,2,n; j=1,m 为学习率,用于控制调整速度,太大会影响训练的稳定性,太小则使训练的收敛速度变慢,一般0 1;,2019/11/9,13,感知器学习规则的训练步骤:,(1) 对各权值w0j(0),w1j(0),wnj(0),j=1, 2,m (m为计算层的节点数)赋予较小的非零随机数; (2) 输入样本对Xp,Yp,其中Xp=(-1,x1p,x2p,

9、xnp), Yp为期望的输出向量,上标p代表样本对的序号,样本集中的样本总数为P,p=1,2,P; (3)计算各节点的实际输出:yjp(k)=sgnWjT(k)Xp, j=1,2,.,m (4)调整各节点对应的权值: Wj(k+1)= Wj(k)+Yjp-Yjp(k)Xp, j=1, 2,m, (5)返回到步骤(2),输入下一对样本,周而复始直到对所有 样本,感知器的实际输出与期望输出相等: Yjp(k)=Yjp,2019/11/9,14,2019/11/9,15,感知器的学习过程与求取线性判别函数的过程是等价的 感知器的一些特性: 两层感知器只能用于解决线性可分问题。 学习过程收敛很快,且与

10、初始值无关。,2019/11/9,16,例: 单计算节点感知器,3个输入。给定3对训练样本对如下: X1 = (-1,1,-2,0)T y1 =1 X2 = (-1,0,1.5,-0.5)T y2 = 1 X3 = (-1,-1,1,0.5)T y3 =1 设初始权向量W(0)=(0.5,1,-1,0)T,=0.1。 注意,输入向量中第一个分量x0恒等于-1,权向量中第一个分量为阈值,试根据以上学习规则训练该感知器。,2019/11/9,17,解:第一步 输入X1,得 WT(0)X1=(0.5,1,-1,0)(-1,1,-2,0)T=2.5 , y1(0)=sgn(2.5)=1 W(1)= W

11、(0)+y1- y1(0) X1 =(0.5,1,-1,0)T+0.1(-1-1)(-1,1,-2,0)T =(0.7,0.8,-0.6,0)T 第二步 输入X2,得 WT(1)X2=(0.7,0.8,-0.6,0)(-1,0,1.5,-0.5)T=-1.6 y2(1)=sgn(-1.6)= -1 W(2)= W(1)+y2- y2(1) X2 =(0.7,0.8,-0.6,0)T+0.1-1-(-1)(-1,0,1.5,-0.5)T =(0.7,0.8,-0.6,0)T = W(1) 第三步 输入X3,得 WT(2)X3=(0.7,0.8,-0.6,0)(-1,-1,1,0.5)T=-2.1

12、 y3(2)=sgn(-2.1)=-1 W(3)= W(2)+d3- o3(2) X3 =(0.7,0.8,-0.6,0)T+0.11-(-1)(-1,-1,1,0.5)T =(0.5,0.6,-0.4,0.1)T 第四步 返回到第一步, 继续训练直到 yp(k)- yp=0,3.2.3 三层前馈网络及MLP,三层前馈网络由输入层、中间层和输出层构成。 有两个计算层 也称三层感知器 能够求解非线性问题 三层或三层以上的 前馈网络通常又被叫做多层感知器(Multi-Layer Perceptron简称MLP)。由三部分组成: 、一组感知单元组成输入层; 、一层或多层计算节点的隐藏层; 、一层计算

13、节点的输出层。 MLP的表示:输入节点数-第1隐层节点数-第2隐层节点数-,-输出节点数。如图,可表示为:4-4-3网络,2019/11/9,18,用感知器实现逻辑“与”功能,y=sgn(0.5x1+0.5x2-0.75),2019/11/9,19,感知器结构,用感知器实现逻辑“或”功能,y=sgn(x1+x2-0.5),2019/11/9,20,感知器结构,2019/11/9,21,用感知器实现逻辑“与非”功能,感知器结构,y=sgn(-0.5x1-0.5x2+0.75),2019/11/9,22,单感知器不能实现“异或”功能,只能解决线性可分问题,2019/11/9,23,多层感知器可实现

14、非线性函数,人工神经元可实现与非门,任何逻辑函数都可以由与非门组成 任何逻辑函数都可用一个三层(只有两层计算单元)的前馈网络实现。 当神经元的输出函数为Sigmoid函数时,上述结论可以推广到连续的非线性函数。 在很宽松的条件下,三层前馈网络可以逼近任意的多元非线性函数,突破了二层前馈网络线性可分的限制。 感知器,决策域:平面; 双层计算单元,决策域:凸区域 三层计算单元,决策域: 任意形状,2019/11/9,24,2019/11/9,24,MLP能实现“异或”功能,只能解决线性可分问题,2,2,2,2,-2,-2,x1,x2,y,y1=sgn(2x1-2x2) ; y12=sgn(-2x1

15、+2x2) y=sgn(2y1+2y2),2019/11/9,25,3.2.4反向传播算法(BP法),三层前馈网络的适用范围大大超过二层前馈网络,但学习算法较为复杂,主要困难是中间的隐层不直接与外界连接,无法直接计算其误差。 BP算法(Back-Propogation)可解决这一问题。 主要思想:从后向前(反向)逐层传播输出层的误差,以间接算出隐层误差。 算法分为两个阶段: 第一阶段(正向过程):输入信息从输入层经隐层逐层计算各单元的输出值; 第二阶段(反向传播过程):输出误差逐层向前算出隐层各单元的误差,并用此误差修正前层权值。 在反向传播算法中通常采用梯度法修正权值,为此要求输出函数可微,

16、通常采用Sigmoid函数作为输出函数。,2019/11/9,26,第一阶段(正向过程),考虑如图所示的某层的某单元Oj 当输入样本某个样本时,则 若 输出函数是Sigmoid函数,则,2019/11/9,26,i: 前层第i个单元 k: 后层第k个单元 Oj: 代表本层输出 wij:前层到本层的权值,第二阶段(反向传播过程),对于输出层,Oj是实际输出,与理想输出yj的误差: 局部梯度: 权值对误差的影响: 负梯度修正权值: 修正算法:,2019/11/9,27,i: 前层第i个单元;: 后层第k个单元 Oj: 本层输出;wij:前层到本层的权值,实际计算时,为了加快收敛速度,一般要加上前次权值修正量,称为惯性量:,:步长,:惯性系数,局部梯度的计算,若节点j是输出单元,则输出量可得到:yj

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号