神经网络分类器 (2)－金锄头文库

资源描述

《神经网络分类器 (2)》由会员分享，可在线阅读，更多相关《神经网络分类器 (2)（56页珍藏版）》请在金锄头文库上搜索。

1、第五章神经网络分类器,5.1 感知器算法 5.2 神经网络分类器,5.1 感知器算法,一、引言模式识别与人工智能是研究如何利用计算机实现人脑的一些功能。,人工神经网络研究的发展： 1943年，提出形式神经元的数学模型，人工神经网络研究的开端。 1949年，提出神经元的学习准则，为神经网络的学习算法奠定了基础。 50年代，研究类似于神经网络的分布系统。 50年代末提出感知模型，把神经网络的实现付诸工程实践。 1982年，提出神经网络的数学模型，引入了能力的概念，研究了网络的动力学特性；设计出用电子线路实现网络的方案，大大促进了神经网络的研究。 1986年，提出多层感知器的反向传播算法。现在

2、神经网络的应用已渗透到智能控制、信号处理、优化计算、生物医学工程等领域。,二、人工神经元,1、生物神经元典型的神经元，即神经细胞结构：胞体、树突、轴突、突触,胞体：神经细胞的本体，完成普通细胞的生存功能。,树突：有大量的分枝，接受来自其他神经元的信号。,轴突：用以输出信号。,突触：神经元相联系的部位，对树突的突触为兴奋性的，使下一个神经元兴奋；对胞体的突触为抑制性的，阻止下一个神经元兴奋。,神经元的基本工作机制：,神经元的两种工作状态：兴奋和抑制。动态极化原则：在每一个神经元中，信息以预知的确定方向流动，即从神经元的接收信息部分传到轴突的电脉冲起始部分，再传到轴突终端的突触，以与其它神经元

3、通信。连接的专一性原则：神经元之间无细胞质的连续，神经元不构成随机网络，每一个神经元与另一些神经元构成精确的联接。,信号的传递过程：接受兴奋电位；信号的汇集和传导；信号的输出。,2、人工神经元,人工神经元模型：,xi：输入，神经元的输入值,i：权值，突触的连接强度,f ：输出函数，非线性函数 y ：输出,神经元动作：,常用输出函数：,阈值函数：,双曲正切函数：,非线性，单调性,无限次可微,权值很大时接近阈值函数,权值很小时接近线性函数,阶跃函数：,f 为阈值函数：,3、感知器模型,则：y=sgn (WTX) 即： y =f (WTX),这种神经元没有内部状态的转变，而且函数为阈值型。因

4、此，它实质上是一种线性阈值计算单元。,感知器是一个具有单层计算单元的人工神经网络。感知器训练算法就是由这种神经网络演变来的。,设阈值：=-0,W=(1,2, ,n,0)T,X=(x1, x2, , xn, 1)T,感知器算法能够通过对训练模式样本集的“学习”得出判别函数的系数解。,算法描述,用样本训练时，若xi，g(x)0，则w不变。若g(x)0，分别赋予初始增广权矢量w(1)的各分量较小的任意值。,输入训练模式xk，计算判别函数值wT(k)xk,调整增广权矢量，规则是：,如果wT(k)xk0, 则w(k+1)=w(k)+ Cxk 如果wT(k)xk0, 则w(k+1)=w(k),如果kdj(

5、x) 任意 j i ，则判xi,(1)赋初值，分别给c个权矢量wi(1)（i=1,2,c）赋任意的初值，选择正常数，置步数k=1.,(2)输入符号未规范化的增广训练模式xk, xkx1, x2 xN ,计算c个判别函数：di(xk) =wi(k) xk(i=1,2,c),(3)调整增广权矢量，规则是：,如果xki和di(xk) dj(xk) (任意j i)，则：wi(k+1)=wi(k) (i=1,2,c),算法步骤：,如果xki和dl(xk) di(xk) (l i)则：wi(k+1)=wi(k)+xkwl(k+1)=wl(k)-xk wj(k+1)=wi(k)(任意j l, i),(4)

6、如果kN,令k=k+1,返至(2)。如果k=N，则检验判别函数wix对x1, x2 xN,是否都能正确分类。若是，结束；若不是，令k=1,返至(2),例2：已知训练样本(0，0)属于1类，(1，1)属于2类，( -1，1)属于3类，试求解向量w1*, w2* , w3*,实验四：实验所用样本数据如表给出，编制程序实现1、2、3、4类的分类。,7、感知器算法推广,由感知器算法：,进一步：将cxk变为对分类错误敏感的准则函数J(w, x),定义：,梯度下降准则,感知机Perceptron (Rosenblatt 1958) Adaline(Widrow and Hoff) Perceptron (

7、Minsky & Papert, 1969) Hopfield模型 (Hopfield，1982) 多层感知机MLP与反向传播算法BP (Rumelhart, 1986),5.2 神经网络分类器,神经网络的特点,自学习自适应并行处理分布表达与计算,神经网络本质上可以理解为函数逼近，可以应用到众多领域：优化计算信号处理智能控制模式识别机器视觉等,神经网络的应用,常用输出函数：,线性输出函数：a=f (x)=x,Sigmoid 函数：,Hebb学习规则：如果神经元ui接收来自另一神经元uj的输出，则当这两个神经元同时兴奋时，从uj到ui的权值wij就得到加强，可写成：,神经元的学

8、习算法,式中wij为到uj的第i个权值的修正量，为控制修正速度的系数。“修正”为“增强”或“减弱”的概念，不局限于代数的“加”或“减”。,前馈神经网络：各神经元接受前级输入，并输出到下一级，无反馈，可用一有向无环图表示。前馈网络通常分为不同的层，第i层的输入只与第i-1层的输出联接。可见层：输入层和输出层隐层：中间层,5.2.1 前馈神经网络及其主要方法,例：感知器,双层神经网络：一层为输入层，另一层有计算单元；,修正权值w：,式中k为迭代次数。i=1,2,n j=1,2,m,反复依次输入训练集中的特征向量x，计算实际输出值，并修正权向量,与线性判别函数等价，只解决线性可分问题，收敛速度

9、快,三层前馈神经网络,用三层前馈神经网络实现逻辑门,例：与非门(NAND),x1, x2-1,1,y-1,1,用前馈神经网络实现“与非门”，可组成任何逻辑函数,三层神经网络实现非线性分类,例：异或(XOR),任何一个逻辑电路都可以只用XOR门来实现， XOR是通用门,实线：+,虚线：-,数字：权值,单个阈值神经元可实现任意多输入的与、或、与非、或非门,任何逻辑函数可用一个三层前馈网络实现,有4个模式，要分为2类：,适当选取神经元的输出函数，两层前馈神经网络可以逼近任意的多元非线性函数若有足够多的隐单元，任何从输入到输出的连续函数都可以用一个这样的三层网络任意精度近似三层或三层以上的前馈网络

10、通常被叫做多层感知器(MLP) MLP的适用范围大大超过单层网络,多层前馈网络双层网络一个线性边界三层或三层以上任意决策边界,存在问题：未给出隐单元数目未给出权值仅根据训练样本，很难知道应该有什么形式的界面函数实际设计过程中还有很多问题,三层前馈网络的使用范围大大超过二层前馈网络，但学习方法较为复杂，主要困难是中间的隐层不直接与外界连接，无法直接计算其误差。,1、反向传播算法,反向传播算法：从后向前反向逐层“传播”输出层的误差，以间接算出隐层误差。分两个阶段：,正向过程：从输入层经隐层逐层正向计算各单元的输出反向过程：由输出层误差逐层反向计算隐层各单元的误差，并用此误差修正前层的

11、权值用已知类别的特征向量为训练集，当输入属于第j类的特征向量时，应使输出yj=1，其他输出为-1；设期望的输出为：Y=y1,y2,ynT，实际输出为：,某一层第j个计算单元：,i：前一层的第i个计算单元 k：后一层的第k个计算单元 Oj：本层的第j个计算单元的输出 wij：前一层第i个单元到本层第j个单元的权值,正向过程：,输入某样本时，从前到后对每个神经元计算：,对输出层，,是实际输出值，yj是期望输出值，误差为：,定义局部梯度：,计算权值对误差的影响：,利用梯度下降原理为使误差尽快减小，令修正量为：wij=-jOiwij(t+1)=wij(t)+ wij(t) t为迭代次数,若单元j为

12、输出单元：,若单元j不是输出单元，则Oj会影响后层所有单元，有：,误差反向传播原理示意图,隐层单元j的局部梯度j正比于输出单元局部梯度的k加权和,由此，输出单元的局部梯度就“反向”传播回到隐层单元,当非线性函数f为双曲正切函数时：,反向传播算法,设权值的随机初始值(较小的随机数) 反复执行如下操作(依次输入如下样本)，直到收敛,从前向后逐层计算每个单元的Oj，,计算每个输出单元的局部梯度j,从后向前反向计算每个隐层单元,计算并保存每个权值修正量,修正权值,可对各样本修正权值，也可各样本计算j后按总误差修正权值,讨论,梯度下降法求非线性函数极值，可能局部极小，不能保证收敛到全局极小点三层或更多

13、层网络，初始权值不能全为零或都相同，否则各隐层单元无差异，迭代无效果。通常采用小随机数，如区间-0.3，0.3 初始值影响收敛，不收敛时改变初始值重新迭代步长参数对收敛影响大，不同问题最佳值不同，约0.13 惯性系数影响收敛速度，常用0.91，1时不收敛输入单元数=特征向量维数，输出单元数=类别个数,径向基函数：沿某种径向对称的标量函数。空间中任意一点x到某一中心xc之间欧氏距离的单调函数，记作：,2、径向基函数网络,最常用的径向基函数是高斯核函数：,xc：为核函数中心：为函数的宽参数，控制了函数的径向作用范围，即x远离xc时函数取值很小,网络特点：只有一个隐层，输入层到隐层之间的权值

14、均固定为1，隐层单元采用径向基函数作为其输出特性。输出节点为线性输出单元，隐层到输出节点之间的权值可调，输出为隐层的加权求和。,径向基函数网络的作用对未知函数f(x)的逼近器。输出为隐层的线性加权求和，采用基函数的加权和来实现对函数的逼近隐层把原始的非线性可分的特征空间变换到另一个空间（通常是高维空间），使之可以线性可分。,可调参数的选择：三种可调参数：隐层基函数中心、方差，输出单元的权值根据经验选择函数中心及方差用聚类方法选择基函数通过训练样本用误差纠正算法求得,5.2.2 竞争学习和侧抑制上述前馈网络属于监督学习，需要同时提供输入样本和相应的理想输出。引进竞争机制的前馈网络可以实现无监督学习，完成聚类的任务。,

展开阅读全文