前向多层人工神经网络

资源描述

《前向多层人工神经网络》由会员分享，可在线阅读，更多相关《前向多层人工神经网络（30页珍藏版）》请在金锄头文库上搜索。

1、第二章第二章前向多层人工神经网络前向多层人工神经网络 2.1概述ANN的主要功能之一模式识别(PatternRecognition)模式模式识别是人是人类的一的一项基本智能行基本智能行为，在日常生活中，我，在日常生活中，我们几乎几乎时刻在刻在进行着行着“模式模式识别”。模式：模式：广广义地地说，存在于，存在于时间和空和空间中可中可观察的事物，如果可以区察的事物，如果可以区别它它们是是否相同或相似，都可以称之否相同或相似，都可以称之为模式；模式；狭狭义地地说，模式是通，模式是通过对具体的个具体的个别事物事物进行行观测所得到的具有所得到的具有时间和和空空间分布的信息；分布的信息；模式模式类

2、：把模式所属的把模式所属的类别或同一或同一类中模式的中模式的总体称体称为模式模式类(或或简称称为类); 模式模式识别：在一定量度或在一定量度或观测基基础上把待上把待识模式划分到各自的模式模式划分到各自的模式类中去中去的的过程叫作模式程叫作模式识别；模式模式识别对表征事物或表征事物或现象的各种形式的（数象的各种形式的（数值的，文字的和的，文字的和逻辑关系的）信息关系的）信息进行行处理和分析，以理和分析，以对事物或事物或现象象进行描述、辨行描述、辨认、分、分类和和解解释的的过程，是信息科学和人工智能的重要程，是信息科学和人工智能的重要组成部分。成部分。买西瓜：西瓜可分为买西瓜：西瓜可分为生生

3、、熟熟两类，此时，研究的范畴是两类，此时，研究的范畴是“”，在此范畴上定，在此范畴上定义了义了两类两类模式：模式：熟瓜和生瓜熟瓜和生瓜；种西瓜：西瓜分种西瓜：西瓜分早熟品种、晚熟品种早熟品种、晚熟品种两类，即定义了两类，即定义了两类两类模式：模式：早熟和晚熟早熟和晚熟；河北省早熟品种分类：河北省常见品种有河北省早熟品种分类：河北省常见品种有“新红宝新红宝”、“蜜梅蜜梅”、“京欣京欣”、“2 2号号” 等；此时，研究范畴是等；此时，研究范畴是“河北常见早熟西瓜品种河北常见早熟西瓜品种”，在此范畴上定，在此范畴上定义了多类模式：义了多类模式：新红宝、蜜梅、京欣、冀早新红宝、蜜梅、京欣、冀早2 2号

4、号等等等等买西瓜：买西瓜：两类模式分类问题，通过两类模式分类问题，通过声音声音的的频率频率x x1 1和声音持续时间和声音持续时间x x2 2来判断瓜来判断瓜的生熟。对编号为的生熟。对编号为 i i的瓜进行敲击测试，得到矢量元素的瓜进行敲击测试，得到矢量元素 X Xi i=(x=(x1 1i i，x x2 2i i) )T T ，对，对N N个有生有熟的瓜进行实验可以得到个有生有熟的瓜进行实验可以得到N N个数据：个数据：X=XX=X1 1,X ,X2 2,X ,X3 3,X,XN N ，根据瓜的，根据瓜的生熟可以将生熟可以将X X中的元素划分为两类，一类对应于一类对应于中的元素划分为两类，一

5、类对应于一类对应于熟瓜熟瓜。于是，。于是，模模式式其实就是具有其实就是具有特定性质的矢量特定性质的矢量/ /数据数据。用。用C C1 1代表生瓜类，代表生瓜类，C C2 2代表熟瓜类，代表熟瓜类，则则X X中的任意一个元素中的任意一个元素XnXn必然满足必然满足: :XnXn属于属于C C1 1或者或者XnXn属于属于C C2 2。2024/7/231前向多层人工神经网络模式模式识别，举例：水果分例：水果分级系系统。水果品质参数：重量、大小、比重、果形、颜色等水果品质参数：重量、大小、比重、果形、颜色等特征矢量特征矢量：X X =x x1 1, ,x x2 2, ,x x3 3, ,x x4

6、4, ,x x5 5 T T特征空间特征空间：用参数张成。用参数张成。模式模式：每个苹果为一个模式，其特征矢量每个苹果为一个模式，其特征矢量为特征空间中的一个点；为特征空间中的一个点；模式类模式类：一个级别为一个类，一类模式分一个级别为一个类，一类模式分布在特征空间的某个特定区域；布在特征空间的某个特定区域；模式识别模式识别：找出各类之间的分界面。找出各类之间的分界面。2024/7/232前向多层人工神经网络ANN的主要功能之二联想(AssociativeMemory)联想的心理学定义：联想的心理学定义：当一个事物的表象被激活当一个事物的表象被激活时，也就是，也就是说该表象所包含的若干属性

7、表象所包含的若干属性单元同元同时有效有效时，我，我们的注意力焦点就集中在的注意力焦点就集中在这个表象上，如果个表象上，如果对该表象的表象的处理使理使的表象被否决的表象被否决时，也就是，也就是说由于一些属性由于一些属性单元的失效（或被抑制，或元的失效（或被抑制，或处于高于高阻），阻），导致致该表象无法成立的表象无法成立的时候，剩余的属性候，剩余的属性单元或元或许可以构成另一种事可以构成另一种事物的表象，或物的表象，或许还需要需要结合那些被激活了的新的属性（或是由外界事物具有合那些被激活了的新的属性（或是由外界事物具有的新的属性所激活，或是因降低了的新的属性所激活，或是因降低了对一些属性的抑制所一

8、些属性的抑制所导致的激活）。致的激活）。例如：看到柠檬，感觉到嘴里口水增多。因为，由柠檬联想到了酸味。例如：看到柠檬，感觉到嘴里口水增多。因为，由柠檬联想到了酸味。字符识别：字符识别：2024/7/233前向多层人工神经网络再论模式识别：对表征事物或现象的各种形式的（数值的、文字的或逻对表征事物或现象的各种形式的（数值的、文字的或逻辑的）信息进行处理和分析，以对事物或现象进行描述、辨认、分类和辑的）信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程称为解释的过程称为“模式识别模式识别”，是信息科学和人工智能的重要组成部分。，是信息科学和人工智能的重要组成部分。v 人在分辨不

9、同类别的事物时，抽取了人在分辨不同类别的事物时，抽取了同类事物之间的相同点同类事物之间的相同点以及以及不不同类事物之间的不同点同类事物之间的不同点；字符识别字符识别：例如汉字例如汉字“中中”可以有各种写法，但都属于同一类别。可以有各种写法，但都属于同一类别。更为重要的是，即使对于某个更为重要的是，即使对于某个“中中”的具体写法从未见过，也能把的具体写法从未见过，也能把它分到它分到“中中”这一类别。这一类别。识别目标识别目标：人们走向一个目的地的时候，总是在不断的观察周围的人们走向一个目的地的时候，总是在不断的观察周围的景物，判断所选择的路线是否正确。实际上，是对眼睛看到的图象景物，判断所选择的

10、路线是否正确。实际上，是对眼睛看到的图象做做 “正确正确”和和“不正确不正确”的分类判断。的分类判断。人脑的这种思维能力就构成了人脑的这种思维能力就构成了“模式模式”的概念和的概念和“模式识别模式识别”的过的过程。程。模模式式是是和和类类别别（集集合合）的的概概念念分分不不开开的的，只只要要认认识识这这个个集集合合的的有有限限数数量量的的事事物物或或现现象象，就就可可以以识识别别这这个个集集合合中中的的任任意意多多的的事事物物或或现现象象。为为了了强强调调能能从从具具体体的的事事物物或或现现象象中中推推断断出出总总体体，我我们们就就把把个个别别的的事事物物或或现现象象称称作作“模模式式”，而

11、而把把总总体称作类别或范畴。体称作类别或范畴。特征矢量特征矢量：最简单的情况是用一组称为最简单的情况是用一组称为“特征参数特征参数”的数值信息表示一个客观的数值信息表示一个客观对象。例如，水果品质分类中用到的大小、重量、比重、果型、颜色，其取值对象。例如，水果品质分类中用到的大小、重量、比重、果型、颜色，其取值均为数值。表示成均为数值。表示成特征矢量特征矢量形式：形式：X Xi i= x xi i1 1, ,x xi i2 2, ,x xi i3 3, ,x xi i4 4, ,x xi i5 5 ；样本样本：对一个具体对象进行观测得到的一个对一个具体对象进行观测得到的一个特征矢量特征矢量称为

12、一个称为一个“样本样本”， X Xi i称称为第为第i i个样本，或者第个样本，或者第i i个样本的特征矢量。个样本的特征矢量。特征空间特征空间：即特征矢量张成的空间，每个样本对应于特征空间上的一点。即特征矢量张成的空间，每个样本对应于特征空间上的一点。针对一个具体的模式识别问题，选定特征参数非针对一个具体的模式识别问题，选定特征参数非常重要，关乎模式识别的成败。著名国际大师常重要，关乎模式识别的成败。著名国际大师傅傅京孙京孙教授曾说过模式识别问题的关键是特征提取。教授曾说过模式识别问题的关键是特征提取。特征参数应能区分所定义的模式，同时有没有过特征参数应能区分所定义的模式，同时有没有过多的重

13、复，即：完备而不冗余。选定特征参数的多的重复，即：完备而不冗余。选定特征参数的过程称过程称“为特征提取为特征提取”。特征提取没有统一的方。特征提取没有统一的方法，事实上，特征提取是一个不同专业领域范畴法，事实上，特征提取是一个不同专业领域范畴内的问题。正因为如此，模式识别应用问题往往内的问题。正因为如此，模式识别应用问题往往是跨专业领域的工程。是跨专业领域的工程。傅京孙傅京孙(19301985)(19301985)丽水县城人。丽水县城人。19541954年毕业于台湾年毕业于台湾大学大学电机系电机系获学士学位，后留学加拿大多伦多大学获学士学位，后留学加拿大多伦多大学获获应用科学应用科学硕士学位，

14、硕士学位，19561956年转入美国伊利诺斯大年转入美国伊利诺斯大学，获博士学位。学，获博士学位。19611961年起任美国普渡大学年起任美国普渡大学电机工电机工程程系助教、副教授、教授，加州大学柏克莱分校及系助教、副教授、教授，加州大学柏克莱分校及斯坦福大学访问教授。斯坦福大学访问教授。19711971年起当选为美国年起当选为美国电机工电机工程学会程学会荣誉会员。同年得顾根汉基金研究奖助金。荣誉会员。同年得顾根汉基金研究奖助金。19751975年起任普渡大学高斯工程讲座教授。以后开设年起任普渡大学高斯工程讲座教授。以后开设概率论概率论，创立，创立图形识别科学图形识别科学，影像处理影像处理及其

15、在及其在遥测、遥测、医学方面的应用医学方面的应用，曾任第一届国际，曾任第一届国际图形识别会议主图形识别会议主席席。19761976年当选为美国国家工程学院院士，获得麦年当选为美国国家工程学院院士，获得麦考艾科学贡献奖。考艾科学贡献奖。19771977年获得美国年获得美国计算机学会计算机学会杰出杰出论文奖。论文奖。19781978年任台湾年任台湾“中央研究院中央研究院”院士。院士。2024/7/234前向多层人工神经网络模式类：特征参数选择合理时，不同类的模式，在特征空间中占据不特征参数选择合理时，不同类的模式，在特征空间中占据不同的分布区域；同的分布区域；模式识别所要做的事情，包含两个方面：模

16、式识别所要做的事情，包含两个方面：1.在不同类别样本点集之间，寻找合理的分界面，或称作在不同类别样本点集之间，寻找合理的分界面，或称作“判别函数判别函数（DecisionFunctionDecisionFunction）” 因为判别函数来自于实际观测数据，因为判别函数来自于实际观测数据，因此称此阶段为因此称此阶段为 “学习学习” 或或 “训练训练” ；2.给定未知模式，判断该样本所属类别，称为给定未知模式，判断该样本所属类别，称为“工作工作”或或“应用应用”。特征选择的好坏是模式识别成败的关键，但如何选择特征选择的好坏是模式识别成败的关键，但如何选择“特征特征”，即，选择什么物理量作为特征，是

17、具体专业即，选择什么物理量作为特征，是具体专业“领域领域”的问题，需要运用的问题，需要运用“领域领域”的专业知识来解决。的专业知识来解决。例如，语音识别，如何从自然语音中提取例如，语音识别，如何从自然语音中提取“特征特征”，是语音识别的，是语音识别的专业问题；图象识别，如何从专业问题；图象识别，如何从CCDCCD图象获取适当的特征，是图象处理领图象获取适当的特征，是图象处理领域的问题，即使在图象处理领域，不同应用目的所取的特征也不同。域的问题，即使在图象处理领域，不同应用目的所取的特征也不同。模式识别的全过程，应该包括特征提取阶段。但是，我们这里将要模式识别的全过程，应该包括特征提取阶段。

18、但是，我们这里将要讲到的有关智能方法，都只涉及到特征提取之后的工作。讲到的有关智能方法，都只涉及到特征提取之后的工作。以上所说的以上所说的 “学习学习” 或或 “训练训练”，是根据若干已知样本在空间找到，是根据若干已知样本在空间找到合适的分类面。对于一个样本合适的分类面。对于一个样本X Xi i，用用y yi i表示它所属的类别，例如，它属表示它所属的类别，例如，它属于第于第k k类。样本已知，意思是类。样本已知，意思是 X Xi i ， y yi i 已知。这种已知。这种“学习学习”又称为又称为“有有监督监督”学习，即，通过对已知样本学习，即，通过对已知样本 X Xi i ，y yi i 的

19、学习找到合理的判别函数。的学习找到合理的判别函数。所谓所谓“工作工作”，指的是给定类别未知的样本，指的是给定类别未知的样本X Xi i ，求，求y yi i的值。的值。X Xi i是对某个是对某个客观对象观测的结果，其取值无法事先限定。但类别客观对象观测的结果，其取值无法事先限定。但类别y yi i的取值是离散的、的取值是离散的、有限的，是事先主观规定的。有限的，是事先主观规定的。2024/7/235前向多层人工神经网络神经元模型神经元的输入：神经元的输入：所完成的运算为：所完成的运算为：式中：式中：称为神经元的称为神经元的“权值矢量权值矢量”；称为神经元的称为神经元的“功能函数功能函数”；

20、称为神经元的称为神经元的“净输入净输入”；称为神经元的称为神经元的“输出输出”；称为神经元的称为神经元的“阈值阈值”；2024/7/236前向多层人工神经网络常用的神经元功能函数类型线性函数线性函数又称为又称为“恒同函数恒同函数” 硬限幅函数硬限幅函数 S S函数函数(Sigmoid)(Sigmoid)f fs s 取值于取值于0,10,1之间。之间。2024/7/237前向多层人工神经网络前项人工神经网络的拓扑结构前层的输出作为后层的输入；前层的输出作为后层的输入；各层的神经元个数可以不同；各层的神经元个数可以不同；层数两层以上，目前大多为层数两层以上，目前大多为3 3层；层；输入矢

21、量输入矢量X X代表从客观对象观测代表从客观对象观测得到的特征；输出层包含一个或多得到的特征；输出层包含一个或多个神经元，用于表达更为复杂的运个神经元，用于表达更为复杂的运算结果；算结果；同层神经元不能连接，后层不同层神经元不能连接，后层不能向前层反向连接；能向前层反向连接；连接强度（即，权值大小）可连接强度（即，权值大小）可以为以为0 0，强度为，强度为0 0实际上就是没有实际上就是没有连接；连接；2024/7/238前向多层人工神经网络2.2采用硬限幅函数时单个神经元的分类功能线性可分性线性可分性(LinearSeparable(LinearSeparable ) )设有设有C C0

22、 0和和C C1 1两类模式两类模式R R0 0：C C0 0类模式的样本集；类模式的样本集；R R1 1：C C1 1类模式的样本集；类模式的样本集；分类的第一步分类的第一步：在两类样本分布区域在两类样本分布区域之间寻找一个分类函数（分类线、面）之间寻找一个分类函数（分类线、面）使得两类样本各处在一边；使得两类样本各处在一边；实现这一目标的过程，称为实现这一目标的过程，称为“学习学习”或或“训练训练”，所用到的计算策所用到的计算策略称为略称为“学习算法学习算法”；样本集合样本集合R R0 0和和R R1 1称为称为学习样本学习样本集合。集合。分分类类的的第第二二步步：当当获获得得了了分分类类

23、函函数数 l l以以后后，就就可可以以进进入入工工作作阶阶段段了了。任任给给未未知知模模式式X X，若若它它位位于于R0R0一一侧侧，则则判判定定其其为为C0C0类类；若若它它位位于于R1R1一一侧侧，则则判判定其为定其为C1C1类；若它落在分类线类；若它落在分类线l l 上，则不可识别。上，则不可识别。给给定定两两类类C C0 0和和C C1 1的的学学习习样样本本集集合合R R0 0和和R R1 1，若若存存在在线线性性分分类类函函数数（直直线线、平平面面、超超平平面面）l l，将将两两类类学学习习样样本本无无误误差差地地分分开开，则则称称该该分分类类问问题题为为“线线性可分问题性可分问

24、题”。2024/7/239前向多层人工神经网络假设，二维分类问题的分类函数为假设，二维分类问题的分类函数为 l l：任给样本任给样本 XX=x x1 1, ,x x2 2 ，l l应该满足：应该满足：令：令：则模式识别则模式识别问题可以表达成：问题可以表达成：把把看作权值，看作权值，看作阈值，看作阈值，用一个神经元来表示以上二维分类问题，用一个神经元来表示以上二维分类问题，则：则：任意输入一个模式任意输入一个模式 X X，若若X X属于属于C C0 0则则 y y=1=1；若若X X属于属于C C1 1则则 y y=0=0；其中：其中：XX= = x x1,1,x x2 2 是任意样本，是

25、任意样本，WW=w w0,0,w w1 1 是权值矢量。是权值矢量。 WWT T. .XX q q=w w0. 0.x x0 0+w w1. 1.x x1 1q q=0=0是直线的矢量方程，是直线的矢量方程，若若WW为单位矢量，即：为单位矢量，即： w w0 02 2+w w1 12 2 =1=1则则 q q 的意义如图所示。的意义如图所示。2024/7/2310前向多层人工神经网络学习算法将输入矢量将输入矢量 X X 和权矢量和权矢量 W W 作如下扩作如下扩张：张：神经元模型成为：神经元模型成为：(2-7)(2-7)学习的目的，就是要找到权矢量学习的目的，就是要找到权矢量WW。对于前面

26、的例子，就是寻找能够无。对于前面的例子，就是寻找能够无误差分开两类样本的直线参数误差分开两类样本的直线参数 w w0 0, ,w w1 1, ,q q 。学习是针对给定的学习样本集合进行的，不同的样本集合可以得到不同学习是针对给定的学习样本集合进行的，不同的样本集合可以得到不同的学习结果。对于两类可分问题，能够无误差地分开学习样本的结果都是的学习结果。对于两类可分问题，能够无误差地分开学习样本的结果都是正确的。正确的。2024/7/2311前向多层人工神经网络设二维分类问题，有学习样本：设二维分类问题，有学习样本：其中其中训练样本训练样本 k k；训练样本的值；训练样本的值；起初，我们随意

27、指定一个权矢量：起初，我们随意指定一个权矢量：这这相相当当于于在在特特征征空空间间上上随随意意画画了了一一条条线线。向向神神经经元元输输入入一一个个样样本本X(X(k k) )，用用y y( (k k) )表表示示得得到到的的输输出出，显显然然y y( (k k) )不一定等于不一定等于X(X(k k) )的实际类别值的实际类别值d d( (k k) )，令：，令：若若 f fhh为硬限幅函数，为硬限幅函数，则必有：则必有：(2-29)(2-29)2024/7/2312前向多层人工神经网络学习算法学习算法：为了找到正确的为了找到正确的WW，依次向神经元输入学习样本，依次向神经元输入学习样本X

28、(X(k k) )，k k=0,1,2,=0,1,2,，并且依照误差，并且依照误差e e ( (k k) )的正负来修正的正负来修正WW ：式中式中a a 称为称为“步幅步幅”，用来控制每次调整的步长。如此不断重，用来控制每次调整的步长。如此不断重复，复，WW( (k k) )随着迭代次数随着迭代次数k k的增加，逐渐趋于正确答案。的增加，逐渐趋于正确答案。(2-7)(2-7) 若输出若输出y y( (k k) )与样本类别值与样本类别值dd( (k k) )相同，即，相同，即，则则: :WW( (k k+1)=+1)=WW( (k k) )，不调整不调整WW。若输出若输出y y( (k

29、k) )与样本类别值与样本类别值d d( (k k) )不同，即，不同，即，则则: :WW根据根据 e e ( (k k) )的正负被的正负被调整；调整；2024/7/2313前向多层人工神经网络算法的几何原理：算法的几何原理：为直观起见，设：理想分类线过原点，即：为直观起见，设：理想分类线过原点，即：，阈值，阈值q q 为为0 0。训练样本：训练样本：权值矢量：权值矢量：由直线方程可知，由直线方程可知，W(W(k k) )是直线是直线 l l 的法线的法线，即，即: : 若，若，X X恰好位于恰好位于 l l上，则：上，则：若，若，X Xa a位于位于 l l 上方，则：上方，则：

30、若，若，X Xb b位于位于 l l下方，则：下方，则：2024/7/2314前向多层人工神经网络假设已经输入了假设已经输入了k k个样本，运行到了第个样本，运行到了第 k k 步，当前的权值步，当前的权值W(W(k k) )。假设。假设输入输入 X(X(k k) ) 得到得到y y( (k k)=1)=1，但给定的，但给定的 X(X(k k) )属于属于C C1 1类，即，类，即，d d( (k k)=0)=0，则：则：于是，有：于是，有：可见，分类线可见，分类线 l l得到了合理的调整。得到了合理的调整。再假设，接下来输入的再假设，接下来输入的X(X(k k+1)+1)属属于于 C C0

31、0类，即类，即d d( (k k)=1)=1，被错分为，被错分为C1C1类，即，类，即，由由X(X(k k+1)+1)和和W(W(k k+1)+1)计算得到计算得到 y y( (k k+1)=0+1)=0 ：于是，有：于是，有：错把错把 C1C1 当当 C0C0; ;2024/7/2315前向多层人工神经网络2.3线性函数神经元的最小二乘分类算法线性不可分线性不可分在误差最小的前提下，寻找分类函数，给定样本集：在误差最小的前提下，寻找分类函数，给定样本集：其中其中 2024/7/2316前向多层人工神经网络采用线性函数的神经元，即：采用线性函数的神经元，即：输入样本矢量：输入样本矢量：权

32、值矢量：权值矢量：神经元完成的运算为：神经元完成的运算为：判别规则：判别规则：注意到，理想值为：注意到，理想值为：对于权矢量对于权矢量WW的某个具体取值，其误差定义为：的某个具体取值，其误差定义为：学习的目的是，针对所有学习样本，寻找学习的目的是，针对所有学习样本，寻找 x x最小的最小的WW取值，它即为误差最小取值，它即为误差最小的分类函数。的分类函数。(2-10)(2-10)2024/7/2317前向多层人工神经网络设学习样本集设学习样本集(X0,d0)，(X1,d1)，(XK-1,dK-1)，则则 x x 的估计为：的估计为：以以 x x 最小为目标的优化过程，统称为最小为目标的优化

33、过程，统称为“最小二乘法最小二乘法(LeastMeanSquare)”(LeastMeanSquare)”。显然，样本的分布给定后显然，样本的分布给定后 x x 是权矢量是权矢量WW的函数，即：的函数，即： x x=x x(W)(W)；首先需要证明，存在首先需要证明，存在W*W*使得使得x x minmin=x x(W*)(W*) 成立。由于是线性函数，所以，成立。由于是线性函数，所以，神经元的输出可以写成：神经元的输出可以写成：(2-11)(2-11)代入代入(2-10)(2-10)得到：得到：(2-(2-12)12)2024/7/2318前向多层人工神经网络用下列符号代表式中一些参量：

34、用下列符号代表式中一些参量：为了简化，我们考虑二维并且阈值为了简化，我们考虑二维并且阈值 q q=0=0的情况，有：的情况，有：(2-13)(2-13)(2-14)(2-14)显然，显然，R R是随机矢量是随机矢量X X的相关矩阵，它是一个的相关矩阵，它是一个对称矩阵对称矩阵，且，且正定正定。将以上符号代入将以上符号代入(2-12)(2-12)，得到：，得到：(2-15)(2-15)2024/7/2319前向多层人工神经网络显显然然，若若存存W*W*在在使使得得 x x minmin=x x (W*)(W*) 成成立立。并并且且，在在W*W*点点上上x x关关于于WW的的所所有有元元素素w

35、 w0 0, ,w w1 1, , ( (二二维维情情况况下下只只有有ww0 0和和ww1 1) )的的偏偏导导数数都都为为0 0，或或者者，说说x x关于矢量关于矢量WW的梯度在的梯度在W*W*点为零矢量。即，对点为零矢量。即，对(2-15)(2-15)求梯度得到：求梯度得到： (2-16)(2-16)或用多元函数微分求梯度，重写误差公式：或用多元函数微分求梯度，重写误差公式：2024/7/2320前向多层人工神经网络令：令：注意到，注意到，R R是正定的，它的逆存在，于是，得到：是正定的，它的逆存在，于是，得到：(2-17)(2-17)代回代回(2.15)(2.15)式可以得到最小误差平方

36、和：式可以得到最小误差平方和： (2-18)(2-18)命题得证，并且找到了最佳的命题得证，并且找到了最佳的WW：解解(2-17)(2-17)式即可得到式即可得到W*W*。但这还不是我们。但这还不是我们想要的学习算法，为了实现自适应学习，必须找到求解想要的学习算法，为了实现自适应学习，必须找到求解W*W*的迭代算法。的迭代算法。2024/7/2321前向多层人工神经网络LMS学习问题的最陡梯度算法 k k表表示示迭迭代代学学习习过过程程的的序序号号； p p =0,0,1,1,2,2,表表示示样样本本序序号号，X Xp p( (k k) )表表示示当当前一轮迭代时的第前一轮迭代时的第p p个输

37、入的学习样本，即，第个输入的学习样本，即，第k k步的第步的第p p个样本。个样本。定义误差平方和为：定义误差平方和为：(2-38)(2-38)当当两两类类样样本本的的分分布布不不变变时时（统统计计意意义义上上），J( J(k k) )是是WW的的函函数数。LMSLMS学学习习的的最最陡陡梯度法就是以梯度法就是以J( J(k k) )为目标函数，寻找使得为目标函数，寻找使得J( J(k k) )最小的权值矢量最小的权值矢量WW。 W(k)W(k)表表示示迭迭代代学学习习第第k k步步时时的的权权值值矢矢量量，d dp p( (k k) )和和y yp p( (k k) )分分别别为为输输入入

38、学学习习样样本本X Xp p( (k k) ) 的实际类别值的实际类别值( (d dp p取取 +1+1或或 11) )和当前神经元的输出和当前神经元的输出( (- -11 y ypp100，将此结果代入到，将此结果代入到(2-40)(2-40)，得到：，得到：此结果说明，按照学习算法：此结果说明，按照学习算法：迭代求最佳的迭代求最佳的WW，每一步都在向着，每一步都在向着J(k)J(k)减小的方向前行，而减小的方向前行，而J(k)J(k)是有界的，是有界的，因此，必然可以达到最小点。这说明了算法的正确性。因此，必然可以达到最小点。这说明了算法的正确性。2024/7/2325前向多层人工神经网

39、络实用的梯度算法实用的梯度算法这里所采用的线性函数神经元的输出为：这里所采用的线性函数神经元的输出为：所以误差公式可以写成：所以误差公式可以写成：于是：于是：对误差平方和取对误差平方和取 w w0 0 和和 w w1 1的偏导数：的偏导数：(2-43)(2-43)代入代入(2-43)(2-43)式得到：式得到：2024/7/2326前向多层人工神经网络二维情况下二维情况下 WW的增量的增量 (2-41)(2-41)式重写如下：式重写如下：已经得到的结果代入，得到：已经得到的结果代入，得到：(2-44)(2-44)迭代算法中权值的修改公式为：迭代算法中权值的修改公式为：(2-45)(2-45)

40、2024/7/2327前向多层人工神经网络最陡梯度法的算法流程：2024/7/2328前向多层人工神经网络实验：线性神经元两类分类CH2e1hardCH2e1hard：两类可分、硬限幅函数；：两类可分、硬限幅函数；CH2e2LMS2dim3sCH2e2LMS2dim3s：分类线过原点的：分类线过原点的2 2维两类可分样本的分类；维两类可分样本的分类；CH2e3LMS2dim2u:CH2e3LMS2dim2u:分类线过原点的分类线过原点的2 2维两类不可分样本的分类；维两类不可分样本的分类；CH2e4LMS2dim3u:CH2e4LMS2dim3u:分类线不过原点的分类线不过原点的2 2维两类不

41、可分样本的分类；维两类不可分样本的分类；误差只有最小，没有误差只有最小，没有0 0。即使。即使完全分正确了，误差也不会为完全分正确了，误差也不会为0 0。原原因因是是，理理想想分分类类函函数数值值为为1 1或或-1-1，而而实实际际计计算算的的误误差差是是样样本本X X和和WW的的内内积积，不不同同的的X X不不可可能能得得到到同同样样内内积。因此，误差始终存在。积。因此，误差始终存在。误误差差最最小小时时，对对应应于于分分类类线线处处于于样样本本中中心心连连线线的的平平分分线线上上，此此时时，每每个个样样本本的的“矩矩”之之和和最最小小，必必然然也也是是误误差差最最小小点点。从从这这个个意意义义上上讲讲，这这种种算算法法得得到到的的分分类类函函数数，是是“最最优优”的。的。2024/7/2329前向多层人工神经网络前向多层人工神经网络

展开阅读全文

前向多层人工神经网络

最新文档