前向多层人工神经网络课件

资源描述

《前向多层人工神经网络课件》由会员分享，可在线阅读，更多相关《前向多层人工神经网络课件（29页珍藏版）》请在金锄头文库上搜索。

1、2020/9/1,第1页,第二章前向多层人工神经网络, 2.1 概述 ANN的主要功能之一模式识别 ( Pattern Recognition ),模式识别是人类的一项基本智能行为，在日常生活中，我们几乎时刻在进行着“模式识别”。,模式：,广义地说，存在于时间和空间中可观察的事物，如果可以区别它们是否相同或相似，都可以称之为模式；,狭义地说，模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息；,模式类：把模式所属的类别或同一类中模式的总体称为模式类(或简称为类);,模式识别：在一定量度或观测基础上把待识模式划分到各自的模式类中去的过程叫作模式识别；,模式识别对表征事物或

2、现象的各种形式的（数值的，文字的和逻辑关系的）信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程，是信息科学和人工智能的重要组成部分。,买西瓜：西瓜可分为生、熟两类，此时，研究的范畴是“西瓜”，在此范畴上定义了两类模式：熟瓜和生瓜；种西瓜：西瓜分早熟品种、晚熟品种两类，即定义了两类模式：早熟和晚熟；河北省早熟品种分类：河北省常见品种有“新红宝”、“蜜梅”、“京欣”、“冀早2号”等；此时，研究范畴是“河北常见早熟西瓜品种”，在此范畴上定义了多类模式：新红宝、蜜梅、京欣、冀早2号等等,买西瓜：两类模式分类问题，通过声音的频率x1和声音持续时间长度x2来判断瓜的生熟。对编号为 i

3、的瓜进行敲击测试，得到矢量元素 Xi=(x1i，x2i) T ，对N个有生有熟的瓜进行实验可以得到N个数据：X=X1,X2,X3,XN ，根据瓜的生熟可以将X中的元素划分为两类，一类对应于生瓜一类对应于熟瓜。于是，模式其实就是具有特定性质的矢量/数据。用C1代表生瓜类，C2代表熟瓜类，则X中的任意一个元素Xn必然满足: Xn属于C1或者Xn属于C2。,2020/9/1,第2页,模式识别，举例：水果分级系统。,水果品质参数：重量、大小、比重、果形、颜色等,特征矢量：X = x1, x2, x3, x4, x5T,特征空间：用参数张成。,模式：每个苹果为一个模式，其特征矢量为特征空间中的一个点

4、；,模式类：一个级别为一个类，一类模式分布在特征空间的某个特定区域；,模式识别：找出各类之间的分界面。,2020/9/1,第3页,ANN的主要功能之二联想 ( Associative Memory ),联想的心理学定义：当一个事物的表象被激活时，也就是说该表象所包含的若干属性单元同时有效时，我们的注意力焦点就集中在这个表象上，如果对该表象的处理使的表象被否决时，也就是说由于一些属性单元的失效（或被抑制，或处于高阻），导致该表象无法成立的时候，剩余的属性单元或许可以构成另一种事物的表象，或许还需要结合那些被激活了的新的属性（或是由外界事物具有的新的属性所激活，或是因降低了对一些属性的抑制所

5、导致的激活）。,例如：看到柠檬，感觉到嘴里口水增多。因为，由柠檬联想到了酸味。,字符识别：,2020/9/1,第4页,再论模式识别：对表征事物或现象的各种形式的（数值的、文字的或逻辑的）信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程称为“模式识别”，是信息科学和人工智能的重要组成部分。,人在分辨不同类别的事物时，抽取了同类事物之间的相同点以及不同类事物之间的不同点；,字符识别：例如汉字“中”可以有各种写法，但都属于同一类别。更为重要的是，即使对于某个“中”的具体写法从未见过，也能把它分到“中”这一类别。识别目标：人们走向一个目的地的时候，总是在不断的观察周围的景物，判断所

6、选择的路线是否正确。实际上，是对眼睛看到的图象做 “正确”和“不正确”的分类判断。人脑的这种思维能力就构成了“模式”的概念和“模式识别”的过程。,模式是和类别（集合）的概念分不开的，只要认识这个集合的有限数量的事物或现象，就可以识别这个集合中的任意多的事物或现象。为了强调能从具体的事物或现象中推断出总体，我们就把个别的事物或现象称作“模式”，而把总体称作类别或范畴。,特征矢量：最简单的情况是用一组称为“特征参数”的数值信息表示一个客观对象。例如，水果品质分类中用到的大小、重量、比重、果型、颜色，其取值均为数值。表示成特征矢量形式：Xi = xi1, xi2, xi3, xi4, xi5 ；

7、样本：对一个具体对象进行观测得到的一个特征矢量称为一个“样本”， Xi 称为第i个样本，或者第i个样本的特征矢量。特征空间：即特征矢量张成的空间，每个样本对应于特征空间上的一点。,针对一个具体的模式识别问题，选定特征参数非常重要，关乎模式识别的成败。著名国际大师傅京孙教授曾说过模式识别问题的关键是特征提取。特征参数应能区分所定义的模式，同时有没有过多的重复，即：完备而不冗余。选定特征参数的过程称“为特征提取”。特征提取没有统一的方法，事实上，特征提取是一个不同专业领域范畴内的问题。正因为如此，模式识别应用问题往往是跨专业领域的工程。,傅京孙(19301985)丽水县城人。1954年毕业于台湾

8、大学电机系获学士学位，后留学加拿大多伦多大学获应用科学硕士学位，1956年转入美国伊利诺斯大学，获博士学位。1961年起任美国普渡大学电机工程系助教、副教授、教授，加州大学柏克莱分校及斯坦福大学访问教授。1971年起当选为美国电机工程学会荣誉会员。同年得顾根汉基金研究奖助金。1975年起任普渡大学高斯工程讲座教授。以后开设概率论，创立图形识别科学，影像处理及其在遥测、医学方面的应用，曾任第一届国际图形识别会议主席。1976年当选为美国国家工程学院院士，获得麦考艾科学贡献奖。1977年获得美国计算机学会杰出论文奖。1978年任台湾“中央研究院”院士。,2020/9/1,第5页,模式类：特征参数选

9、择合理时，不同类的模式，在特征空间中占据不同的分布区域；,模式识别所要做的事情，包含两个方面：在不同类别样本点集之间，寻找合理的分界面，或称作“判别函数（Decision Function）” 因为判别函数来自于实际观测数据，因此称此阶段为 “学习” 或 “训练” ；给定未知模式，判断该样本所属类别，称为“工作”或“应用”。,特征选择的好坏是模式识别成败的关键，但如何选择“特征”，即，选择什么物理量作为特征，是具体专业“领域”的问题，需要运用“领域”的专业知识来解决。例如，语音识别，如何从自然语音中提取“特征”，是语音识别的专业问题；图象识别，如何从CCD图象获取适当的特征，是图象处理领

10、域的问题，即使在图象处理领域，不同应用目的所取的特征也不同。模式识别的全过程，应该包括特征提取阶段。但是，我们这里将要讲到的有关智能方法，都只涉及到特征提取之后的工作。,以上所说的 “学习” 或 “训练”，是根据若干已知样本在空间找到合适的分类面。对于一个样本Xi，用yi表示它所属的类别，例如，它属于第k类。样本已知，意思是Xi ， yi已知。这种“学习”又称为“有监督”学习，即，通过对已知样本Xi ，yi的学习找到合理的判别函数。所谓“工作”，指的是给定类别未知的样本Xi ，求yi 的值。Xi是对某个客观对象观测的结果，其取值无法事先限定。但类别yi的取值是离散的、有限的，是事先主观规定

11、的。,2020/9/1,第6页,神经元模型,神经元的输入：,所完成的运算为：,式中：,称为神经元的“权值矢量”；,称为神经元的“功能函数”；,称为神经元的“净输入”；,称为神经元的“输出”；,称为神经元的“阈值”；,2020/9/1,第7页,常用的神经元功能函数类型,线性函数,又称为“恒同函数”,硬限幅函数,S函数(Sigmoid),fs 取值于0,1之间。,2020/9/1,第8页,前项人工神经网络的拓扑结构,前层的输出作为后层的输入；,各层的神经元个数可以不同；,层数两层以上，目前大多为3层；,输入矢量X代表从客观对象观测得到的特征；输出层包含一个或多个神经元，用于表达更为复杂的运算结果；

12、,同层神经元不能连接，后层不能向前层反向连接；,连接强度（即，权值大小）可以为0，强度为0实际上就是没有连接；,2020/9/1,第9页,2.2 采用硬限幅函数时单个神经元的分类功能,线性可分性( Linear Separable ),设有C0和C1两类模式 R0：C0类模式的样本集； R1：C1类模式的样本集；,分类的第一步：在两类样本分布区域之间寻找一个分类函数（分类线、面）使得两类样本各处在一边；,实现这一目标的过程，称为“学习”或“训练”，所用到的计算策略称为“学习算法”；样本集合R0和R1称为学习样本集合。,分类的第二步：当获得了分类函数 l 以后，就可以进入工作阶段了。任给未知模式

13、X，若它位于R0一侧，则判定其为C0类；若它位于R1一侧，则判定其为C1类；若它落在分类线l 上，则不可识别。,给定两类C0和C1的学习样本集合R0和R1，若存在线性分类函数（直线、平面、超平面）l，将两类学习样本无误差地分开，则称该分类问题为“线性可分问题”。,2020/9/1,第10页,假设，二维分类问题的分类函数为 l：,任给样本 X = x1, x2 ，l 应该满足：,令：,则模式识别问题可以表达成：,把看作权值，看作阈值，用一个神经元来表示以上二维分类问题，则：,其中：X = x1, x2是任意样本，W=w0, w1是权值矢量。 WT.X q = w0.x0 + w1.x1 q

14、 =0 是直线的矢量方程，若W为单位矢量，即： w02 + w12 = 1 则 q 的意义如图所示。,2020/9/1,第11页,学习算法,将输入矢量 X 和权矢量 W 作如下扩张：,神经元模型成为：,(2-7),学习的目的，就是要找到权矢量W。对于前面的例子，就是寻找能够无误差分开两类样本的直线参数 w0, w1, q。学习是针对给定的学习样本集合进行的，不同的样本集合可以得到不同的学习结果。对于两类可分问题，能够无误差地分开学习样本的结果都是正确的。,2020/9/1,第12页,设二维分类问题，有学习样本：,其中,训练样本 k ；,训练样本的值；,起初，我们随意指定一个权矢量：,这相当于

15、在特征空间上随意画了一条线。向神经元输入一个样本X(k)，用y(k)表示得到的输出，显然y(k)不一定等于X(k)的实际类别值d(k)，令：,若 fh 为硬限幅函数，则必有：,(2-29),2020/9/1,第13页,学习算法：为了找到正确的W，依次向神经元输入学习样本X(k)，k = 0, 1, 2, ，并且依照误差e (k)的正负来修正W ：,式中a 称为“步幅”，用来控制每次调整的步长。如此不断重复，W(k)随着迭代次数k的增加，逐渐趋于正确答案。,( 2-7 ),若输出y (k)与样本类别值d (k)相同，即，则: W(k+1)=W(k)，不调整W。,若输出y(k)与样本类别值d

16、(k)不同，即，则: W 根据 e (k)的正负被调整；,2020/9/1,第14页,算法的几何原理：,为直观起见，设：理想分类线过原点，即：，阈值q 为0。,训练样本：,权值矢量：,由直线方程可知，W(k)是直线 l 的法线，即:,若，X恰好位于 l 上，则：,若，Xa位于 l 上方，则：,若，Xb位于 l 下方，则：,2020/9/1,第15页,假设已经输入了k个样本，运行到了第 k 步，当前的权值W(k)。假设输入 X(k) 得到y(k)=1，但给定的 X(k)属于C1类，即，d(k) = 0 ，则：,于是，有：,可见，分类线 l 得到了合理的调整。,再假设，接下来输入的X(k+1)属于 C0类，即d(k) = 1，被错分为C1类，即，由X(k+1) 和W(k+1)计算得到 y(k+1)=0 ：,于是，有：,错把 C1 当 C0 ;,2020/9/1,第16页,2.3 线性函数神经元的最小二乘分类算法,线性不可分,在误差最小的前提下，寻找分类函数

展开阅读全文