前向多层人工神经网络01

资源描述

《前向多层人工神经网络01》由会员分享，可在线阅读，更多相关《前向多层人工神经网络01（30页珍藏版）》请在金锄头文库上搜索。

1、*第 1 页第二章前向多层人工神经网络 2.1 概述 ANN的主要功能之一模式识别 ( Pattern Recognition )模式识别是人类的一项基本智能行为，在日常生活中，我们几乎时刻在进行着“模式识别”。模式：广义地说，存在于时间和空间中可观察的事物，如果可以区别它们是否相同或相似，都可以称之为模式；狭义地说，模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息；模式类：把模式所属的类别或同一类中模式的总体称为模式类; 模式识别：在一定量度或观测基础上把待识模式划分到各自的模式类中去的过程叫作模式识别；模式识别对表征事物或现象的各种形式的（数值的，文字的

2、和逻辑关系的）信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程，是信息科学和人工智能的重要组成部分。买买西瓜：西瓜可分为为生、熟两类类，此时时，研究的范畴是“西瓜”，在此范畴上定义义了两类类模式：熟瓜和生瓜；种西瓜：西瓜分早熟品种、晚熟品种两类类，即定义义了两类类模式：早熟和晚熟；河北省早熟品种分类类：河北省常见见品种有“新红红宝”、“蜜梅”、“京欣”、“冀早2号”等；此时时，研究范畴是“河北常见见早熟西瓜品种”，在此范畴上定义义了多类类模式：新红红宝、蜜梅、京欣、冀早2号等等买西瓜：两类模式分类问题，通过声音的频率x1和声音持续时间长度x2来判断瓜的生熟。对编号为 i

3、的瓜进行敲击测试，得到矢量元素 Xi=(x1i，x2i) T ，对N个有生有熟的瓜进行实验可以得到N个数据：X=X1,X2,X3,XN ，根据瓜的生熟可以将X中的元素划分为两类，一类对应于生瓜一类对应于熟瓜。于是，模式其实就是具有特定性质的矢量/数据。用C1代表生瓜类，C2代表熟瓜类，则X中的任意一个元素Xn必然满足: Xn属于C1或者Xn属于C2。*第 2 页模式识别，举例：水果分级系统。水果品质参数：重量、大小、比重、果形、颜色等特征矢量：X = x1, x2, x3, x4, x5T特征空间：用参数张成。模式：每个苹果为一个模式，其特征矢量为特征空间中的一个点；模式类：一个级别为一

4、个类，一类模式分布在特征空间的某个特定区域；模式识别：找出各类之间的分界面。*第 3 页 ANN的主要功能之二联想 ( Associative Memory )联想的心理学定义：当一个事物的表象被激活时，也就是说该表象所包含的若干属性单元同时有效时，我们的注意力焦点就集中在这个表象上，如果对该表象的处理使得表象被否决时，也就是说由于一些属性单元的失效（或被抑制，或处于高阻）导致该表象无法成立的时候，剩余的属性单元或许可以构成另一种事物的表象，或许还需要结合那些被激活了的新的属性（或是由外界事物具有的新的属性所激活，或是因降低了对一些属性的抑制所导致的激活）。例如：看到柠檬，感觉到嘴里口水增

5、多。因为，由柠檬联想到了酸味。字符识别：*第 4 页再论模式识别：对表征事物或现象的各种形式的（数值的、文字的或逻辑的）信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程称为“模式识别”，是信息科学和人工智能的重要组成部分。 v 人在分辨不同类别的事物时，抽取了同类事物之间的相同点以及不同类事物之间的不同点；字符识别：例如汉字“中”可以有各种写法，但都属于同一类别。更为重要的是，即使对于某个“中”的具体写法从未见过，也能把它分到“中”这一类别。识别目标：人们走向一个目的地的时候，总是在不断的观察周围的景物，判断所选择的路线是否正确。实际上，是对眼睛看到的图象做 “正确

6、”和“不正确”的分类判断。人脑的这种思维能力就构成了“模式”的概念和“模式识别”的过程。模式是和类别（集合）的概念分不开的，只要认识这个集合的有限数量的事物或现象，就可以识别这个集合中的任意多的事物或现象。为了强调能从具体的事物或现象中推断出总体，我们就把个别的事物或现象称作“模式”，而把总体称作类别或范畴。特征矢量：最简单的情况是用一组称为“特征参数”的数值信息表示一个客观对象。例如，水果品质分类中用到的大小、重量、比重、果型、颜色，其取值均为数值。表示成特征矢量形式：Xi = xi1, xi2, xi3, xi4, xi5 ；样本：对一个具体对象进行观测得到的一个特征矢量称为一个“样本

7、”， Xi 称为第i个样本，或者第i个样本的特征矢量。特征空间：即特征矢量张成的空间，每个样本对应于特征空间上的一点。针对一个具体的模式识别问题，选定特征参数非常重要，关乎模式识别的成败。著名大师傅京孙教授曾说过模式识别问题的关键是特征提取。特征参数应能区分所定义的模式，同时有没有过多的重复，即：完备而不冗余。选定特征参数的过程称“为特征提取”。特征提取没有统一的方法，事实上，特征提取是一个不同专业领域范畴内的问题。正因为如此，模式识别应用问题往往是跨专业领域的工程。*第 5 页模式类：特征参数选择合理时，不同类的模式，在特征空间中占据不同的分布区域；模式识别所要做的事情，包

8、含两个方面：1.在不同类别样本点集之间，寻找合理的分界面，或称作“判别函数（Decision Function）” 因为判别函数来自于实际观测数据，因此称此阶段为 “学习” 或 “训练” ；2.给定未知模式，判断该样本所属类别，称为“工作”或“应用”。特征选择的好坏是模式识别成败的关键，但如何选择“特征”，即，选择什么物理量作为特征，是具体专业“领域”的问题，需要运用“领域”的专业知识来解决。例如，语音识别，如何从自然语音中提取“特征”，是语音识别的专业问题；图象识别，如何从CCD图象获取适当的特征，是图象处理领域的问题，即使在图象处理领域，不同应用目的所取的特征也不同。模式识别的全过

9、程，应该包括特征提取阶段。但是，我们这里将要讲到的有关智能方法，都只涉及到特征提取之后的工作。以上所说的 “学习” 或 “训练”，是根据若干已知样本在空间找到合适的分类面。对于一个样本Xi，用yi表示它所属的类别，例如，它属于第k类。样本已知，意思是Xi ， yi已知。这种“学习”又称为“有监督”学习，即，通过对已知样本Xi ，yi的学习找到合理的判别函数。所谓“工作”，指的是给定类别未知的样本Xi ，求yi 的值。Xi是对某个客观对象观测的结果，其取值无法事先限定。但类别yi的取值是离散的、有限的，是事先主观规定的。*第 6 页神经元模型神经元的输入：所完成的运算为：式中：称为神经元

10、的“权值矢量”；称为神经元的“功能函数”；称为神经元的“净输入”；称为神经元的“输出”；称为神经元的“阈值”；*第 7 页常用的神经元功能函数类型线性函数又称为“恒同函数” 硬限幅函数 S函数(Sigmoid)fs 取值于0,1之间。*第 8 页前项人工神经网络的拓扑结构前层的输出作为后层的输入；各层的神经元个数可以不同；至少一层，一般最多为3层；输入矢量X代表从客观对象观测得到的特征；输出层包含一个或多个神经元，用于表达更为复杂的运算结果；同层神经元不能连接，后层不能向前层反向连接；连接强度（即，权值大小）可以为0，强度为0实际上就是没有连接；*第 9 页2.2 采

11、用硬限幅函数时单个神经元的分类功能线性可分性( Linear Separable )设有C0和C1两类模式R0：C0类模式的样本集； R1：C1类模式的样本集；学习（训练）：在给定的两类学习样本分布区域之间寻找一个分类函数（分类线、面）使得两类样本各处在一边；实现这一目标的过程，称为“学习”或“训练”，所用到的计算策略称为“学习算法”；样本集合R0和R1称为学习样本集合。工作：当获得了分类函数 l 以后，就可以进入工作阶段了。任给未知模式X，若它位于R0一侧，则判定其为C0类；若它位于R1一侧，则判定其为C1类；若它落在分类线l 上，则不可识别。给定两类C0和C1的学习样本集合R0和R1，若

12、存在线性分类函数（直线、平面、超平面）l，将两类学习样本无误差地分开，则称该分类问题为“线性可分问题”。*第 10 页假设，二维分类问题的分类函数为 l：任给样本 X = x1, x2 ，l 应该满足：令：则模式识别问题可以表达成：把看作权值，看作阈值，用一个神经元来表示以上二维分类问题，则：任意输入一个模式 X，若X属于C0则 y = 1；若X属于C1则 y = 0；其中：X = x1, x2是任意样本，W=w0, w1是权值矢量。WT.X q = w0.x0 + w1.x1 q =0 是直线的矢量方程，若W为单位矢量，即： w02 + w12 = 1 则 q 的意义如图所示。为了

13、便于表达，这里用矢量方程表示线性分类线或分类面。*第 11 页学习算法将输入矢量 X 和权矢量 W 作如下扩张：神经元模型成为：(2-7) 学习的目的，就是要找到权矢量W。对于前面的例子，就是寻找能够无误差分开两类样本的直线参数 w0, w1, q，注意：其中包含了直线方程的所有参数。学习是针对给定的学习样本集合进行的，不同的学习样本集合可以得到不同的学习结果。即使用同一学习样本集合进行学习，多次学习的结果也可能不同，也就是说分类问题的解不唯一。*第 12 页设二维分类问题，有学习样本：其中训练样本 k ；该样本的类别值；起初，我们随意指定一个权矢量：这相当于在特征空间上随意画了一条线

14、。向神经元输入一个样本X(k)，用y(k)表示得到的输出，显然y(k)不一定等于X(k)的实际类别值d(k)，令：fh 为硬限幅函数，则e 的取值有三种可能：(2-29)*第 13 页学习算法：为了找到正确的W，依次向神经元输入学习样本X(k)，k = 0, 1, 2, ，并且依照误差e (k)的正负来修正W ：式中a 称为“步幅”，用来控制每次调整的步长。如此不断重复，W(k)随着迭代次数k的增加，逐渐趋于正确答案。( 2-7 ) 若输出y (k)与样本类别值d (k)相同，即，则:W(k+1)=W(k)，不调整W。若输出y(k)与样本类别值d (k)不同，即，则:W 根据 e (

15、k)的正负被调整；*第 14 页算法的几何原理：为直观起见，设：理想分类线过原点，即：，阈值q 为0。训练样本：权值矢量：由直线方程可知，W(k)是直线 l 的法线。分类函数为直线 l : 若，X恰好位于 l 上，则：若，Xa位于 l 上方，则：若，Xb位于 l 下方，则：*第 15 页假设已经输入了k个样本，运行到了第 k 步，当前的权值W(k)。假设输入 X(k) 得到y(k)=1，但给定的 X(k)属于C1类，即，d(k) = 0 ，则：于是，有：可见，分类线 l 得到了合理的调整。再假设，接下来输入的X(k+1)属于 C0类，即d(k) = 1，被错分为C1类，即，由X(k+1) 和W(k+1)计算得到 y(k+1)=0 ：于是，有：错把 C1 当 C0 ;实验：CH2e1hard，两类可分、硬限幅函数；*第 16 页2.3 线性函数神经元的最小二乘分类算法线性不可分给定样本集，其中寻找一个分类函数，使得分类误差最小最优分类函数优化问题的一般形式：*第 17 页x y-0.4325 0.2552-1.665 -0.21190.1253 -1.8050.2876 -1.539-1.146 -0.5313

展开阅读全文