AI计算智能资料实用教案

上传人:s9****2 文档编号:571280195 上传时间:2024-08-09 格式:PPT 页数:83 大小:2.12MB
返回 下载 相关 举报
AI计算智能资料实用教案_第1页
第1页 / 共83页
AI计算智能资料实用教案_第2页
第2页 / 共83页
AI计算智能资料实用教案_第3页
第3页 / 共83页
AI计算智能资料实用教案_第4页
第4页 / 共83页
AI计算智能资料实用教案_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《AI计算智能资料实用教案》由会员分享,可在线阅读,更多相关《AI计算智能资料实用教案(83页珍藏版)》请在金锄头文库上搜索。

1、内内容容第第5 5章章 计算计算(j (j sun)sun)智能智能1 1、概述、概述(i (i sh)sh)2 2、神经网络、神经网络3 3、模糊、模糊(m (m hu)hu)计算计算4 4、遗传算法、遗传算法第1页/共82页第一页,共83页。 现代科技发展的一个显著特点就是学科间的交叉、渗透现代科技发展的一个显著特点就是学科间的交叉、渗透和促进。和促进。( (如生物信息学如生物信息学) ) 计算智能计算智能(zh nn)(zh nn)是另一个有说服力的示例。是另一个有说服力的示例。 计算智能计算智能(zh nn)(zh nn)涉及神经计算、模糊计算、进化计涉及神经计算、模糊计算、进化计算、

2、粒群计算、蚁群计算、自然计算、免疫计算和人工生命算、粒群计算、蚁群计算、自然计算、免疫计算和人工生命等领域。等领域。 反映了多学科交叉与集成的发展趋势。反映了多学科交叉与集成的发展趋势。5.1 5.1 概概述述(i (i sh)sh)第2页/共82页第二页,共83页。 通过人工方法模仿人类智能已有很长历史(如仿生学的众多成果)通过人工方法模仿人类智能已有很长历史(如仿生学的众多成果), ,都是人都是人类人工模仿智能的典型例证,而现代人工智能领域则力图抓住智能的本质。类人工模仿智能的典型例证,而现代人工智能领域则力图抓住智能的本质。 人工神经网络(人工神经网络(ANNANN)主要是通过)主要是通

3、过HopfieldHopfield网络的促进和反向传播网络的促进和反向传播(BP)(BP)网络网络训练多层感知器来推广的,将神经网络训练多层感知器来推广的,将神经网络(NN)(NN)归类于人工智能可能不太合适,而归归类于人工智能可能不太合适,而归类于计算智能(类于计算智能(CICI)应更能说明问题实质。)应更能说明问题实质。 进化进化(jnhu)(jnhu)计算、人工生命和模糊逻辑系统的某些课题,也都归类于计算、人工生命和模糊逻辑系统的某些课题,也都归类于计算智能。计算智能。第3页/共82页第三页,共83页。 第一个对计算智能的定义由贝兹德克(第一个对计算智能的定义由贝兹德克(BezdekBe

4、zdek)于)于19921992年提出。年提出。他认为,从严格意义上讲,计算智能取决于制造者提供的数据数值,他认为,从严格意义上讲,计算智能取决于制造者提供的数据数值,而不依赖于知识;另一方面,人工智能则应用而不依赖于知识;另一方面,人工智能则应用(yngyng)(yngyng)知识。知识。 他认为,人工神经网络应当称为计算神经网络。他认为,人工神经网络应当称为计算神经网络。第4页/共82页第四页,共83页。 尽管计算智能与人工智能的界限并不十分明显,但讨论它们的区别和联系尽管计算智能与人工智能的界限并不十分明显,但讨论它们的区别和联系是有必要的。是有必要的。 贝兹德克对相关术语给予一定的符号

5、和简要贝兹德克对相关术语给予一定的符号和简要(jinyo)(jinyo)说明或定义。说明或定义。他给出有趣的他给出有趣的ABCABC:A AArtificialArtificial,表示人工的(非生物的),即人造的。,表示人工的(非生物的),即人造的。B BBiologicalBiological,表示物理的化学的,表示物理的化学的(?)(?)生物的。生物的。C CComputationalComputational,表示数学计算机。,表示数学计算机。第5页/共82页第五页,共83页。ABC与神经网络与神经网络(NN)、模式识别、模式识别(PR)和智能和智能(I)之间的关系之间的关系:可看出:

6、计算可看出:计算(j sun)(j sun)智能是一种智力方式的低层认知,它与人工智能的区别只智能是一种智力方式的低层认知,它与人工智能的区别只 是认知层次从中层下降至低层而已,中层系统含有知识是认知层次从中层下降至低层而已,中层系统含有知识) ),而,而 低层系统则没有。低层系统则没有。第6页/共82页第六页,共83页。 当一个系统当一个系统(xtng)(xtng)只涉及数值只涉及数值( (低层低层) )数据,含有模式识别部分,数据,含有模式识别部分,不使用人工智能意义上的知识不使用人工智能意义上的知识, ,且具有计算适应性、计算容错性、接近且具有计算适应性、计算容错性、接近人的速度、人的速

7、度、 近似于人的误差率这近似于人的误差率这4 4个特性,则该系统个特性,则该系统(xtng)(xtng)就是计就是计算智能系统算智能系统(xtng)(xtng)。 一个计算智能系统一个计算智能系统(xtng)(xtng)以非数值方式加上知识值,即成为人工以非数值方式加上知识值,即成为人工智能系统智能系统(xtng)(xtng)。从学科范畴看:从学科范畴看: 计算智能是在神经网络计算智能是在神经网络(NN(NN)、进化计算)、进化计算(EC(EC)及模糊系统)及模糊系统(xtng)(FS(xtng)(FS)这三个领域发展相对成熟的基础上,形成的一个统一的)这三个领域发展相对成熟的基础上,形成的一

8、个统一的学科概念。学科概念。1 1、什么、什么(shn me)(shn me)是是计算智能计算智能第7页/共82页第七页,共83页。Computational IntelligenceDarwin PrincipleCollective Behavior of Society Neural NetworkEvolutionaryComputationFuzzySystemOthersGenetic AlgorithmEvolutionary StrategyEvolutionary programmingGenetic ProgrammingParticle SwarmAntArtificia

9、l System第8页/共82页第八页,共83页。神经网络神经网络 对人类智能的结构模拟方法。通过对大量人工神经元的对人类智能的结构模拟方法。通过对大量人工神经元的广泛并行广泛并行互联,构造人工神经网络系统以模拟生物神经系统的智能机互联,构造人工神经网络系统以模拟生物神经系统的智能机理。理。进化进化(jnhu)(jnhu)计算计算 对人类智能的演化模拟方法。通过对生物遗传和演化过对人类智能的演化模拟方法。通过对生物遗传和演化过程的认识程的认识, ,用进化用进化(jnhu)(jnhu)算法模拟人类智能的进化算法模拟人类智能的进化(jnhu)(jnhu)规律。规律。模糊计算模糊计算 对人类智能的逻

10、辑模拟方法,通过对人类处理模糊现象对人类智能的逻辑模拟方法,通过对人类处理模糊现象认知能力认知能力的认识,用模糊逻辑模拟人类的智能行为。的认识,用模糊逻辑模拟人类的智能行为。第9页/共82页第九页,共83页。 计算智能不仅涉及神经网络、模糊系统和进化计算智能不仅涉及神经网络、模糊系统和进化(jnhu)计算三个计算三个主要分支,还包括:主要分支,还包括:粒子群算法粒子群算法蚁群算法蚁群算法人工免疫系统人工免疫系统人工生命人工生命模拟退火算法模拟退火算法粗集理论与粒度粗集理论与粒度(l d)计算计算支持向量机支持向量机量子量子(lingz)(lingz)计计算算DNADNA计算计算智能智能agen

11、tagent第10页/共82页第十页,共83页。生物智能生物智能 (Biological Intelligence (Biological Intelligence,BI)BI) 由脑的物理化学过程反映出来的由脑的物理化学过程反映出来的, , 脑智能的基础。脑智能的基础。人工智能人工智能 (Artificial Intelligence (Artificial Intelligence,AI)AI) 非生物的非生物的, ,人造的人造的, ,常用符号表示,来源于人类知识的常用符号表示,来源于人类知识的精华。精华。计算计算(j sun)(j sun)智能智能 (Computational Inte

12、lligence (Computational Intelligence,CI)CI) 由数学方法和计算由数学方法和计算(j sun)(j sun)机实现的,来源于数值机实现的,来源于数值计算计算(j sun)(j sun)的传感器。的传感器。ABCABC: Artificial Artificial Biological Biological Computational Computational2 2、关系、关系(gun x)(gun x)第11页/共82页第十一页,共83页。另一种观点:计算智能和人工智能是不同的范畴。另一种观点:计算智能和人工智能是不同的范畴。 虽然人工智能与计算智能之

13、间有重合,但计虽然人工智能与计算智能之间有重合,但计算算 智能是一个全新的学科智能是一个全新的学科(xuk)(xuk)领域,无论领域,无论是生物智能是生物智能 还是机器智能,计算智能都是其最核心的部还是机器智能,计算智能都是其最核心的部分分, , 而人工智能则是外层。而人工智能则是外层。 实践证明,只有将实践证明,只有将AIAI和和CICI很好地结合起来,才能更好很好地结合起来,才能更好地地模拟人类智能,才是智能科学发展的正确方向。模拟人类智能,才是智能科学发展的正确方向。第12页/共82页第十二页,共83页。内容提要内容提要(ni rn t yo)第第5 5章章 计算计算(j (j sun)

14、sun)智能智能1 1、概述、概述(i (i sh)sh)2 2、神经计算、神经计算3 3、模糊计算、模糊计算4 4、遗传算法、遗传算法第13页/共82页第十三页,共83页。5.2 5.2 神经计算神经计算 以神经网络以神经网络(wnglu)(wnglu)为基础的计算。为基础的计算。 广义上,神经网络广义上,神经网络(wnglu)(wnglu)可泛指生物神经网络可泛指生物神经网络(wnglu)(wnglu),也可指人工神,也可指人工神经网络经网络(wnglu)(wnglu)。 人工神经网络人工神经网络(wnglu)(wnglu)(Artificial Neural NetworkArtific

15、ial Neural Network)是)是指模拟人指模拟人脑神经系统的结构和功能,运用大量的处理部件,由人工方脑神经系统的结构和功能,运用大量的处理部件,由人工方式建立起来的网络式建立起来的网络(wnglu)(wnglu)系统。系统。 人脑是人脑是ANNANN的原型,的原型,ANNANN是对人脑神经系统的模拟。是对人脑神经系统的模拟。人工智能领域中,在不引起混淆的情况下,神经网络人工智能领域中,在不引起混淆的情况下,神经网络(wnglu)(wnglu)一一般都般都指的都是指的都是ANNANN。第14页/共82页第十四页,共83页。 现代计算机虽有很强的计算和信息处理能力,但解决现代计算机虽有

16、很强的计算和信息处理能力,但解决像模式识别、感知、评判和决策等复杂问题的能力却远远像模式识别、感知、评判和决策等复杂问题的能力却远远不及人。特别是其只能不及人。特别是其只能(zh nn)(zh nn)按人预先编好的程序机按人预先编好的程序机械地执行,械地执行,缺乏向环境学习、适应环境的能力。缺乏向环境学习、适应环境的能力。第15页/共82页第十五页,共83页。 人脑是由大量的基本单元(神经元)经过复杂的互连人脑是由大量的基本单元(神经元)经过复杂的互连而构成的一种高度复杂、非线性、并行处理的信息处理系而构成的一种高度复杂、非线性、并行处理的信息处理系统统, ,单个神经元的反应速度在毫秒级,比起

17、计算机的基本单单个神经元的反应速度在毫秒级,比起计算机的基本单元元-逻辑门(反应时间在逻辑门(反应时间在10-9s10-9s量级)慢量级)慢5 56 6个数量个数量(shling)(shling)级。但级。但由于人脑的神经元数量由于人脑的神经元数量(shling)(shling)巨大(约为巨大(约为10101010个),个),每个神经元可每个神经元可与几千个其他神经元连接(总连接数约为与几千个其他神经元连接(总连接数约为6101361013),因而),因而对有些问题的处理速度反而比计算机要快得多,且能耗要对有些问题的处理速度反而比计算机要快得多,且能耗要低得多。由此可见,人脑的性能要比现代计算

18、机高得多。低得多。由此可见,人脑的性能要比现代计算机高得多。第16页/共82页第十六页,共83页。 所谓人工神经网络,是模仿人脑工作方式而设计的一所谓人工神经网络,是模仿人脑工作方式而设计的一种机器,可用电子种机器,可用电子(dinz)(dinz)或光电元件实现,也可用软件在常规或光电元件实现,也可用软件在常规计计算机上仿真。算机上仿真。 或者说是一种具有大量连接的并行分布处理器,具有或者说是一种具有大量连接的并行分布处理器,具有通过学习获取知识并解决问题的能力,且知识是分布存储通过学习获取知识并解决问题的能力,且知识是分布存储在连接权(对应于生物神经元的突触)中,而不是像常规在连接权(对应于

19、生物神经元的突触)中,而不是像常规计算机那样按地址存储在特定的存储单元中。计算机那样按地址存储在特定的存储单元中。第17页/共82页第十七页,共83页。符号(功能)主义:符号逻辑推理符号(功能)主义:符号逻辑推理联结(结构)主义:人工神经网络联结(结构)主义:人工神经网络行为主义:智能行为模拟,行为主义:智能行为模拟, “ “模式模式(msh)-(msh)-动作动作”联结主义的观点:智能的寓所在大脑皮层,是由大量非联结主义的观点:智能的寓所在大脑皮层,是由大量非线线 性神经元互联而成并行处理的神经性神经元互联而成并行处理的神经网络。网络。人工智能的各种人工智能的各种( zhn)学派:学派:第1

20、8页/共82页第十八页,共83页。 总体而言,人工神经网络(总体而言,人工神经网络(ANNANN)是反映人脑结构及功能的一种)是反映人脑结构及功能的一种抽象数学模型,是由大量神经元节点互连而成的复杂网络,用以模拟人抽象数学模型,是由大量神经元节点互连而成的复杂网络,用以模拟人类进行知识的表示与存储以及利用知识进行推理的行为类进行知识的表示与存储以及利用知识进行推理的行为(xngwi)(xngwi)。 简单地讲,简单地讲,ANNANN是一个数学模型,可用电子电路实现,也可用计是一个数学模型,可用电子电路实现,也可用计算机程序来模拟,是人工智能研究的一种方法。算机程序来模拟,是人工智能研究的一种方

21、法。 人工神经网络力求从四个方面模拟人脑的智能行为人工神经网络力求从四个方面模拟人脑的智能行为(xngwi)(xngwi):物理结构,:物理结构,计计算模拟,存储与操作,训练。算模拟,存储与操作,训练。第19页/共82页第十九页,共83页。5.2.1 5.2.1 人工神经网络研究人工神经网络研究(ynji)(ynji)的进展的进展 1、萌芽期(、萌芽期(20世纪世纪40年代)年代) 1890年,美国生物学家年,美国生物学家W. James首次阐明了有关人脑结构首次阐明了有关人脑结构及其功能及其功能,以及相关学习、联想、记忆的基本规律。以及相关学习、联想、记忆的基本规律。 1943年,心理学家年

22、,心理学家McCulloch和数学家和数学家Pitts建立起了著名建立起了著名(zhmng)的阈值加的阈值加权和模型,简称为权和模型,简称为M-P模型。模型。 1949年,心理学家年,心理学家D.O.Hebb提出,神经元之间突触联系是提出,神经元之间突触联系是可变的假可变的假说说-Hebb学习律。学习律。第20页/共82页第二十页,共83页。2、第一高潮期(、第一高潮期(1950-1968) 以以Minsky,Rosenblatt,Widrow等为代表人物。等为代表人物。 1957年年Rosenblatt定义了一个神经网络结构,称为感知器。将神定义了一个神经网络结构,称为感知器。将神经经网络研

23、究从纯理论的探讨推向工程实现,在网络研究从纯理论的探讨推向工程实现,在IBM计算机上进行了模拟,计算机上进行了模拟,并可用电子线路模拟。并可用电子线路模拟。3、反思期(、反思期(1969-1982) 1969年年Minsky和和Papert在感知机一书中指出感知机的缺陷在感知机一书中指出感知机的缺陷(quxin)(异异或运算不可表示或运算不可表示),使得神经网络的研究从兴起期进入了停滞期。,使得神经网络的研究从兴起期进入了停滞期。 芬兰学者芬兰学者Kohonen提出了自组织映射理论提出了自组织映射理论(SOM),美国学者,美国学者Grossberg提出了自适应谐振理论提出了自适应谐振理论(AR

24、T),这些研究成果对神经网络,这些研究成果对神经网络以后以后的发展产生了重要影响。的发展产生了重要影响。第21页/共82页第二十一页,共83页。4、第二高潮期(、第二高潮期(1983-1990) 1982年,年,Hopfield提出提出Hopfield模型。模型。1984年,年,Hopfield设计设计研制了研制了Hopfield网的电路。较好地解决了著名的网的电路。较好地解决了著名的TSP问题,引起了较大轰问题,引起了较大轰动。动。 1985年,年,Hinton、Sejnowsky、Rumelhart等人在等人在Hopfield网网络中引络中引入随机机制,提出入随机机制,提出Boltzman

25、n机。机。 1986年,年, Rumelhart, Hinton提出多层感知机与反向传播提出多层感知机与反向传播(BP) 学习学习算法,该方法克服了感知器非线性不可分类问题,给神经网络研算法,该方法克服了感知器非线性不可分类问题,给神经网络研究究(ynji)带来带来了新的希望。了新的希望。 1990年年12月中国首届神经网络大会在北京举行。月中国首届神经网络大会在北京举行。第22页/共82页第二十二页,共83页。5、成熟期(、成熟期(1991- ) 平稳发展,应用广泛平稳发展,应用广泛(gungfn),与其他领域的结合:,与其他领域的结合:与进化计算结合、与模与进化计算结合、与模糊逻辑结合、糊

26、逻辑结合、 。 实际应用:计算机视觉、自然语言理解、优化计算、智实际应用:计算机视觉、自然语言理解、优化计算、智能控制等。能控制等。 第23页/共82页第二十三页,共83页。并行分布处理:并行结构,耐故障。并行分布处理:并行结构,耐故障。( (实时、动态实时、动态) )非线性映射:任意非线性映射能力。非线性映射:任意非线性映射能力。( (非线性问题非线性问题) )通过训练进行学习:通过数据记录进行训练,能处理由通过训练进行学习:通过数据记录进行训练,能处理由数学数学 模型或描述规则难以处理的问题。模型或描述规则难以处理的问题。适应与集成:自适应和信息融合能力。适应与集成:自适应和信息融合能力。

27、( (复杂、大规模、复杂、大规模、多变量多变量) )硬件实现硬件实现(shxin)(shxin):快速和大规模处理能力。:快速和大规模处理能力。( (并行处并行处理理) )人工神经网络的特性人工神经网络的特性(txng):第24页/共82页第二十四页,共83页。神经网络的生物学机理。神经网络的生物学机理。、神经元结构包括四个部分、神经元结构包括四个部分 胞体:神经细胞的本体,维持细胞胞体:神经细胞的本体,维持细胞生存生存(shngcn)(shngcn)功能功能 树突:接收来自其他神经元的信号树突:接收来自其他神经元的信号(输入)(输入) 轴突:输出信号轴突:输出信号 突触:与另一个神经元相联系

28、的特突触:与另一个神经元相联系的特殊部位殊部位5.2.2 5.2.2 人工神经网络的结构人工神经网络的结构(jigu)(jigu)第25页/共82页第二十五页,共83页。 一个神经元有两种状态:兴奋、抑制。 平时处于抑制状态的神经元,其树突和胞体接收其它神经元由突触 传来的兴奋电位,多个输入(shr)在神经元中以代数和的方式叠加。 如果输入(shr)的兴奋电位总量超过某个阈值,神经元会被激发进入兴奋 状态,发出输出脉冲,并由突触传递给其他神经元。 神经元被触发后进入不应期,在不应期内不能被触发,然后阈值逐 渐下降,恢复抑制状态。、神经元的基本工作、神经元的基本工作(gngzu)机制(简机制(简

29、化)化)第26页/共82页第二十六页,共83页。 神经元及其连接。 神经元之间的连接强度决定信号传递的强弱。 神经元之间的连接强度可以随训练改变。 信号可以起刺激作用,也可以起抑制作用。 一个(y )神经元接受信号的累积效果决定该神经元的状态。 每个神经元有一个(y )“阈值”。、生物、生物(shngw)神经网络的六个基本神经网络的六个基本特征特征第27页/共82页第二十七页,共83页。MP模型模型(mxng): 一种人工神经元的数学模型一种人工神经元的数学模型(mxng),是最早的神经,是最早的神经元模型元模型(mxng)之一。之一。 是大多数神经网络模型是大多数神经网络模型(mxng)的基

30、础。的基础。 MP模型模型(mxng)示意图:示意图:1 1、神经元及其特性、神经元及其特性(txng)(txng)输入输入输出输出中间状态中间状态第28页/共82页第二十八页,共83页。人工人工(rngng)(rngng)神经元是仿照生物神经元提出的,神经元可以神经元是仿照生物神经元提出的,神经元可以有有N N个输入:个输入:每个输入端与神经元之间有一定的每个输入端与神经元之间有一定的连接权值连接权值:神经元神经元总的输入总的输入为对每个输入的为对每个输入的加权求和加权求和,同时,同时减去阈值减去阈值。u代表神经代表神经元的活跃值,即元的活跃值,即神经元状态神经元状态:第29页/共82页第二

31、十九页,共83页。神经元的输出神经元的输出(shch)y(shch)y是是对对u u的映射:的映射:二值函数二值函数f f 称为输出函数称为输出函数( (激励函数,激活函数激励函数,激活函数) ),有几种,有几种(j (j zhn)zhn)形式:形式:第30页/共82页第三十页,共83页。S型函数型函数双曲正切双曲正切(zhngqi)(zhngqi)函数函数第31页/共82页第三十一页,共83页。输出函数输出函数“f”“f”的作用:的作用: 控制输入对输出的激活作用。控制输入对输出的激活作用。 对输入、输出进行函数转换对输入、输出进行函数转换(zhunhun)(zhunhun)。 将可能无限域

32、的输入变换成有限范围内的输出。将可能无限域的输入变换成有限范围内的输出。第32页/共82页第三十二页,共83页。2 2、人工神经网络的基本、人工神经网络的基本(jbn)(jbn)特性和结特性和结构构 结构由基本处理单元及其互连方法决定。结构由基本处理单元及其互连方法决定。 人工神经网络由神经元模型构成。人工神经网络由神经元模型构成。 这种由许多神经元组成的信息处理网络具有并行这种由许多神经元组成的信息处理网络具有并行(bngxng)(bngxng)分布结构,每个神经元具有单一输出,并且能够与其它神经元连分布结构,每个神经元具有单一输出,并且能够与其它神经元连接。接。 存在许多存在许多( (多重

33、多重) )输出连接方法,每种连接方法对应一个连接输出连接方法,每种连接方法对应一个连接权系数。权系数。第33页/共82页第三十三页,共83页。严格地说,人工神经网络是一种具有下列严格地说,人工神经网络是一种具有下列(xili)特性的有向图:特性的有向图:(1) 对于每个节点对于每个节点i存在一个状态变量存在一个状态变量xi ;(2) 从节点从节点i至节点至节点j,存在一个连接权系数,存在一个连接权系数wij ;(3) 对于每个节点对于每个节点i,存在一个阈值,存在一个阈值i;(4) 对于每个节点对于每个节点i,定义一个变换函数,定义一个变换函数 fi( xi ,wij,i); 对于最一般的情况

34、,此函数的形式为:对于最一般的情况,此函数的形式为:第34页/共82页第三十四页,共83页。 神经元模型确定之后,一个神经网络的特性及能力即主神经元模型确定之后,一个神经网络的特性及能力即主要取决于网络的拓扑结构要取决于网络的拓扑结构(jigu)(jigu)及学习方法。及学习方法。 人工神经网络(人工神经网络(ANNANN)可以看成是以人工神经元为节点)可以看成是以人工神经元为节点, ,用用有向加权弧连接起来的有向图。有向加权弧连接起来的有向图。 人工神经元就是对生物神经元的模拟。人工神经元就是对生物神经元的模拟。 有向弧则是轴突有向弧则是轴突突触突触树突对的模拟。树突对的模拟。 有向弧的权值

35、表示相互连接的两个人工神经元之间相互有向弧的权值表示相互连接的两个人工神经元之间相互作用的强弱。作用的强弱。第35页/共82页第三十五页,共83页。 人工神经网络的结构基本上分为两类:递归人工神经网络的结构基本上分为两类:递归( (反馈反馈(fnku)(fnku)网络、网络、和前馈网络。和前馈网络。、递归网络、递归网络在递归网络中,在递归网络中,多个神经元互连多个神经元互连以组以组织成一个互连神经网络,如图所示。织成一个互连神经网络,如图所示。 有些神经元的有些神经元的输出输出被被反馈至反馈至同层同层或或前前层层神经元。因此,信号能够从神经元。因此,信号能够从正向正向和和反向反向流通。流通。(

36、Hopfield网络) 递归网络又叫做递归网络又叫做反馈网络反馈网络。V Vi :表示节点的状态:表示节点的状态xi :节点的输入:节点的输入( (初始初始) )值值x xi i :收敛后的输出值:收敛后的输出值 (i=1,2,n)第36页/共82页第三十六页,共83页。、前馈网络、前馈网络 前馈网络具有递阶分层结构,由一些同层神经元间不存前馈网络具有递阶分层结构,由一些同层神经元间不存在互连的层级组成。从输入层至输出层的信号通过单向连接在互连的层级组成。从输入层至输出层的信号通过单向连接流通;流通;( (感知器感知器) ) 神经元从一层连接至下一层,不存在同层神经元间的连神经元从一层连接至下

37、一层,不存在同层神经元间的连接。接。实线实线-指明实际指明实际(shj)(shj)信号流通信号流通, ,虚线虚线-表示反向传播。表示反向传播。 ( (连接权值连接权值) )第37页/共82页第三十七页,共83页。3 3、人工神经网络的主要、人工神经网络的主要(zhyo)(zhyo)学学习方法习方法 人工神经网络最具有(jyu)吸引力的特点是它的学习能力。 1962年,Rosenblatt给出了人工神经网络著名的学习定理:人工神经网络可以学会它能表达的任何东西。 神经网络的适应性是通过学习实现的,学习是神经网络研究的一个重要内容,人工神经网络的学习过程表现为对连接权值的训练。第38页/共82页第

38、三十八页,共83页。 人工神经网络的学习方法,涉及到学习方式和学习规则的确定,不同的学习方法其学习方式和学习规则是不同的。、学习方式 通过向环境学习,获取知识并改进自身性能,是NN的一个重要特点。一般情况下,性能的改善是按某种预定的度量,通过调节自身参数(权值)随时间逐步达到的。 按环境提供信息量的多少,学习方式有3种:监督(jind)学习(有师学习)、非监督(jind)学习(无师学习)、再励学习(强化学习)。第39页/共82页第三十九页,共83页。 监督监督(jind)(jind)学习(有学习(有师学习)师学习) 此学习方式需要外界存在一个教师,可对给定此学习方式需要外界存在一个教师,可对给

39、定(i dn)(i dn)的一组的一组输入提供应有输入提供应有的输出结果的输出结果( (正确答案正确答案已知的输出)。已知的输出)。 输出数据称为训练样本集,学习系统输出数据称为训练样本集,学习系统(ANN)(ANN)可根据已知输出与实际可根据已知输出与实际输出之间的差值输出之间的差值( (误差信号误差信号) )来调节系统参数。来调节系统参数。第40页/共82页第四十页,共83页。 非监督非监督(jind)(jind)学习(无师学习(无师学习)学习) 不存在外部教师不存在外部教师(jiosh)(jiosh),学习系统完全按照环境提供数据的某些,学习系统完全按照环境提供数据的某些规律来规律来调节

40、自身参数或结构(是一种自组织过程),以表示出外部输入的某调节自身参数或结构(是一种自组织过程),以表示出外部输入的某种固有特性(如聚类或某种统计上的分布特征)。种固有特性(如聚类或某种统计上的分布特征)。第41页/共82页第四十一页,共83页。 再励学习再励学习(xux)(xux)(强(强化学习化学习(xux)(xux)) 介于有师与无师两种情况之间。外部环境对系统输出结果只给介于有师与无师两种情况之间。外部环境对系统输出结果只给出出评价信息(奖或惩),而不是给出正确答案,学习系统通过强化那评价信息(奖或惩),而不是给出正确答案,学习系统通过强化那些些(nxi)(nxi)受奖的动作来改善自身的

41、性能。受奖的动作来改善自身的性能。第42页/共82页第四十二页,共83页。 误差纠正学习误差纠正学习(xux) 令令yk(n)为输入为输入xk(n)时,神经元时,神经元k在在n时刻的实际输出,时刻的实际输出,dk(n)表表示应示应有的输出,则误差信号可写为:有的输出,则误差信号可写为:误差纠正学习的最终目的:使某一基于误差纠正学习的最终目的:使某一基于ek(n)ek(n)的目标函数达到的目标函数达到(d do)(d do)最小,最小,以使以使网络中每一输出单元的实际输出,在某种意义上逼近应有的输出。网络中每一输出单元的实际输出,在某种意义上逼近应有的输出。、学习、学习(xux)规则规则第43页

42、/共82页第四十三页,共83页。 一旦选定了目标函数形式一旦选定了目标函数形式(xngsh)(xngsh),误差纠正学习就变成了一个典型,误差纠正学习就变成了一个典型的的“最最优化优化”问题。最常用的目标函数是问题。最常用的目标函数是“均方误差判据均方误差判据”,定义为误差平方和,定义为误差平方和的均值。的均值。 其中,其中,E E为求期望算子。为求期望算子。 上式的前提是被学习的过程是宽平稳的,具体方法可用上式的前提是被学习的过程是宽平稳的,具体方法可用“最优梯度最优梯度下降法下降法”。直接用。直接用J J作为目标函数时作为目标函数时, ,需要知道需要知道(zh do)(zh do)整个学习

43、过程的统计特性整个学习过程的统计特性, ,为解决这一问题,通常用为解决这一问题,通常用J J在时刻在时刻n n的瞬时值的瞬时值(n)(n)代替代替J J,即:,即:各数据偏离各数据偏离(pinl)平均平均数的距离的平均数。(标数的距离的平均数。(标准差)准差)表示实验误差大小的偏差平方和。表示实验误差大小的偏差平方和。属属“等精度测量等精度测量”,即在相同条件下,各次,即在相同条件下,各次测量值测量值Xi对测定平均值对测定平均值X的偏差平方和后再求和。的偏差平方和后再求和。(Xi-X)2概率意义下的概率意义下的“加权平均加权平均”。根。根据大数定理,有据大数定理,有n次结果的平均次结果的平均值

44、将趋向数学期望值。值将趋向数学期望值。第44页/共82页第四十四页,共83页。问题问题(wnt)(wnt)变为:求变为:求(n)(n)对权值对权值w w的极小值,根据梯度下降法可得:的极小值,根据梯度下降法可得: 这就是通常所说的误差纠正学习规则(或称这就是通常所说的误差纠正学习规则(或称deltadelta学习规则)。在学习规则)。在自适应自适应(shyng)(shyng)滤波理论中,对这种学习的收敛性有较深入的分析。滤波理论中,对这种学习的收敛性有较深入的分析。其中,其中,为学习步长。为学习步长。第45页/共82页第四十五页,共83页。 Hebb Hebb学习学习 由神经心理学家由神经心理

45、学家HebbHebb提出的学习规则可归纳提出的学习规则可归纳(gun)(gun)为:为:“当某一当某一突触突触( (连连接接) )两端的神经元同步激活两端的神经元同步激活( (同为激活同为激活 同为抑制同为抑制) )时,该连接的强度应时,该连接的强度应为增强,反之减弱为增强,反之减弱”。 式中,式中,y yk k(n)(n),x xj j(n)(n)分别为分别为w wkjkj两端神经元的状态,其中最常用的两端神经元的状态,其中最常用的一种情况是:一种情况是:因因wkjwkj与与yk(n)yk(n),xj(n)xj(n)的相关成正比,也称为的相关成正比,也称为“相关学习相关学习(xux)(xux

46、)规规则则”。 用数学方式可描述为:用数学方式可描述为:第46页/共82页第四十六页,共83页。 竞争学习竞争学习 网络网络(wnglu)(wnglu)各输出单元互相竞争,最后只有一个最强者激活。各输出单元互相竞争,最后只有一个最强者激活。最常见的最常见的一种情况是输出神经元之间有一种情况是输出神经元之间有“侧向抑制性连接侧向抑制性连接”。 即原输出单元中如有某一单元较强,则它将获胜并抑制其他单元即原输出单元中如有某一单元较强,则它将获胜并抑制其他单元, ,最后只有此强者处于激活状态。最后只有此强者处于激活状态。最常用的竞争学习规则可写为:最常用的竞争学习规则可写为:第47页/共82页第四十七

47、页,共83页。 当学习系统当学习系统( (神经网络神经网络) )所处环境平稳时所处环境平稳时( (统计特性不随时间变化统计特性不随时间变化),),理论上通过监督理论上通过监督(jind)(jind)学习可学到环境的统计特性,这些统计特性可学习可学到环境的统计特性,这些统计特性可被学习系被学习系统作为经验记住。但若环境是非平稳的统作为经验记住。但若环境是非平稳的( (统计特性随时间变化统计特性随时间变化) ),通常的,通常的监督监督(jind)(jind)学习没有能力跟踪这种变化。学习没有能力跟踪这种变化。 为解决此问题,需要网络有一定的自适应能力,此时对每一个不同为解决此问题,需要网络有一定的

48、自适应能力,此时对每一个不同输入都作为一个新的例子来对待。输入都作为一个新的例子来对待。、学习、学习(xux)(xux)与与自适应自适应第48页/共82页第四十八页,共83页。 此时模型(即此时模型(即ANNANN)被当做一个预测器,基于前一个时刻输入)被当做一个预测器,基于前一个时刻输入x(n-1)x(n-1)和模型在和模型在n-1n-1时刻的参数,它估计时刻的参数,它估计n n时刻的输出时刻的输出x(n)x(n),x(n)x(n)与实际值与实际值x(n)x(n)(应有的正确答案)比较,其差值称为(应有的正确答案)比较,其差值称为“信息信息”。 若信息若信息e(n)=0e(n)=0,则不修正

49、模型参数,否则修正模型参数,以便跟踪,则不修正模型参数,否则修正模型参数,以便跟踪(gnzng)(gnzng)环境的变化。环境的变化。第49页/共82页第四十九页,共83页。4 4、基于神经网络的知识、基于神经网络的知识(zh shi)(zh shi)表示表示 这里,知识并不像在产生式系统中那样独立地表示为这里,知识并不像在产生式系统中那样独立地表示为每每一条规则,而是将某一问题的若干知识在同一网络中表示。一条规则,而是将某一问题的若干知识在同一网络中表示。 例如,在有些例如,在有些(yuxi)(yuxi)神经网络系统中,知识是用神神经网络系统中,知识是用神经网络所对经网络所对应的有向权图的邻

50、接矩阵及阈值向量表示的。应的有向权图的邻接矩阵及阈值向量表示的。第50页/共82页第五十页,共83页。5 5、基于、基于(jy)(jy)神经网络神经网络的推理的推理 通过网络计算实现。通过网络计算实现。 把用户提供的初始证据用作网络的输入,通过网络计把用户提供的初始证据用作网络的输入,通过网络计算最终得到输出结果。算最终得到输出结果。 一般来说,正向一般来说,正向(zhn xin)(zhn xin)网络推理的步骤:网络推理的步骤: 将已知数据,输入网络输入层的各个节点;将已知数据,输入网络输入层的各个节点; 利用特性函数,分别计算网络中各层的输出;利用特性函数,分别计算网络中各层的输出; 用阈

51、值函数,对输出层的输出进行判定,从而得用阈值函数,对输出层的输出进行判定,从而得到输出结果。到输出结果。第51页/共82页第五十一页,共83页。5.2.3 5.2.3 人工神经网络的典型人工神经网络的典型(dinxng)(dinxng)模模型及其算法型及其算法 人工神经网络相关算法人工神经网络相关算法, ,已在智能处理已在智能处理(chl)(chl)系统中广泛系统中广泛应用。迄今为止,已经开发和应用了应用。迄今为止,已经开发和应用了3030多种人工神经网络模型。多种人工神经网络模型。 在此,我们仅对典型网络模型及其算法作简要介绍。在此,我们仅对典型网络模型及其算法作简要介绍。 1 1、反向传播

52、、反向传播(BP)(BP)模型模型 2 2、HopfieldHopfield网络网络 3 3、自适应共振理论、自适应共振理论(ART)(ART)模型模型第52页/共82页第五十二页,共83页。1 1、反向、反向(fn xin)(fn xin)传播传播(BP)(BP)模型模型神经元的网络神经元的网络(wnglu)输入:输入:net i = x1w1i+x2w2i+x nwni第53页/共82页第五十三页,共83页。 输入向量输入向量(xingling)(xingling)、输出向量、输出向量(xingling)(xingling)的维数、的维数、网络隐藏层的层数和各个隐藏层神经元的个数的决定了网

53、络网络隐藏层的层数和各个隐藏层神经元的个数的决定了网络拓扑。拓扑。 增加隐藏层的层数和隐藏层神经元个数不一定总能提高增加隐藏层的层数和隐藏层神经元个数不一定总能提高网络精度和表达能力。网络精度和表达能力。 BP BP网一般都选用二级(网一般都选用二级(3 3层)网络。因为可以证明如果层)网络。因为可以证明如果BPBP网络中隐层单元可以根据需要自由设定,那么一个三层网网络中隐层单元可以根据需要自由设定,那么一个三层网络可以实现以任意精度近似任意连续函数。络可以实现以任意精度近似任意连续函数。第54页/共82页第五十四页,共83页。 将待识别模式的输入矢量输入至输入层,并传至后面的隐含层,最后通过

54、连接将待识别模式的输入矢量输入至输入层,并传至后面的隐含层,最后通过连接权输出到输出层。网络中每个神经元通过求输入权值和非线性激励函数传递结果来权输出到输出层。网络中每个神经元通过求输入权值和非线性激励函数传递结果来工作。其数学工作。其数学(shxu)描述为:描述为:式中,式中,outi -所考虑所考虑(kol)层中第层中第i个神经元的个神经元的输出。输出。 outj -前一层中第前一层中第j个神经元的输出。个神经元的输出。 ( ) -激励函数。激励函数。 neti -网络中第网络中第i个神经元。个神经元。第55页/共82页第五十五页,共83页。 对非线性激励函数对非线性激励函数的使用有几种常

55、用形式,其中经常采用的使用有几种常用形式,其中经常采用的是前面介绍的是前面介绍(jisho)(jisho)过的过的SigmoidSigmoid函数:函数:第56页/共82页第五十六页,共83页。BPBP算法算法(sun f)(sun f)基基本思想:本思想: 样本集:样本集:S=(X1,Y1),(X2,Y2),(Xs,Ys)S=(X1,Y1),(X2,Y2),(Xs,Ys) 逐一根据样本集中的样本逐一根据样本集中的样本(Xk,Yk)(Xk,Yk)计算出实际输出计算出实际输出OkOk及其误差及其误差E1E1,然后对各层神经元的权值然后对各层神经元的权值W(1),W(2),W(L)W(1),W(2

56、),W(L)各做一次调整,重复这个循环,直各做一次调整,重复这个循环,直到到EpEp(所有样本的误差之和)。(所有样本的误差之和)。 用输出层的误差调整输出层用输出层的误差调整输出层“权矩阵权矩阵”,并用,并用(bn yn)(bn yn)此误差估计输出此误差估计输出层的直接前导层的误差;再用输出层前导层误差估计更前一层的误差(逐层前层的直接前导层的误差;再用输出层前导层误差估计更前一层的误差(逐层前推),如此获得所有其它各层的误差估计;并用推),如此获得所有其它各层的误差估计;并用(bn yn)(bn yn)这些估计实现对权这些估计实现对权矩阵的修改。矩阵的修改。 形成将输出端表现出的误差沿着

57、与输入信号相反的方向逐级向输入端传递形成将输出端表现出的误差沿着与输入信号相反的方向逐级向输入端传递的过程。的过程。第57页/共82页第五十七页,共83页。BPBP算法训练算法训练(xnlin)(xnlin)过过程概述程概述前提前提-样本样本( (训练训练(xnlin)(xnlin)集集( (输入值,理想输入值,理想( (期望期望) )输出值输出值) )1 1、首先定义网络误差、首先定义网络误差 对于对于BPBP反向传播训练反向传播训练(xnlin)(xnlin)算法,通常使用的网络误差是熟知的算法,通常使用的网络误差是熟知的“均方均方差差”。但事实上并不是必须使用均方差,可使用任何连续可微误

58、差函数,不过选。但事实上并不是必须使用均方差,可使用任何连续可微误差函数,不过选择其他误差函数会增加额外的复杂性。择其他误差函数会增加额外的复杂性。 须注意,不论选用哪种函数作为误差函数,必须在网络输出期望值与实际值须注意,不论选用哪种函数作为误差函数,必须在网络输出期望值与实际值之间提供一个有意义的度量之间提供一个有意义的度量-距离。距离。假设这样的训练集合存在,即可讨假设这样的训练集合存在,即可讨论论(tol(tol n)n)怎样利用它来训练一个怎样利用它来训练一个网络。网络。 第58页/共82页第五十八页,共83页。均方差均方差(fn ch)定义:定义:式中,式中,EpEp是第是第p p

59、个样本(个样本(xp ,tpxp ,tp)的误差;)的误差; tpj tpj是第是第j j个神经元输出的期望值(即训练集合);个神经元输出的期望值(即训练集合); opj opj是第是第j j个神经元输出的实际值。个神经元输出的实际值。 上式中,每一项都反映单个输出神经元对整个误差的影响,取绝对误差(期望上式中,每一项都反映单个输出神经元对整个误差的影响,取绝对误差(期望值和实际值之差)的平方值和实际值之差)的平方(pngfng)(pngfng)。 可以看出:远离期望值的那些输出对总误差影响最大,增加可以看出:远离期望值的那些输出对总误差影响最大,增加“幂指数幂指数”,影响,影响则更明显。则更

60、明显。第59页/共82页第五十九页,共83页。BPBP反向传播算法是反向传播算法是“梯度梯度(t d)(t d)下降训练算法下降训练算法”中比较简单的一种。中比较简单的一种。核心思想:调整权值使网络总误差最小。核心思想:调整权值使网络总误差最小。梯度梯度(t d)(t d)下降法也称为下降法也称为“最速下降法最速下降法”。基本基本(jbn)(jbn)思想:思想: 从当前点出发,取函数在该点处下降最快的方向,作为搜索方向。从当前点出发,取函数在该点处下降最快的方向,作为搜索方向。 任一点的负梯度方向,是函数值在该点下降最快的方向。任一点的负梯度方向,是函数值在该点下降最快的方向。 将将n n维问

61、题,转换为一系列沿负梯度方向,用一维搜索方法寻优维问题,转换为一系列沿负梯度方向,用一维搜索方法寻优问题。问题。第60页/共82页第六十页,共83页。 网络中的每个权值都是网络中的每个权值都是N N维误差空间中的一个元素,在误差空间中权维误差空间中的一个元素,在误差空间中权值作为独立的变量,且相应误差表面值作为独立的变量,且相应误差表面( (曲线曲线) )的形状由训练集合和误差函数的形状由训练集合和误差函数共同共同(gngtng)(gngtng)决定。决定。 权值的误差函数负梯度指向误差函数减小最快的方向。如果在权值空权值的误差函数负梯度指向误差函数减小最快的方向。如果在权值空间沿这个矢量移动

62、,最终将达到极小值间沿这个矢量移动,最终将达到极小值( (该点梯度为零该点梯度为零) )。 但该点可能是局部极小点,如下图给出误差空间中梯度与但该点可能是局部极小点,如下图给出误差空间中梯度与EpEp之间的关之间的关系,形象地指出了误差函数达到局部最小值的情形。系,形象地指出了误差函数达到局部最小值的情形。第61页/共82页第六十一页,共83页。第62页/共82页第六十二页,共83页。其中其中: : pWji pWji表示连接表示连接L-1L-1层的源神经元层的源神经元i i和和L L层的目的神经元层的目的神经元j j权值的变化权值的变化(binhu)(binhu)。 权值的这个变化权值的这个

63、变化(binhu)(binhu),导致了权值空间中梯度沿降低误差方向变,导致了权值空间中梯度沿降低误差方向变化化(binhu)(binhu)。 (正比关系变化(正比关系变化(binhu)(binhu))上述结果上述结果(ji gu)的数学的数学描述:描述:权值误差权值误差(wch)函数负梯度关系函数负梯度关系式:式:第63页/共82页第六十三页,共83页。因此因此,首先必须计算偏微分,首先必须计算偏微分- / / 应用公式:应用公式: 目标:确定如何调整每个权值,使网络目标:确定如何调整每个权值,使网络(wnglu)收敛。收敛。任务任务(rn wu):将上式转换成适合于计算机实现的微分方程。:

64、将上式转换成适合于计算机实现的微分方程。上式说明:上式说明:每个权值每个权值W Wjiji将沿着将沿着局部误差表面局部误差表面最速下降的负梯度方向变化最速下降的负梯度方向变化 一步的关系式。一步的关系式。第64页/共82页第六十四页,共83页。Opl是对是对L-1L-1层的所有神经元输出求和得到,因此可计算第二项偏微分:层的所有神经元输出求和得到,因此可计算第二项偏微分: 展开展开: netpj由下式给出:由下式给出: 得:得: 第65页/共82页第六十五页,共83页。定义误差信号定义误差信号pjpj: 两式合并,得:两式合并,得:前述前述权值误差函数负梯度关系式:权值误差函数负梯度关系式:

65、式中,常数式中,常数是学习速率,它控制在权值空间中,对应是学习速率,它控制在权值空间中,对应(duyng)(duyng)每步沿负梯度方向变化的大小。每步沿负梯度方向变化的大小。乘上一个比例常数乘上一个比例常数,重写得:,重写得:第66页/共82页第六十六页,共83页。为了得到可用的微分方程,为了得到可用的微分方程,暂不考虑暂不考虑pjpj的变化的变化,运用微分公式:,运用微分公式:已知,输出已知,输出O Opjpj是是netnetpjpj的函数,表示为:的函数,表示为:激励函数为计算为计算,必须分别考虑下面两种情况:,必须分别考虑下面两种情况: 目的神经元目的神经元j j是一输出神经元。是一输

66、出神经元。 目的神经元目的神经元j j是一隐含层神经元。是一隐含层神经元。第67页/共82页第六十七页,共83页。、输出、输出(shch)(shch)层中的目的神经层中的目的神经元元 对于输出层中的目的神经元,直接得到以对于输出层中的目的神经元,直接得到以O Opjpj为自变量的误差函数为自变量的误差函数Ep,可得出:,可得出:可将可将pjpj(输出层的目的神经元输出层的目的神经元)写成:)写成: 第68页/共82页第六十八页,共83页。、隐含、隐含(yn hn)(yn hn)层中的目层中的目的神经元的神经元对于隐含层中的目的神经元,不能直接对误差函数对于隐含层中的目的神经元,不能直接对误差函

67、数(hnsh)(hnsh)微分。微分。利用微分公式:利用微分公式: 对对L+1L+1层中的所有神经元求和。根据层中的所有神经元求和。根据(gnj)netpk(gnj)netpk的定义,可计算的定义,可计算式中第二个因子:式中第二个因子:第69页/共82页第六十九页,共83页。得:得:由定义可以得到:由定义可以得到:得到:得到:将前述两式与上式合并:将前述两式与上式合并:隐含层误差信号隐含层误差信号pjpj可表示为:可表示为: 第70页/共82页第七十页,共83页。小结小结(xio(xioji)ji):概括上述结果,公式概括上述结果,公式 给出了关于给出了关于pjpj的微分方程,的微分方程,它对

68、隐含层和输出层权值都有效。它对隐含层和输出层权值都有效。 公式公式对应输出层和隐含层权值对应输出层和隐含层权值pjpj的表达式。的表达式。和和修正上述公式。修正上述公式。分别是分别是公式公式给出的是对应于均方差给出的是对应于均方差公式公式的解。的解。 因此,若使用其他误差函数,则必须要因此,若使用其他误差函数,则必须要第71页/共82页第七十一页,共83页。 为得到为得到适于计算机的适于计算机的微分方程微分方程,现仅计算,现仅计算选择一个特定的输出函数选择一个特定的输出函数。因此,必须。因此,必须,并求函数的解。,并求函数的解。利用利用SigmoidSigmoid函数,得:函数,得: 由上式和

69、前述公式由上式和前述公式可改写为:可改写为: 第72页/共82页第七十二页,共83页。对上式求导,得:对上式求导,得:继续继续(jx)计计算算第73页/共82页第七十三页,共83页。即:即:将前述公式将前述公式代入上式,可将代入上式,可将表示为表示为O Opjpj的函数:的函数:将上式与前述公式一同考虑:将上式与前述公式一同考虑:第74页/共82页第七十四页,共83页。 可写出在计算机上用可写出在计算机上用BPBP算法对网络训练所需的微分方程,其中误差算法对网络训练所需的微分方程,其中误差(wch)(wch)函数是均方差函数,输出函数是函数是均方差函数,输出函数是SigmoidSigmoid函

70、数。函数。 从推导过程中可看到,若选择另外的误差从推导过程中可看到,若选择另外的误差(wch)(wch)或激励函数,需要对或激励函数,需要对上述公式进行修正。上述公式进行修正。 综上所述,综上所述,BP反向传播训练算法所需的微分方程是:反向传播训练算法所需的微分方程是:其中,其中,为学习速率;为学习速率; pj为为L层神经元层神经元j的误差信号;的误差信号; Opj为为L-1层神经元层神经元i的输出。的输出。第75页/共82页第七十五页,共83页。误差信号误差信号(xnho)pj(xnho)pj可可表示为:表示为:其中,其中,OpjOpj代表代表L L层神经元层神经元j j的输出;的输出; O

71、pi Opi代表代表L-1L-1层神经元层神经元i i的输出;的输出; pk pk代表代表L+1L+1层神经元层神经元k k的误差的误差(wch)(wch)信号。信号。第76页/共82页第七十六页,共83页。 真正的梯度下降是沿着梯度确定的方向,以无穷小步长进行的,很明显,这是真正的梯度下降是沿着梯度确定的方向,以无穷小步长进行的,很明显,这是不切实际的。不切实际的。 因此定义因此定义(dngy)(dngy)学习速率学习速率,式中确定了沿梯度方向的一个有限步长。这里,式中确定了沿梯度方向的一个有限步长。这里是常量,它相当于确定步长的增益。是常量,它相当于确定步长的增益。 其核心思想就是:选择足

72、够大的其核心思想就是:选择足够大的,使得网络迅速收敛,而不会因调整过度而,使得网络迅速收敛,而不会因调整过度而振荡。振荡。第77页/共82页第七十七页,共83页。 反向传播学习的全部过程,既包括它的前向路径,也包括其反向路径。反向传播学习的全部过程,既包括它的前向路径,也包括其反向路径。 采用反向传播算法时,网络权值必须首先用一小随机值进行检查初始采用反向传播算法时,网络权值必须首先用一小随机值进行检查初始化。选择小初始权值非常重要,若初始权值选择太大,会导致网络不可训化。选择小初始权值非常重要,若初始权值选择太大,会导致网络不可训练。练。 初始化后,训练集矢量就可用于网络。使网络向前运行产生

73、一实际值初始化后,训练集矢量就可用于网络。使网络向前运行产生一实际值集合,利用反向传播可以建立一新权值集合,总误差经多次迭代后减小,集合,利用反向传播可以建立一新权值集合,总误差经多次迭代后减小,如果如果(rgu)(rgu)不是如此,可调整训练参数。不是如此,可调整训练参数。第78页/共82页第七十八页,共83页。第79页/共82页第七十九页,共83页。BPBP算法算法(sun f)(sun f)中中的几个问题:的几个问题:收敛速度问题收敛速度很慢,其训练需要很多步迭代。局部极小点问题逃离/避开局部极小点:修改W的初值并不是总有效(yuxio)。逃离-统计方法;Wasserman,1986将C

74、auchy训练与BP算法结合起来,可在保证训练速度不被降低的情况下,找到全局极小点。网络瘫痪问题在训练中,权可能变得很大,这会使神经元的网络输入变得很大,从而又使得其激活函数的导函数在此点上的取值很小。根据相应式子,此时的训练步长会变得非常小,进而将导致训练速度降得非常低,最终导致网络停止收敛。第80页/共82页第八十页,共83页。稳定性问题用修改量的综合实施权的修改。连续变化的环境,它将变成无效的。步长问题BP网络的收敛是基于无穷小的权修改量。步长太小,收敛就非常慢。步长太大,可能会导致网络的瘫痪和不稳定。自适应步长,使得权修改量能随着网络的训练(xnlin)而不断变化。1988年,Wass

75、erman网络隐层中神经元数目及层数的选取尚无理论直到,一般凭借经验选取。第81页/共82页第八十一页,共83页。感谢您的观赏(gunshng)!第82页/共82页第八十二页,共83页。内容(nirng)总结内 容。对有些问题的处理速度反而比计算机要快得多,且能耗要。符号(功能)主义:符号逻辑推理。1969年Minsky和Papert在感知机一书中指出感知机的缺陷(异。或运算不可表示),使得神经网络的研究从兴起期进入了停滞期。并行分布处理:并行结构,耐故障。适应与集成:自适应和信息融合能力。 如果输入的兴奋电位(din wi)总量超过某个阈值,神经元会被激发进入兴奋。感谢您的观赏第八十三页,共83页。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号