七学习与进化模型ann

上传人:乐*** 文档编号:117184959 上传时间:2019-11-18 格式:PPT 页数:121 大小:1.33MB
返回 下载 相关 举报
七学习与进化模型ann_第1页
第1页 / 共121页
七学习与进化模型ann_第2页
第2页 / 共121页
七学习与进化模型ann_第3页
第3页 / 共121页
七学习与进化模型ann_第4页
第4页 / 共121页
七学习与进化模型ann_第5页
第5页 / 共121页
点击查看更多>>
资源描述

《七学习与进化模型ann》由会员分享,可在线阅读,更多相关《七学习与进化模型ann(121页珍藏版)》请在金锄头文库上搜索。

1、FF复杂系统建模与仿真复杂系统建模与仿真 第八章 学习与进化模型 本章内容建议自学参考:人工神经网络 FF复杂系统建模与仿真复杂系统建模与仿真 本章要求 F掌握ANN的基本原理和思想 F能够在Swarm和Repast中应用ANN F掌遗传算法的基本原理和思想 F能够在Swarm和Repast中应用GA FF复杂系统建模与仿真复杂系统建模与仿真 大纲 F学习主体 FANN F遗传算法 F群体智能 F粒子群优化算法 FF复杂系统建模与仿真复杂系统建模与仿真 大纲 F学习主体 FANN F遗传算法 F群体智能 F粒子群优化算法 FF复杂系统建模与仿真复杂系统建模与仿真 学习Agent 一个学习Age

2、nt可以被认为既包含决定采取什 么动作的执行元件,又包含修改执行元件使其能制 定更好决策的学习元件。 一个学习元件的设计受到下列三个主要因素的影响: w将要学习的是执行元件的哪个组成部分; w对学习这些组成部分而言,可得到什么反馈; w组成部分是如何表示的。 FF复杂系统建模与仿真复杂系统建模与仿真 学习中可用的反馈类型 学习中可用的反馈类型通常是决定智能体所面临的学习 问题本质的最重要因素。一般分为三种类型: w有监督的 从它的输入和输出的实例中学习一个函数。对于完全可 观察的环境,智能体总能够观察到它的行动所带来的影响, 因此可以采用有监督学习的方法来学习预测它们,对于部分 可观察的环境,

3、会困难一些。 w无监督的 在未提供明确的输出值的情况下,学习输入的模式。 w强化学习 从强化事物中进行学习,而不是根据教师所说的应该做 什么进行学习。 F学习系统设计的影响因素:如何表示学习到的知识;先验知识 的可用性。 FF复杂系统建模与仿真复杂系统建模与仿真 归纳学习(1) 确定性的有监督的学习 F纯归纳推理:给定f的实例集合,返回近似于f的函数h F函数h被称为假设,一个好的假设应该是一般化的,也就是 说能够正确地预测未见过的实例。 F例子(见板书):使一个单变量函数能拟合某些数据点 F假设空间H:选择最高次数为k的多项式集合 F一致假设:和所有的实例数据一致。 F如何在多个一致假设之间

4、进行选择? F奥卡姆剃刀(Ockhams razor)原则:优先选择与数据一致 的最简单的假设。 F在假设的复杂度和数据拟合度之间进行折中是不可避免的 F找到一个简单的一致假设的可能性或不可能性很强地依赖 于对假设空间的选择。 FF复杂系统建模与仿真复杂系统建模与仿真 归纳学习(2) 确定性的有监督的学习 F找到一个简单的一致假设的可能性或不可能性很强地依赖于 对假设空间的选择。(假设空间的重要性) F如果假设空间包含真实的函数,那么学习的问题就是可实现 的,否则就是不可实现的。 F不幸的是,这是的函数是未知的,我们不能总是说出一个给 定的学习问题是否可实现,一种避开这个障碍的方法是使用先 验

5、知识得到一个假设空间,我们可以确定一个真实的函数一定 在该假设空间中,另外一种做法是采用最大可能的假设空间。 FF复杂系统建模与仿真复杂系统建模与仿真 学习决策树 F决策树归纳是最简单的但是最成功的学习算法形式之一 。 F作为执行元件的决策树 一棵决策树将用属性集合描述的事物或情景作为输入,并 返回一个“决策”。输入的属性或输出值可以是离散的,也 可以是连续的,学习一个离散值函数称为分类,学习一个 连续函数称为回归。 实例说明:决定是否要等座位的决策树 F从实例中归纳决策树 FF复杂系统建模与仿真复杂系统建模与仿真 强化学习 所谓强化学习是指从环境状态到动作映射的学习, 以使动作从环境中获得的

6、累积奖赏值最大。该方法不 同于监督学习技术那样通过正例、反例来告知采取何 种行动,而是通过试错(trial-and-error)来发现 最优行为策略。 从20世纪80年代末开始,随着对强化学习的数学基 础研究取得突破性进展后,对强化学习的研究和应用 日益开展起来,成为目前机器学习领域的研究重点之 一。 FF复杂系统建模与仿真复杂系统建模与仿真 强化学习的框架结构 Agent由状态感知器I、学习器L和动作选择器P三模块组成。 F状态感知器I把环境状态s映射成Agent内部感知i; F动作选择器P根据当前策略选择动作a作用于环境W; F学习器L根据环境状态的奖赏值r以及内部感知i,更新 Agent

7、的策略知识。 W在动作a的作用下将导致环境状态变迁到s。 强化学习技术的 基本原理是:如果 Agent的某个动作导致 环境正的奖赏(强化信 号),那么Agent以后 产生这个动作的趋势便 会加强,反之Agent产 生这个动作的趋势渐弱 。 FF复杂系统建模与仿真复杂系统建模与仿真 Q-学习 FQ-学习是由Watkins提出的一种模型无关 的强化学习算法,又称为离策略TD学习 (off-policy TD)。 F由于在一定条件Q-学习只需采用贪婪策 略即可保证收敛,因此Q-学习是目前最 有效的模型无关强化学习算法。 FF复杂系统建模与仿真复杂系统建模与仿真 Q-学习算法流程 F对每个 初始化 为

8、0 F观察当前状态 F一直重复做: F(1)选择一个动作 并执行它 F(2)接收到立即回报 F(3)观察新状态 F(4) 按照下式更新表项: F F(5) FF复杂系统建模与仿真复杂系统建模与仿真 Q-学习(例子) 悬崖步行是由Sutton提出的一个Agent仿真试验环境,如 图所示。智能体的任务是从起始点S移动到目标点G。S、G之 间的阴影方格为悬崖,智能体移动到这个区域就有坠崖的危险 ,因此如果进入这个区域,就给它一个大的惩罚r1000; 如果到达G,就给它一个大的奖赏r100,其它情况给它一个 回报r-0.1。通过学习,智能体可以找到一条既安全又不浪费 移动步数的路径,通过对奖赏值的调整

9、,智能体可以找到最安 全或者最短的路径。 FF复杂系统建模与仿真复杂系统建模与仿真 大纲 F学习主体 FANN F遗传算法 F群体智能 F粒子群优化算法 FF复杂系统建模与仿真复杂系统建模与仿真 人工智能的联结主义流派 又称仿生学派,认为人工智能源于仿生学,人思维的基 本单元是神经元,而非符号处理过程,主张用大脑工作模 式取代符号操作的电脑工作模式; 智能的本质是联结机制。神经网络是一个由大量简单的 处理单元组成的高度复杂的大规模非线性自适应系统; “结构功能”的研究方法:认为功能、结构和智能行为 是密切相关的; F1943年,McCulloch和Pitts 从神经元入手研究神经网络模 型MP

10、模型。此为人工神经 网络研究之始。 FF复杂系统建模与仿真复杂系统建模与仿真 F人工神经网络(Artificial Neural Network,ANN)从四 个方面刻画人脑的基本特征: F(1)物理结构物理结构 F模仿生物神经元的功能,构造人工神经元的联结网络 FCell body FAxon FNucleus FSynapse F突触 FDendrite F树突 FF复杂系统建模与仿真复杂系统建模与仿真 F(2)计算模拟计算模拟 F人脑神经元既有局部的计算和存储功能,又通过联结构成统一的系 统,人脑的计算建立在该系统的大规模并行模拟处理基础之上。 FANN以具有局部计算能力的神经元为基础,

11、同样实现信息的大规模 并行处理。 F(3)存储与操作存储与操作 F大脑对信息的记忆是通过改变突触的强度来实现并分布存储。 FANN模拟信息的大规模分布存储。 FF(4 4)训练)训练 F后天的训练使得人脑具有很强的自组织和自适应性。 FANN根据人工神经元网络的结构特性,使用不同的训练过程,自动 从“实践”(即训练样本)中获取相关知识,并存储在系统中。 FF复杂系统建模与仿真复杂系统建模与仿真 ANN是基于联结主义流派的人工智能 联结主义学派与高速发展的计算机技术相结合,发展为计算智能学 派,是人工智能在1980年代后的深化和发展; 计算智能:借助现代计算机技术模拟人的智能控制、生命演化过程

12、和人的智能行为,从而进行信息获取、处理、应用的理论和方法; 计算智能是以数学模型、计算模型为基础,以分布、并行、仿生计 算为特征,包含数据、算法和实现的信息系统; 计算智能强调模型的建立和构成,强调系统的自组织、自学习和自 适应; 计算智能的3个主要分支: F 人工神经网络人工神经网络(模拟智能产生与作用赖以存在的结构) F 遗传算法遗传算法(模拟生命生成过程与智能进化过程) F 模糊逻辑模糊逻辑(模拟智能的表现行为) FF复杂系统建模与仿真复杂系统建模与仿真 人工神经网络概述 F人工神经网络是受生物神经网络的启发构造而成。 FJames(心理学,1890年) :大脑皮层每一点的活 力产生于其

13、它点势能释放的综合效能,即其它点的兴奋次数 、强度和所接受的能量。 F大脑含约1011个神经元,它们通过1015个联结构成一个网 络。每个神经元具有独立的接受、处理和传递电化学信号的 能力,这种传递由神经通道来完成。 FF复杂系统建模与仿真复杂系统建模与仿真 神经元的结构神经元的结构 F树突从细胞体伸向其它神经元,神经元之 间的接受信号的联结点为突触。通过突触输 入的信号起着兴奋/抑制作用。当细胞体接受 的累加兴奋作用超过某阈值时,细胞进入兴 奋状态,产生冲动,并由轴突输出。 FCell body FAxon FNucleus FSynapse F突触 FDendrite F树突 FF复杂系统

14、建模与仿真复杂系统建模与仿真 神经元系统的基本特征 神经元及其联结 神经元之间的联结强度决定信号传递的强弱 神经元之间的联结强度可以随训练而改变 信号分为兴奋型和抑制型 一个神经元接受的信号的累计效果决定该神经元的状态 每个神经元有一个阈值 FF复杂系统建模与仿真复杂系统建模与仿真 人工神经网络的几种形式 无反馈前向网 F多输入、多输出的多层无环图,同一层间无联结 F神经元分层排列,组成输入层、中间层(隐层)、输出层 FF复杂系统建模与仿真复杂系统建模与仿真 有反馈前向网 F从输出层到输入层存在反馈的前向网。 FF复杂系统建模与仿真复杂系统建模与仿真 层内有联结的前向网 F在无反馈前向网中同一

15、层内存在神经元间 的联结回路 FF复杂系统建模与仿真复杂系统建模与仿真 FF人工神经网络方法简介人工神经网络方法简介 有向网 F任意两个神经元间都可能存在有向联结。 F网络处在动态中,直至达到某一平衡态、周期 态或者混沌状态 FF复杂系统建模与仿真复杂系统建模与仿真 FF感知器(感知器(PerceptronPerceptron) FF人工神经网络的基本构件人工神经网络的基本构件 FF复杂系统建模与仿真复杂系统建模与仿真 F感知器(Perceptron)是最早被设计并实现的人工神经网络。 FW. McCulloch和W. Pitts总结生物神经元的基本生理特征,提出一种 简单的数学模型与构造方法

16、,建立了阈值加权和模型,简称M-P模型 (“A Logical Calculus Immanent in Nervous Activity”, Bulletin of Mathematical Biophysics, 1943(5): 115133)。 F人工神经元模型是M-P模型的基础。 感知器的数学模型 FWarren McCulloch F(1898 1969) FWalter Pitts F(1923 1969) FF复杂系统建模与仿真复杂系统建模与仿真 生物神经元的基本特征 神经元及其联结 神经元之间的联结强度决定信号传递的强弱 神经元之间的联结强度可以随训练而改变 信号分为兴奋型和抑制型 一个神经元接受的信号的累计效果决定该神经元的状态 每个神经元有一个

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号