数据挖掘技术第4章智能体挖掘及其应用

资源描述

《数据挖掘技术第4章智能体挖掘及其应用》由会员分享，可在线阅读，更多相关《数据挖掘技术第4章智能体挖掘及其应用（65页珍藏版）》请在金锄头文库上搜索。

1、第4章智能体挖掘及其应用,4.1 智能体概念 4.2 智能体挖掘原理 4.3 基于智能对象和模糊推理的注塑模普通浇注系统 4.4 小结,4.1.1概述,20世纪70年代以来，随着计算机网络及并行程序设计技术的发展，分布式人工智能技术的应用越来越成为信息系统、决策系统和知识系统成功的关键。分布式人工智能系统具有下列特点: （1）系统中的数据、知识以及控制不但在逻辑上，而且在物理上是分布的。（2）各个求解机构通过网络互连。（3）系统中各机构以协同工作的方式解决单个机构难以解决的问题。,第4章智能体挖掘及其应用,分布式人工智能系统的优点,分布处理提高了问题求解能力和系统的可靠性并行工作提高

2、了问题求解效率多专家协同扩大了系统应用范围任务分解降低了软件的复杂性,第4章智能体挖掘及其应用,4.1.2分布式问题求解,在分布式问题求解系统中，数据、知识、控制均分布在系统的各节点上，既无全局控制，也无全局数据和知识存储。由于系统中没有一个节点拥有足够的数据和知识来求解整个问题，因此节点之间需要交换部分数据、知识、问题求解状态等信息，以便协同工作。 1系统的协作方式：任务分担和结果共享 2. 组织结构：可分为层次、平行、混合3大类型 3问题求解过程：可分为任务分解、任务分配、子任务求解以及结果综合4步。,第4章智能体挖掘及其应用,4.1.3面向对象表示法,目前，面向对象技术的研究已经深

3、入多个领域，例如面向对象程序设计方法学面向对象数据库面向对象操作系统面向对象软件开发环境面向对象硬件支持,第4章智能体挖掘及其应用,面向对象表示法,1面向对象的知识表示从面向对象的角度来看，人们在认识问题和分析问题时，可以把问题分解为一些对象（object）以及对象之间的组合和联系。1）对象、消息、方法和封装性2）类、类层次和继承性 2面向对象表示法的特点1）面向对象表示的基本特征封装性、模块性、继承性、易维护性2）面向对象表示与语义网络及框架表示的比较,第4章智能体挖掘及其应用,面向对象表示法,1.都是结构化的知识表示方法 2.语义网络的主要优点是表示的灵活性,面向对象的表示可以看

4、成是一种动态的语义网络;缺点是系统的开发和维护比较困难. 面向对象表示的封装性恰好有力地克服了语义网络的这一弱点，它把对象的状态及对状态的修改封装在该对象中 3.框架表示的结构与面向对象表示的结构很类似，知识都可以使用类的概念按一定的层次结构来组织。但是，框架知识表示的模块性不能清楚地定义。,第4章智能体挖掘及其应用,面向对象表示法,向对象程序设计方法以信息隐蔽和抽象数据类型概念为基础，既提供了从一般到特殊的演绎手段（如继承等），又提供了从特殊到一般的归纳形式（如类等），已成为基于知识的人工智能软件的主要开发方法。,第4章智能体挖掘及其应用,4.1.3智能体及其特性,1Agent智能体在

5、分布式人工智能系统中，Agent要接受上级或其Agent的委托完成指定的任务，从这个意义来说，也是在发挥代理人的作用。但是，由于在分布式人工智能中强调的是Agent主动地、自主地、智能地工作，因此将其翻译成智能体更为妥当一些。 2智能体的模型与特性Agent的抽象模型是：具有传感器和效应器的处于某一环境之中的实体，它通过传感器感知环境，运用所掌握的知识在特定的目标下进行问题求解，然后通过效应器对环境施加作用。这类实体具有下述特性 :自治性、自适应性、交互性、协作性和交流性,第4章智能体挖掘及其应用,4.1.4一种复合式智能体结构,中国科学院计算所史忠植等人提出了一种如图4-1所示的复合式智能

6、体结构,第4章智能体挖掘及其应用,如图4-1 复合式智能体结构,复合式智能体结构,该智能体包括感知、动作、反应、规划、建模、通信、决策等模块。智能体通过感知模块获取现实世界的信息，并对其进行一定的抽象，根据其类型，将其送到不同的处理模块。如果是简单的或紧急情况的信息，则被送到反应模块。反应模块立即对其做出决定，产生动作命令，并将动作命令送到动作模块。动作模块产生相应的动作，对现实世界做出反应。下面具体介绍反应、规划、建模、通信和决策模块。1反应模块反应模块的作用是对紧急或简单的情况做出迅速的反应，因此在反应模块中基本不进行推理，而是直接将感知的信息映射为行动。反应模块产生的动作具有最高的

7、优先级，动作模块将立即执行。,第4章智能体挖掘及其应用,复合式智能体结构,2规划模块规划模块负责建立中短期的行动计划。智能体的规划是一个局部规划。即每个智能体根据目标、自身的状态以及以往的经验规划自身的行动；同时，智能体并不需要对其目标做出完整的规划，而只需规划近期的动作序列。动作序列被送交给决策模块。3建模模块建模模块有两个功能，一是维护和更新智能体建立的现实世界及其他智能体的模型；二是根据当前感知的信息对近期的情况做出预测，并提出行动的建议。现实世界的模型包括拓扑结构，以及各组成部分的性质。其他智能体模型包括其位置、性质、目标、能力、关系等信息。,第4章智能体挖掘及其应用,复合式智能体

8、结构,4通信模块通信模块的功能包括通信、语言理解和语言生成3个功能。需要有词法库、语法库、语义库等成分。通信模块根据词法库、语法库、语义库对发送的语言进行生成，对接收的语言进行理解。理解后的抽象信息被送往决策模块或建模模块，对一些基本的应答信息，则由通信模块直接做出反应。5决策模块决策模块负责各个模块的协调工作。它的输入有规划模块生成的行动计划、建模模块的预测和行动建议以及通信模块的请求等。由它进行这些计划、预测、建议和请求的冲突检查和消解，决定当前的动作和通信。,第4章智能体挖掘及其应用,4.1.5智能体的协调与协作,使多个智能体的知识、意图、规划、行动相互协调，并实现相互协作是多智能体系

9、统的主要任务。在环境中存在着多个智能体，并且各自都在执行某个动作。但由于大家要完成的任务以及要利用的资源相互有关，因此必须进行协调才能避免矛盾和冲突。智能体之间的交互有正、负两种关系。正关系表示智能体的规划有重叠部分，或者某个智能体具有其他智能体不具备的能力，大家可以通过协作获得帮助；负关系导致冲突，需要通过协调来化解冲突。,第4章智能体挖掘及其应用,智能体的协调与协作,解决智能体的协调与协作问题可以从计算生态学、对策论以及协商等不同的观点出发 1计算生态学的方法分布式计算系统具有类似社会的、生物界的组织形式和特征。对于复杂的任务进行异步的计算，它们的节点可以在内部结构陌生的其他机器上产生进

10、程。这些节点能根据不完备的知识与经常迟到的信息做出局部决策。整个系统不存在中心控制，而是通过各节点的交互、协作解决问题。所有这些特点构成了一个并发的组合体，它们的交互、策略以及对资源的竞争与生态学中的问题十分类似。,第4章智能体挖掘及其应用,智能体的协调与协作,2对策论的方法对策论的方法以效用集为基础。如果对于一个目标，能使某一智能体的效用最大，却不能使另一个智能体的效用最大，则需要协调。在实际系统中，协调总是必须的，而协作则不一定总能实现。任何协作本身也是协调。 3协商的办法协商是实现协调和协作的基本方法。如何协商，即采用什么样的原则和目标进行协商，直接影响协调和协作的结果。因此协商需要有

11、效的理论指导。关于协商理论已经出现了Zlotkin的面向领域的协商理论，Kraus的“最佳平衡”协商理论，Ephrati的集中式协商理论等等。,第4章智能体挖掘及其应用,4.2智能体挖掘原理,4.2.1概述本文研究了在一般和随机对策（又称马尔可夫对策）框架下的强化学习，主要是非合作系统的多智能体学习，对于合作系统的学习由于多智能体间可以通讯和作出承诺而大不相同。4.2.2对多智能体系统建模一个多智能体系统的模型和单智能体系统的模型最大区别就是智能体直接认识到其它智能体的存在并对其行为进行建模。,第4章智能体挖掘及其应用,多智能体系统建模,1Nash平衡点这个概念是Nash在1951年提出的

12、，已经广泛应用作为解决一般和非合作对策的主要方法。2. 多智能体Q-learning在多智能体环境中，一个智能体有两种方法对其它智能体建模，一种是忽略它们的个性，将其作为环境的一部分加以考虑；另一种就是将其清晰地看作是理性决策个体，两种方法的区别是在建模的难易程度、计算复杂性和预测能力上。,第4章智能体挖掘及其应用,多智能体Q-learning,应用Q-learning主要有两个关键问题：确定学习函数和如何更新Q函数，我们在随机对策中定义学习函数，在学习函数中体现联合行动意图，并定义Nash平衡点求取作为学习目标，采用Nash平衡点作为求解目标的合理性是基于两点：1)假设所有的智能体都是理性

13、的，都对其它智能体采取优化响应；2)Nash平衡点表示在它们具有的信息基础上智能体相互合理作用的一种长期稳定状态。,第4章智能体挖掘及其应用,多智能体Q-learning,1 多智能体Q函数对于一个n个局中人的随机对策，定义智能体k的Nash平衡点Q值为,Nash平衡点Q值定义为在状态时所有智能体执行联合行动，并遵照Nash平衡点策略所得到的报酬。,2 一种多智能体Q-learning算法,多智能体Q-learning算法和一般Q-learning算法的区别主要在于：,1)学习的Q函数是所有智能体的联合行动的函数，而一般Q-learning中则仅仅是一个智能体行动的函数；,第4章智能体

14、挖掘及其应用,多智能体Q-learning,2)算法中的Q函数的更新是假设在智能体的优化决策都是Nash平衡点行动基础上的，而一般Q-learning中是在对其自身Q最大的基础上的优化选取来更新的。一个Q值表可以分解成一系列子表，即是智能体k的Q值表，是在状态时的Q值表，表示。的全部项数是。智能体k根据下面的法则更新Q值,第4章智能体挖掘及其应用,多智能体Q-learning,其中是对正规形对策和时，的混合策略Nash平衡点。这里有两点说明：1 是级数，表示智能体k在状态处的期望Q值。2 上式并不更新Q值表中所有项目，只是更新与当前状态及智能体所选行动对应的项目,第4章智能体挖

15、掘及其应用,多智能体Q-learning,1.,在对策开始时，智能体不具备除其它智能体行为空间外的任何信息，随着对策进行，智能体k观测其它智能体的即时报酬和以前的行动，将此信息用来更新智能体k对其它智能体Q值表的推断，智能体k更新其关于智能体j的Q值表的信念，根据如下法则进行当时，有,下面给出学习算法的基本步骤： (1) 初始化。，对所有的，使，初始化状态。给一初值。,第4章智能体挖掘及其应用,多智能体Q-learning,（2）LOOP。选取行动，观测和更新其中是对正规形对策的混合策略Nash平衡点，。,第4章智能体挖掘及其应用,4.2.3算法的学习收敛性证明,结论可以推广到n人随机对策也是成立的，首先给出Q-learning的一般假设。【假设1】每一个状态和行动都被算法无穷遍历【假设2】学习速率满足下列条。（1）（2）,

展开阅读全文