机器人足球3-厦门大学

资源描述

《机器人足球3-厦门大学》由会员分享，可在线阅读，更多相关《机器人足球3-厦门大学（25页珍藏版）》请在金锄头文库上搜索。

1、第三节基础智能进球代码示例进球代码示例决策结构决策结构进攻、防守与跑位进攻、防守与跑位团队合作团队合作视觉信息采集策略视觉信息采集策略通讯通讯策略策略进球代码示例-全局变量int lastCycle; int currentCycle;int kickWait;int turnToSeeGoal;进球代码示例-初始化构造函数中lastCycle=-1;currentCycle=-1;kickWait=100;turnToSeeGoal=0;进球代码示例-核心代码踢球.txt球员智能不可能用手工的方法来编码描述所有可能不可能用手工的方法来编码描述所有可能的情形和制定智能体的所有行为的情形和制

2、定智能体的所有行为一般采取分层处理的办法：一般采取分层处理的办法：底层行为如带球、传接球、射门等相对固定，底层行为如带球、传接球、射门等相对固定，易于代码化，也可用离线学习的方法来优化；易于代码化，也可用离线学习的方法来优化；上层决策如跑位、技战术配合等由于场上形上层决策如跑位、技战术配合等由于场上形势的不确定性，很难明确给出，可以使用强势的不确定性，很难明确给出，可以使用强化学习之类的在线学习方法，来学习提高化学习之类的在线学习方法，来学习提高上层决策行为决策模块行为决策模块根据当前场上状态（包括实际感知和预测），以及赛根据当前场上状态（包括实际感知和预测），以及赛前制定的合作协议，来决定当

3、前的行为模式，并更新前制定的合作协议，来决定当前的行为模式，并更新自身状态。行为决策模块将当前的行为模式以及该行自身状态。行为决策模块将当前的行为模式以及该行为附带的参数为附带的参数(如果需要的话如果需要的话)发送给动作解释及执行发送给动作解释及执行模块，作进一步分解。模块，作进一步分解。合作协议模块合作协议模块读取在赛前制定的合作协议。可以是特定的技战术配读取在赛前制定的合作协议。可以是特定的技战术配合如中场开球、发角球等，还可以是比赛时的一些战合如中场开球、发角球等，还可以是比赛时的一些战术运用如交叉换位、下底传中等。术运用如交叉换位、下底传中等。分层决策-智能体的行为树优缺点结构是单向分

4、层决策，高层决策无法了解下层结构是单向分层决策，高层决策无法了解下层决策的实际能力，只能按一种预定模型来分析，决策的实际能力，只能按一种预定模型来分析，不能实时调整，这就会导致上层决策与下层执不能实时调整，这就会导致上层决策与下层执行脱节，不能很好的完成目标。行脱节，不能很好的完成目标。这种按照行为树的顺序决策方式不能很好地适这种按照行为树的顺序决策方式不能很好地适应复杂的决策环境，实际上在这种方式下每个应复杂的决策环境，实际上在这种方式下每个行为都被赋予了一个优先级，高优先级的行为行为都被赋予了一个优先级，高优先级的行为总是被优先考虑，好处很明显，高优先级的行总是被优先考虑，好处很明显，高优

5、先级的行为总是被优先考虑执行。为总是被优先考虑执行。现在大部分球队设计时都引入了决策论的思想，现在大部分球队设计时都引入了决策论的思想，进行全面的评估，不再是简单的按照行为树顺进行全面的评估，不再是简单的按照行为树顺序决策。序决策。三层决策模型优缺点这种分层决策系统给出了一个比较简便易行的这种分层决策系统给出了一个比较简便易行的决策方法。通过分层处理，逐步简化问题，从决策方法。通过分层处理，逐步简化问题，从而比较好地实现一整套决策任务。而比较好地实现一整套决策任务。从整体看这是一个混合式决策系统，高层从长从整体看这是一个混合式决策系统，高层从长远利益考虑，制定全局决策，是慎思式的；远利益考虑，

6、制定全局决策，是慎思式的；底层简单的从环境得到相应信息，直接产生相底层简单的从环境得到相应信息，直接产生相应行为，是反应式的。应行为，是反应式的。这种混合式结构综合了两种方式的优点，既满这种混合式结构综合了两种方式的优点，既满足了实时决策的需要，又兼顾了长远利益，避足了实时决策的需要，又兼顾了长远利益，避免了反应式的短视问题。免了反应式的短视问题。决策模块分析根据实际决策的不同，可以有许多种不同根据实际决策的不同，可以有许多种不同的分类。的分类。下面根据场上不同的形势，把决策分为下面根据场上不同的形势，把决策分为进攻决策进攻决策防守决策防守决策一般跑位决策一般跑位决策进攻决策模块-控球队员参与

7、进攻的球员可以简单分为控球队员和助攻参与进攻的球员可以简单分为控球队员和助攻队员队员控球队员控球队员如果简单用分支函数处理，就需要事先对可能出现的如果简单用分支函数处理，就需要事先对可能出现的场上形势进行分类，然后针对不同的情况执行相应的场上形势进行分类，然后针对不同的情况执行相应的行为。由于场上形势错综复杂，无法完全列出各种情行为。由于场上形势错综复杂，无法完全列出各种情况，就只能近似归类，这样就很难找到况，就只能近似归类，这样就很难找到“最优最优”方案；方案；目前更多球队采用的都是类似于决策论的方法，在给目前更多球队采用的都是类似于决策论的方法，在给定的形势下分析各种可能行为（包括传球、射

8、门、带定的形势下分析各种可能行为（包括传球、射门、带球等）的成功率球等）的成功率p，同时也给出执行该行为的收益，同时也给出执行该行为的收益u，然后通过计算得到执行一个行为的综合评价然后通过计算得到执行一个行为的综合评价b，选择，选择评价最高的执行即可，公式表示如下：评价最高的执行即可，公式表示如下：进攻决策模块-助攻队员助攻队员助攻队员善于发现对方防守空档并选择合适的时机跑善于发现对方防守空档并选择合适的时机跑位。位。对于跑位点的选择以及时机的把握都需要与对于跑位点的选择以及时机的把握都需要与控球队员协同。控球队员协同。由于比赛环境限制，完全依靠通讯来协同是由于比赛环境限制，完全依靠通讯来协同

9、是很困难的。很多队都是事先制定了战术，这很困难的。很多队都是事先制定了战术，这样只要在比赛中由控球者选择合适的战术，样只要在比赛中由控球者选择合适的战术，然后通知参与者来实现协同。然后通知参与者来实现协同。防守决策模块防守行为可以简单分为抢球、封堵、盯人防守行为可以简单分为抢球、封堵、盯人三种。三种。抢球是在对方没有完全控制住球，双方处抢球是在对方没有完全控制住球，双方处于拼抢状态时采取的行为，但由于对方处于拼抢状态时采取的行为，但由于对方处于主动，如果判断有误，很容易被对方晃于主动，如果判断有误，很容易被对方晃过过封堵是安全的防守行为，虽然拿不到球，封堵是安全的防守行为，虽然拿不到球，但也不

10、让对手带球前进或轻易转移；但也不让对手带球前进或轻易转移；盯人一般是指对无球进攻队员的盯防，破盯人一般是指对无球进攻队员的盯防，破坏其可能的配合。坏其可能的配合。葡萄牙队将防守行为细分为拦截球拦截球以最快的速度抢到球以最快的速度抢到球被动拦截球被动拦截球根据场上形势，在尽可能占优根据场上形势，在尽可能占优的位置拦截球，不保证最快的位置拦截球，不保证最快封堵传球路线封堵传球路线盯住对方控球队员的可能传盯住对方控球队员的可能传球路线，防止其通过传球突破防守球路线，防止其通过传球突破防守封堵对手封堵对手盯住对方控球队员，防止他带球盯住对方控球队员，防止他带球前进前进逼近球逼近球即使不能抢到球，也要逼

11、近对方控即使不能抢到球，也要逼近对方控球队员，减少他的选择机会球队员，减少他的选择机会盯防路线盯防路线选择合适的防守位置处于对手和选择合适的防守位置处于对手和我方球门之间我方球门之间守门员的防守策略相对容易相对容易只要守门员发送扑球指令及时，球是不可能穿只要守门员发送扑球指令及时，球是不可能穿越守门员的。越守门员的。站位站位在球到球门连线上，要保证无论球以多大速度射向球在球到球门连线上，要保证无论球以多大速度射向球门任何位置，守门员都可以及时拦截到门任何位置，守门员都可以及时拦截到同时考虑有威胁的对方助攻球员，站位点可以适当偏同时考虑有威胁的对方助攻球员，站位点可以适当偏移。移。出击出击判断一

12、定要尽可能准确，需要很高成功率才出击。判断一定要尽可能准确，需要很高成功率才出击。一般跑位模块以前：一堆球员跟着球跑以前：一堆球员跟着球跑现在：速度更快，引入阵型，划分现在：速度更快，引入阵型，划分“责任责任田田”缺点：一旦比赛节奏缺点：一旦比赛节奏过快，将出现脱节过快，将出现脱节基于形势的战略跑位SBSP2000年世界冠军葡萄牙队提出的更加合理的跑位模型年世界冠军葡萄牙队提出的更加合理的跑位模型Reis and Lau 2000这个跑位模型将队员的跑位与场上的形势紧密的联系到一这个跑位模型将队员的跑位与场上的形势紧密的联系到一起。在计算每个时刻的跑位点时，球员要分析目前正采用起。在计算每个时

13、刻的跑位点时，球员要分析目前正采用哪种战术和阵型，并根据自己的角色计算出一个基本跑位哪种战术和阵型，并根据自己的角色计算出一个基本跑位点，然后再根据场上各种不同的形势，如球的位置、速度点，然后再根据场上各种不同的形势，如球的位置、速度等信息，是进攻还是防守，还有比分等信息，以及角色的等信息，是进攻还是防守，还有比分等信息，以及角色的特点调整得到最终的战略跑位点。特点调整得到最终的战略跑位点。角色的特点包括对球变化的敏感程度、特殊的区域限制角色的特点包括对球变化的敏感程度、特殊的区域限制（如守门员不能出禁区）、保持在球之后（如后卫）等。（如守门员不能出禁区）、保持在球之后（如后卫）等。这些都使得

14、这种战略跑位更加灵活多变。这些都使得这种战略跑位更加灵活多变。这种跑位系统使得球队的移动更像一个真实的足球队，球这种跑位系统使得球队的移动更像一个真实的足球队，球员保持这种场上分布可以比较好的覆盖球的移动，不至于员保持这种场上分布可以比较好的覆盖球的移动，不至于产生大的漏洞。后来被各球队广泛采用。产生大的漏洞。后来被各球队广泛采用。三种模式的关系这三个模块的划分没有一个明确的界定这三个模块的划分没有一个明确的界定在一个强调进攻的球队而言，划分更倾向于进在一个强调进攻的球队而言，划分更倾向于进攻，当双方队员在拼抢时，周围队友也很有可攻，当双方队员在拼抢时，周围队友也很有可能处于进攻模式寻找有利位

15、置等待突破良机，能处于进攻模式寻找有利位置等待突破良机，而不会盯防对手；而不会盯防对手；一支打法保守的球队，一旦自己队员不控球就一支打法保守的球队，一旦自己队员不控球就很有可能转入全面防守状态。很有可能转入全面防守状态。形势分析不但与决策队员所处的位置、场上所形势分析不但与决策队员所处的位置、场上所有球员、球的状态有关，还跟球队的战略意图、有球员、球的状态有关，还跟球队的战略意图、对手的特点密切相关，需要根据情况具体分析对手的特点密切相关，需要根据情况具体分析自发的团队合作当智能体在掌握了一定的基当智能体在掌握了一定的基本技能（如能较准确的将球本技能（如能较准确的将球踢到指定点）、能够进行一踢

16、到指定点）、能够进行一些简单的反应式行为决策些简单的反应式行为决策（如抢球、简单传球、跑位（如抢球、简单传球、跑位等）之后，在某种情况下就等）之后，在某种情况下就会产生自发的团队合作如二会产生自发的团队合作如二过一配合过一配合有规划的团队合作没有规划的团队合作，只能算是一支没有规划的团队合作，只能算是一支“业业余球队余球队”。全局规划使全队上下有了一个共同的目标，全局规划使全队上下有了一个共同的目标，所有的行为都将为这个目标而服务。全局所有的行为都将为这个目标而服务。全局规划又可划分为一些子规划，以几个队员规划又可划分为一些子规划，以几个队员为一个单元，制定局部的子目标，做一些为一个单元，制定

17、局部的子目标，做一些局部合作。局部合作。预先建立一些合作协议，如我方开球时预先建立一些合作协议，如我方开球时视觉信息采集决策球员的视野宽度有球员的视野宽度有45 度、度、90 度和度和180 度三种度三种45 度：度：0.75 周期周期90 度：度：1.5 周期周期180 度：度：3 个周期个周期球员的面朝向与身体朝向的偏差不能超过球员的面朝向与身体朝向的偏差不能超过90 度。度。不同的情况智能体所关心的信息是不同的。不同的情况智能体所关心的信息是不同的。控球球员：对方守门员位置控球球员：对方守门员位置中场球员：不关心守门员位置中场球员：不关心守门员位置决策，找出最合理的视觉信息获取方法决策，

18、找出最合理的视觉信息获取方法转脖子：获取信息不够转脖子：获取信息不够转身：占用周期转身：占用周期改变视野：占用周期改变视野：占用周期通讯一次只能发不超过一次只能发不超过10字节的信息字节的信息在进行传接球配合时，发起者通知接球者在进行传接球配合时，发起者通知接球者准备好后，不能指望等到接球者回应再执准备好后，不能指望等到接球者回应再执行行通讯有延迟，这一来一回就要耽误通讯有延迟，这一来一回就要耽误2个周期个周期消息传递过程中还有可能丢失消息传递过程中还有可能丢失在实际执行时都是先通知接球方注意，随即在实际执行时都是先通知接球方注意，随即立刻执行，假定队友已经接收到消息，并做立刻执行，假定队友已

19、经接收到消息，并做好准备。好准备。通讯分类要求要求(通报通报)位置信息：包括己方队员、对方队员位置信息：包括己方队员、对方队员和球的位置、方向及速度等。和球的位置、方向及速度等。通报自己正在执行的行为模式。例如告诉其他通报自己正在执行的行为模式。例如告诉其他智能体自己正在上前拦截对方的拿球队员。这智能体自己正在上前拦截对方的拿球队员。这类通讯有利于智能体之间的分工合作，避免几类通讯有利于智能体之间的分工合作，避免几个智能体执行同样的任务。个智能体执行同样的任务。要求要求(响应响应)某个智能体执行某个任务。例如，一某个智能体执行某个任务。例如，一个智能体在传球的时候，会向队友发出要求他个智能体在传球的时候，会向队友发出要求他注意接球的消息。注意接球的消息。分析当前形势，提出合适的行为规划。分析当前形势，提出合适的行为规划。作业(15分)修改rcssclient，实现开球前初始化，设置角色和阵型，每只球队加入11名球员，按照角色和阵型进行合适的站位。守门扑球功能加入两名球员，相互之间进行无限传球

展开阅读全文

机器人足球3-厦门大学

最新文档