第10章强化学习

cn****1

实名认证

店铺

PPT

2.40MB

约90页

文档ID:571130341

1/90页

点击查看更多>>

文本预览下载提示常见问题

2024/8/8强化学习史忠植1高级人工智能高级人工智能第十章第十章史忠植史忠植中国科学院计算技术研究所强化学习强化学习2024/8/8强化学习史忠植2内容提要内容提要l引言引言l强化学习模型强化学习模型l动态规划动态规划l蒙特卡罗方法蒙特卡罗方法l时序差分学习时序差分学习lQ学习学习l强化学习中的函数估计强化学习中的函数估计l应用应用2024/8/8强化学习史忠植3引言引言人类通常从与外界环境的交互中学习所谓强化（reinforcement）学习是指从环境状态到行为映射的学习，以使系统行为从环境中获得的累积奖励值最大在强化学习中，我们设计算法来把外界环境转化为最大化奖励量的方式的动作我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现主体的动作的影响不只是立即得到的奖励，而且还影响接下来的动作和最终的奖励试错搜索(trial-and-error search)和延期强化(delayed reinforcement)这两个特性是强化学习中两个最重要的特性 2024/8/8强化学习史忠植4引言引言强化学习技术是从控制理论、统计学、心理学等相关学科发展而来，最早可以追溯到巴甫洛夫的条件反射实验。

但直到上世纪八十年代末、九十年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用，并被认为是设计智能系统的核心技术之一特别是随着强化学习的数学基础研究取得突破性进展后，对强化学习的研究和应用日益开展起来，成为目前机器学习领域的研究热点之一2024/8/8强化学习史忠植5引言l强化思想最先来源于心理学的研究1911年Thorndike提出了效果律（Law of Effect）：一定情景下让动物感到舒服的行为，就会与此情景增强联系（强化），当此情景再现时，动物的这种行为也更易再现；相反，让动物感觉不舒服的行为，会减弱与情景的联系，此情景再现时，此行为将很难再现换个说法，哪种行为会“记住”，会与刺激建立联系，取决于行为产生的效果l动物的试错学习,包含两个含义：选择（selectional）和联系（associative），对应计算上的搜索和记忆所以，1954年，Minsky在他的博士论文中实现了计算上的试错学习同年，Farley和Clark也在计算上对它进行了研究强化学习一词最早出现于科技文献是1961年Minsky 的论文“Steps Toward Artificial Intelligence”，此后开始广泛使用。

1969年， Minsky因在人工智能方面的贡献而获得计算机图灵奖2024/8/8强化学习史忠植6引言l1953到1957年，Bellman提出了求解最优控制问题的一个有效方法：动态规划（dynamic programming） lBellman于 1957年还提出了最优控制问题的随机离散版本，就是著名的马尔可夫决策过程（MDP, Markov decision processe），1960年Howard提出马尔可夫决策过程的策略迭代方法，这些都成为现代强化学习的理论基础l1972年，Klopf把试错学习和时序差分结合在一起1978年开始，Sutton、Barto、 Moore，包括Klopf等对这两者结合开始进行深入研究 l1989年Watkins提出了Q-学习[Watkins 1989]，也把强化学习的三条主线扭在了一起l1992年，Tesauro用强化学习成功了应用到西洋双陆棋（backgammon）中，称为TD-Gammon 2024/8/8强化学习史忠植7内容提要内容提要l引言引言l强化学习模型强化学习模型l动态规划动态规划l蒙特卡罗方法蒙特卡罗方法l时序差分学习时序差分学习lQ学习学习l强化学习中的函数估计强化学习中的函数估计l应用应用2024/8/8强化学习史忠植8主体主体主体主体强化学习模型i: inputr: reward s: statea: action状态 sisi+1ri+1奖励 ri环境环境环境环境动作动作 aia0a1a2s0s1s2s32024/8/8强化学习史忠植9描述一个环境（问题）（问题）lAccessible vs. inaccessiblelDeterministic vs. non-deterministiclEpisodic vs. non-episodiclStatic vs. dynamiclDiscrete vs. continuousThe most complex general class of environments are inaccessible, non-deterministic, non-episodic, dynamic, and continuous.2024/8/8强化学习史忠植10强化学习问题lAgent-environment interactionlStates, Actions, RewardslTo define a finite MDPlstate and action sets : S and Alone-step “dynamics” defined by transition probabilities (Markov Property):lreward probabilities:EnvironmentactionstaterewardRLAgent2024/8/8强化学习史忠植11与监督学习对比lReinforcement Learning – Learn from interactionllearn from its own experience, and the objective is to get as much reward as possible. The learner is not told which actions to take, but instead must discover which actions yield the most reward by trying them.RLSystemInputsOutputs (“actions”)Training Info = evaluations (“rewards” / “penalties”)lSupervised Learning – Learn from examples provided by a knowledgable external supervisor.2024/8/8强化学习史忠植12强化学习要素lPolicy: stochastic rule for selecting actionslReturn/Reward: the function of future rewards agent tries to maximizelValue: what is good because it predicts rewardlModel: what follows whatPolicyRewardValueModel ofenvironmentIs unknownIs my goalIs I can getIs my method2024/8/8强化学习史忠植13在策略Π下的Bellman公式The basic idea: So: Or, without the expectation operator: is the discount rate2024/8/8强化学习史忠植14BellmanBellman最优策略公式最优策略公式其中：V*：状态值映射S：环境状态R：奖励函数P：状态转移概率函数：折扣因子2024/8/8强化学习史忠植15马尔可夫决策过程马尔可夫决策过程 MARKOV DECISION PROCESS 由四元组定义。

l 环境状态集Sl 系统行为集合Al 奖励函数R：S×A→ℛl 状态转移函数P：S×A→PD（S）记R（s，a，s′）为系统在状态s采用a动作使环境状态转移到s′获得的瞬时奖励值；记P（s，a，s′）为系统在状态s采用a动作使环境状态转移到s′的概率2024/8/8强化学习史忠植16马尔可夫决策过程马尔可夫决策过程 MARKOV DECISION PROCESSl马尔可夫决策过程的本质是：当前状态向下一状态转移的概率和奖励值只取决于当前状态和选择的动作，而与历史状态和历史动作无关因此在已知状态转移概率函数P和奖励函数R的环境模型知识下，可以采用动态规划技术求解最优策略而强化学习着重研究在P函数和R函数未知的情况下，系统如何学习最优行为策略2024/8/8强化学习史忠植17MARKOV DECISION PROCESSCharacteristics of MDP:a set of states : Sa set of actions : Aa reward function :R : S x A  RA state transition function:T: S x A  ∏ ( S) T (s,a,s’): probability of transition from s to s’ using action a2024/8/8强化学习史忠植18马尔可夫决策过程马尔可夫决策过程 MARKOV DECISION PROCESS2024/8/8强化学习史忠植19MDP EXAMPLE:TransitionfunctionStates and rewardsBellman Equation:(Greedy policy selection)2024/8/8强化学习史忠植20MDP Graphical Representationβ, α : T (s, action, s’ )Similarity to Hidden Markov Models (HMMs)2024/8/8强化学习史忠植21Reinforcement Learning …Deterministic transitionsStochastic transitionsis the probability to reaching state j when taking action a in state istart3211234+1-1A simple environment that presents the agent with a sequential decision problem:Move cost = 0.04(Temporal) credit assignment problem sparse reinforcement problemOffline alg: action sequences determined ex anteOnline alg: action sequences is conditional on observations along the way; Important in stochastic environment (e.g. jet flying)2024/8/8强化学习史忠植22Reinforcement Learning …M = 0.8 in direction you want to go 0.2 in perpendicular 0.1 left0.1 rightPolicy: mapping from states to actions3211234+1-10.7053211234+1-1 0.8120.762 0.868 0.912 0.660 0.655 0.611 0.388An optimal policy for the stochastic environment:utilities of states:EnvironmentObservable (accessible): percept identifies the statePartially observableMarkov property: Transition probabilities depend on state only, not on the path to the state.Markov decision problem (MDP).Partially observable MDP (POMDP): percepts does not have enough info to identify transition probabilities.2024/8/8强化学习史忠植23动态规划动态规划Dynamic Programmingl动态规划(dynamic programming)的方法通过从后继状态回溯到前驱状态来计算赋值函数。

动态规划的方法基于下一个状态分布的模型来接连的更新状态强化学习的动态规划的方法是基于这样一个事实：对任何策略π和任何状态s，有(10.9)式迭代的一致的等式成立的一致的等式成立π(a｜s)是给定在随机策略π下状态s时动作a的概率π(s→s'｜a)是在动作a下状态s转到状态s'的概率这就是对Vπ的Bellman(1957)等式2024/8/8强化学习史忠植24动态规划动态规划Dynamic Programming - ProblemlA discrete-time dynamic systemlStates {1, … , n} + termination state 0lControl U(i)lTransition Probability pij(u)lAccumulative cost structurelPolicies2024/8/8强化学习史忠植25lFinite Horizon ProblemlInfinite Horizon ProblemlValue Iteration动态规划动态规划Dynamic Programming – Iterative Solution 2024/8/8强化学习史忠植26动态规划中的策略迭代动态规划中的策略迭代/ /值迭代值迭代 policy evaluationpolicy improvement“greedification”Policy IterationValue Iteration2024/8/8强化学习史忠植27动态规划方法动态规划方法TTTTTTTTTTTTT2024/8/8强化学习史忠植28自适应动态规划自适应动态规划(ADP)Idea: use the constraints (state transition probabilities) between states to speed learning.Solve = value determination.No maximization over actions because agent is passive unlike in value iteration.using DPLarge state spacee.g. Backgammon: 1050 equations in 1050 variables2024/8/8强化学习史忠植29Value Iteration AlgorithmAN ALTERNATIVE ITERATION: (Singh,1993)(Important for model free learning)Stop Iteration when V(s) differs less than є.Policy difference ratio =< 2єγ / (1-γ ) ( Williams & Baird 1993b)2024/8/8强化学习史忠植30Policy Iteration Algorithm Policies converge faster than values.Why faster convergence? 2024/8/8强化学习史忠植31动态规划动态规划Dynamic Programmingl典型的动态规划模型作用有限，很多问题很难给出环境的完整模型。

仿真机器人足球就是这样的问题，可以采用实时动态规划方法解决这个问题在实时动态规划中不需要事先给出环境模型，而是在真实的环境中不断测试，得到环境模型可以采用反传神经网络实现对状态泛化，网络的输入单元是环境的状态s, 网络的输出是对该状态的评价V(s)2024/8/8强化学习史忠植32没有模型的方法没有模型的方法Model Free MethodsModels of the environment:T: S x A  ∏ ( S) and R : S x A  RDo we know them? Do we have to know them?lMonte Carlo MethodslAdaptive Heuristic CriticlQ Learning2024/8/8强化学习史忠植33蒙特卡罗方法蒙特卡罗方法 Monte Carlo Methods l蒙特卡罗方法不需要一个完整的模型而是它们对状态的整个轨道进行抽样，基于抽样点的最终结果来更新赋值函数蒙特卡罗方法不需要经验，即从与环境联机的或者模拟的交互中抽样状态、动作和奖励的序列联机的经验是令人感兴趣的，因为它不需要环境的先验知识，却仍然可以是最优的。

从模拟的经验中学习功能也很强大它需要一个模型，但它可以是生成的而不是分析的，即一个模型可以生成轨道却不能计算明确的概率于是，它不需要产生在动态规划中要求的所有可能转变的完整的概率分布2024/8/8强化学习史忠植34Monte Carlo方法方法TTTTTTTTTTTTTTTTTTTT2024/8/8强化学习史忠植35蒙特卡罗方法蒙特卡罗方法 Monte Carlo Methods lIdea: Hold statistics about rewards for each state Take the average This is the V(s)lBased only on experience lAssumes episodic tasks  (Experience is divided into episodes and all episodes will terminate regardless of the actions selected.) lIncremental in episode-by-episode sense not step-by-step sense. 2024/8/8强化学习史忠植36Monte Carlo策略策略评价评价lGoal: learn Vp p(s) under P and R are unknown in advancelGiven: some number of episodes under p p which contain slIdea: Average returns observed after visits to slEvery-Visit MC: average returns for every time s is visited in an episodelFirst-visit MC: average returns only for first time s is visited in an episodelBoth converge asymptotically123452024/8/8强化学习史忠植37Problem: Unvisited pairs(problem of maintaining exploration)For every make sure that:P( selected as a start state and action) >0 (Assumption of exploring starts ) 蒙特卡罗方法蒙特卡罗方法 2024/8/8强化学习史忠植38蒙特卡罗控制蒙特卡罗控制How to select Policies:(Similar to policy evaluation) • MC policy iteration: Policy evaluation using MC methods followed by policy improvement• Policy improvement step: greedify with respect to value (or action-value) function2024/8/8强化学习史忠植39时序差分学习时序差分学习 Temporal-Difference时序差分学习中没有环境模型，根据经验学习。

每步进行迭代，不需要等任务完成预测模型的控制算法，根据历史信息判断将来的输入和输出，强调模型的函数而非模型的结构时序差分方法和蒙特卡罗方法类似，仍然采样一次学习循环中获得的瞬时奖惩反馈，但同时类似与动态规划方法采用自举方法估计状态的值函数然后通过多次迭代学习，去逼近真实的状态值函数2024/8/8强化学习史忠植40时序差分学习时序差分学习 TDTTTTTTTTTTTTTTTTTTTT2024/8/8强化学习史忠植41时序差分学习时序差分学习 Temporal-Differencetarget: the actual return after time ttarget: an estimate of the return2024/8/8强化学习史忠植42时序差分学习时序差分学习 (TD)Idea: Do ADP backups on a per move basis, not for the whole state space.Theorem: Average value of U(i) converges to the correct value.Theorem: If  is appropriately decreased as a function of times a state is visited (=[N[i]]), then U(i) itself converges to the correct value2024/8/8强化学习史忠植43TD( ) – A Forward ViewlTD() is a method for averaging all n-step backups lweight by n-1 (time since visitation)l-return: lBackup using -return:2024/8/8强化学习史忠植44时序差分学习算法时序差分学习算法 TD( )Idea: update from the whole epoch, not just on state transition.Special cases:=1: Least-mean-square (LMS), Mont Carlo=0: TDIntermediate choice of  (between 0 and 1) is best. Interplay with  …2024/8/8强化学习史忠植45时序差分学习算法时序差分学习算法 TD( )算法算法 10.1 TD(0)学习算法Initialize V(s) arbitrarily, π to the policy to be evaluatedRepeat (for each episode) Initialize s Repeat (for each step of episode) Choose a from s using policy πderived from V(e.g., ε-greedy) Take action a, observer r, s′ Until s is terminal 2024/8/8强化学习史忠植46时序差分学习算法2024/8/8强化学习史忠植47时序差分学习算法收敛性TD( )Theorem: Converges w.p. 1 under certain boundaries conditions.Decrease i(t) s.t. In practice, often a fixed  is used for all i and t.2024/8/8强化学习史忠植48时序差分学习 TD2024/8/8强化学习史忠植49Q-learningWatkins, 1989在Q学习中，回溯从动作结点开始，最大化下一个状态的所有可能动作和它们的奖励。

在完全递归定义的Q学习中，回溯树的底部结点一个从根结点开始的动作和它们的后继动作的奖励的序列可以到达的所有终端结点联机的Q学习，从可能的动作向前扩展，不需要建立一个完全的世界模型Q学习还可以脱机执行我们可以看到，Q学习是一种时序差分的方法2024/8/8强化学习史忠植50Q-learning在Q学习中，Q是状态-动作对到学习到的值的一个函数对所有的状态和动作： Q: (state x action) → value 对Q学习中的一步： (10.15)其中c和γ都≤1，rt+1是状态st+1的奖励 2024/8/8强化学习史忠植51Q-LearninglEstimate the Q-function using some approximator (for example, linear regression or neural networks or decision trees etc.).lDerive the estimated policy as an argument of the maximum of the estimated Q-function.lAllow different parameter vectors at different time points.lLet us illustrate the algorithm with linear regression as the approximator, and of course, squared error as the appropriate loss function.2024/8/8强化学习史忠植52Q-learningQ (a,i)Direct approach (ADP) would require learning a model .Q-learning does not:Do this update after each state transition:2024/8/8强化学习史忠植53ExplorationTradeoff between exploitation (control) and exploration (identification) Extremes: greedy vs. random acting(n-armed bandit models)Q-learning converges to optimal Q-values if* Every state is visited infinitely often (due to exploration),* The action selection becomes greedy as time approaches infinity, and* The learning rate  is decreased fast enough but not too fast (as we discussed in TD learning)2024/8/8强化学习史忠植54Common exploration methods1.In value iteration in an ADP agent: Optimistic estimate of utility U+(i)2.Є-greedy methodNongreedy actions Greedy action3.Boltzmann explorationExploration funcR+ if n定义。

其中定义了环境潜在的马尔可夫决策模型上，Ω是观察的集合，即系统可以感知的世界状态集合，观察函数О：S×A→PD（Ω）系统在采取动作a转移到状态s′时，观察函数О确定其在可能观察上的概率分布记为О（s′, a, o）[1] Ω可以是S的子集，也可以与S无关2024/8/8强化学习史忠植64POMDPsWhat if state information (from sensors) is noisy?Mostly the case!MDP techniques are suboptimal!Two halls are not the same.2024/8/8强化学习史忠植65POMDPs – A Solution StrategySE: Belief State Estimator (Can be based on HMM)П: MDP Techniques2024/8/8强化学习史忠植66POMDP_信度状态方法信度状态方法lIdea: Given a history of actions and observable value, we compute a posterior distribution for the state we are in (belief state)lThe belief-state MDPlStates: distribution over S (states of the POMDP)lActions: as in POMDPlTransition: the posterior distribution (given the observation)Open Problem : How to deal with the continuous distribution? 2024/8/8强化学习史忠植67The Learning Process of Belief MDP2024/8/8强化学习史忠植68Major Methods to Solve POMDP 算法名称基本思想学习值函数Memoryless policies直接采用直接采用标准的准的强强化学化学习算法算法Simple memory based approaches使用使用k个个历史史观察表示当前状察表示当前状态UDM(Utile Distinction Memory)分解状分解状态，构建有限状，构建有限状态机模型机模型NSM(Nearest Sequence Memory)存存储状状态历史，史，进行距离度量行距离度量USM(Utile Suffix Memory)综合合UDM和和NSM两种方法两种方法Recurrent-Q使用循使用循环神神经网网络进行状行状态预测策略搜索Evolutionary algorithms使用使用遗传算法直接算法直接进行策略搜索行策略搜索Gradient ascent method使用梯度下降（上升）法搜索使用梯度下降（上升）法搜索2024/8/8强化学习史忠植69强化学习中的函数估计强化学习中的函数估计RLFASubset of statesValue estimate as targetsV (s)Generalization of the value function to the entire state spaceis the TD operator.is the function approximation operator.2024/8/8强化学习史忠植70并行两个迭代过程并行两个迭代过程l值函数迭代过程l值函数逼近过程How to construct the M function? Using state cluster, interpolation, decision tree or neural network?2024/8/8强化学习史忠植71lFunction Approximator: V( s) = f( s, w)lUpdate: Gradient-descent Sarsa: w  w + a [rt+1 + g Q(st+1,at+1)- Q(st,at)] w f(st,at,w)weight vectorStandard gradienttarget valueestimated valueOpen Problem : How to design the non-liner FA system which can converge with the incremental instances? 并行两个迭代过程并行两个迭代过程2024/8/8强化学习史忠植72Semi-MDPDiscrete timeHomogeneous discountContinuous timeDiscrete eventsInterval-dependent discountDiscrete timeDiscrete eventsInterval-dependent discountA discrete-time SMDP overlaid on an MDPCan be analyzed at either level. One approach to Temporal Hierarchical RL2024/8/8强化学习史忠植73The equations2024/8/8强化学习史忠植74Multi-agent MDPlDistributed RLlMarkov GamelBest ResponseEnvironmentactionstaterewardRLAgentRLAgent2024/8/8强化学习史忠植75三种观点问题空间主要方法算法准则合作多agent强化学习分布、同构、分布、同构、合作合作环境境交交换状状态提高学提高学习收收敛速度速度交交换经验交交换策略策略交交换建建议基于平衡解多agent强化学习同构或异构、同构或异构、合作或合作或竞争争环境境极小极大极小极大-Q-Q理性和收理性和收敛性性NASH-QNASH-QCE-QCE-QWoLFWoLF最佳响应多agent强化学习异构、异构、竞争争环境境PHCPHC收收敛性和不性和不遗憾性憾性IGAIGAGIGAGIGAGIGA-WoLFGIGA-WoLF2024/8/8强化学习史忠植76马尔可夫对策l在在n个个agent的系统中，定义离散的状态集的系统中，定义离散的状态集S（即对策集合（即对策集合G），），agent动作集动作集Ai的的集合集合A, 联合奖赏函数联合奖赏函数Ri：：S×A1×…×An→ℛ ℛ和状态转移函数和状态转移函数P：：S×A1×…×An→PD（（S））。

2024/8/8强化学习史忠植77基于平衡解方法的强化学习Open Problem : Nash equilibrium or other equilibrium is enough? The optimal policy in single game is Nash equilibrium.2024/8/8强化学习史忠植78Applications of RLlChecker’s [Samuel 59]lTD-Gammon [Tesauro 92]lWorld’s best downpeak elevator dispatcher [Crites at al ~95]lInventory management [Bertsekas et al ~95]l10-15% better than industry standardlDynamic channel assignment [Singh & Bertsekas, Nie&Haykin ~95]lOutperforms best heuristics in the literaturelCart-pole [Michie&Chambers 68-] with bang-bang controllRobotic manipulation [Grupen et al. 93-]lPath planninglRobot docking [Lin 93]lParkinglFootball [Stone98]lTetrislMultiagent RL [Tan 93, Sandholm&Crites 95, Sen 94-, Carmel&Markovitch 95-, lots of work since]lCombinatorial optimization: maintenance & repairlControl of reasoning [Zhang & Dietterich IJCAI-95]2024/8/8强化学习史忠植79仿真机器人足球应用Q学习算法进行仿真机器人足球2 对1 训练，训练的目的是试图使主体学习获得到一种战略上的意识，能够在进攻中进行配合 2024/8/8强化学习史忠植80仿真机器人足球仿真机器人足球前锋A控球，并且在可射门的区域内，但是A已经没有射门角度了；队友B也处于射门区域，并且B具有良好的射门角度。

A传球给B，射门由B来完成，那么这次进攻配合就会很成功通过Q学习的方法来进行2 对1的射门训练，让A掌握在这种状态情况下传球给B的动作是最优的策略；主体通过大量的学习训练（大数量级的状态量和重复相同状态）来获得策略，因此更具有适应性 2024/8/8强化学习史忠植81仿真机器人足球状态描述，将进攻禁区划分为个小区域，每个小区域是边长为2m的正方形，一个二维数组()便可描述这个区域使用三个Agent的位置来描述2 对 1进攻时的环境状态，利用图10.11所示的划分来泛化状态可认为主体位于同一战略区域为相似状态，这样对状态的描述虽然不精确，但设计所需的是一种战略层次的描述，可认为Agent在战略区域内是积极跑动的，这种方法满足了需求如此，便描述了一个特定的状态；其中，是进攻队员A的区域编号，是进攻队员B的区域编号，是守门员的区域编号区域编号计算公式为：相应的，所保存的状态值为三个区域编号组成的对前锋A控球，并且在可射门的区域内，但是A已经没有射门角度了；队友B也处于射门区域，并且B具有良好的射门角度A传球给B，射门由B来完成，那么这次进攻配合就会很成功通过Q学习的方法来进行2 对1的射门训练，让A掌握在这种状态情况下传球给B的动作是最优的策略；主体通过大量的学习训练（大数量级的状态量和重复相同状态）来获得策略，因此更具有适应性。

19图10.11 进攻禁区内的位置划分072024/8/8强化学习史忠植82仿真机器人足球l可选动作集确定为lShoot 的策略通过基于概率的射门训练的学习来得到lDribble 的策略是，始终向受到威胁小，并且射门成功率高的区域带球为了实现这一策略目标，可划分进攻区域为多个战略区，在每个战略区进行射门评价，记录每个区域的射门成功率lPass策略很简单，只需在两个Agent间进行传球，即不需要选择球传送的对象，也不需要判断传球路径如果传球失败的话，则认为在这种状态下执行Pass策略是不成功的；经过此训练后，不可能的传球路径也不会被执行了2024/8/8强化学习史忠植83仿真机器人足球l训练中的所有状态包含了四个吸收状态假设进攻方在左半场，按照标准的Soccer server规范，这四个状态的比赛模式为play_on、goal_left、goal_kick_right和free_kick_right当达到吸收状态时，给与主体最终奖励r促使到达吸收状态的上一步动作获得的立即回报值为最终奖励值r，其他未直接促使到达吸收状态的动作均获得过程奖励值作为立即奖励；其中goal_left的r最大为1表示进球，其他状态下r为不同大小的负数。

2024/8/8强化学习史忠植84仿真机器人足球l主体在经过一定的状态和执行多个动作后获得了终态奖励（到达了吸收状态），这时就会对这个状态-动作序列分配奖励Q学习算法的核心就是每一个状态和动作的组合都拥有一个Q值，每次获得最终回报后通过更新等式更新这个Q值由于Robocup仿真平台在设计的时候在状态转换的时候加入了一个较小的随机噪音，所以该模型为非确定MDP, 确定Q更新等式为：规定=0.1，=0.952024/8/8强化学习史忠植85仿真机器人足球在实际的训练中，初始Q表各项的值为1经过大约2万次的训练（到达吸收状态为一次），Agent的Q表中的绝大部分项发生了变化，并且已经区分开来下表是某场景下的训练次数和动作选择的变化示意表2024/8/8强化学习史忠植86强化学习应用强化学习应用_ _调度调度lJob shop schedulinglGroup-control elevator schedulinglDynamical channel allocation2024/8/8强化学习史忠植87应用应用 - - 分布式电梯控制分布式电梯控制2024/8/8强化学习史忠植88Q(“Publications”, “My research”, “Will’s FrontDoor Page”)Q(“British Comedy”, “Fun Stuff”, “Will’s FrontDoor Page”)强化学习应用强化学习应用_ _信息检索信息检索lWeb crawlinglDomain-specific Search EngineerlWeb-log mininglText mininglImage mining2024/8/8强化学习史忠植89强化学习应用强化学习应用_ _自适应控制自适应控制& &生物信息学生物信息学lRobotics behavior controllFace cognitionlSpeech recognition2024/8/8强化学习史忠植90ReferenceslSutton, R.S. and Barto, A.G. (1998). Reinforcement Learning- An Introduction.lHastie, T., Tibshirani, R. and Friedman, J. (2001). The Elements of Statistical Learning-Data Mining, Inference and Prediction.lMurphy, S.A. (2003). Optimal Dynamic Treatment Regimes. JRSS-B.lBlatt, D., Murphy, S.A. and Zhu, J. (2004). A-Learning for Approximate Planning. lMurphy, S.A. (2004). A Generalization Error for Q-Learning.lD. P. Bertsekas and J. N. Tsitsiklis (1996). Neuro-Dynamic Programming.l高阳.强化学习研究进展.南京大学计算机科学与技术系南京大学计算机科学与技术系南京大学计算机科学与技术系南京大学计算机科学与技术系l宋志伟, 陈小平, 2003. 仿真机器人足球中的强化学习. 《机器人》, 24(7S):761-766. 。

下载提示

点击查看常见问题

相似文档

正为您匹配相似的精品文档