8_泛化与函数逼近－金锄头文库

资源描述

《8_泛化与函数逼近》由会员分享，可在线阅读，更多相关《8_泛化与函数逼近（25页珍藏版）》请在金锄头文库上搜索。

1、word第八章泛化与函数逼近翻译：金某某到目前为止，值函数的估计都是用表格来表示，每个状态或状态-动作对对应到表格中一项。这是一种特别清晰并且有意义的做法，但是这种做法只能用于状态和动作数量不多的任务，原因不仅在于大的表格会占用很多存储空间，还在于准确填满这X表格需要的计算时间和数据。换句话说，关键问题在于泛化generalization，如何把有限状态子集上的学习经验，泛化到很大的状态子集上并且逼近得很好呢？这是一个非常重要的问题。在用到强化学习的许多任务中，大多数当前遇到的状态，以后可能再也不会遇到。在具有连续变量或者复杂感知的状态动作空间中，这种情况常常会出现。对于这种类型的任务，唯一

2、的学习方法就是将前面经历过的状态，泛化到那些从未经历过的状态。幸运的是，人们已经大量研究过如何根据样例泛化，没有必要发明完全新的方法用于强化学习，只需将现存的泛化方法与强化学习结合起来。这种泛化通常称为函数逼近function approximation，因为它从目标函数如值函数提取样本，并试着从样本泛化从而构造出整体的函数逼近。函数逼近是监视学习supervised learning的手段之一，监视学习是机器学习、人工神经网络、模式识别以与统计学中曲线拟合等领域的研究主题。正如本章所述，从原理上讲，这些领域研究出的任何方法，都可用于强化学习。与前面一样，这里也从预测问题着手研究。预测问题是指

3、根据策略生成的经历来估计状态值函数。本章的不同之处在于，时刻逼近的值函数不是表示成一个表格，而是表示成一个带有参数向量的函数。这意味着值函数完全取决于，在不同的时间步，只有改变才会跟着改变。例如，可能是人工神经网络计算的函数，向量表示神经网络连接权重，通过调整权重，任意函数都能由这个网络来实现。或者可能是决策树计算的函数，其参数包含在向量中，这些参数定义了决策树分裂结点和叶子结点的值。通常情况下，参数的数量即分量的个数比状态的数量要少得多，并且改变一个参数可以改变很多状态的估计值。因此，单个状态的值被备份，这个变化就会从该状态泛化出去从而影响到很多其他状态的值。本书把所有预测方法都描述为备份，

4、也就是说，更新某个估计值函数，即意味着把该函数特定状态的值转换为这些状态的“备份值。译注：此处为update和backup的定义。更新某个函数，为update，更新某个状态，为backup。本章所有back up翻译为“备份，update翻译为“更新。这里用表示单个备份，其中是被备份的状态，是备份值或者说的估计值要转向的目标。例如，用于值预测的DP备份为，蒙特卡罗备份为，备份为，通用备份为。DP实例中，备份的是任意状态，而其他实例中，备份的是在经历可能是模拟的经历中遇到的状态。很自然可以这样理解：每次备份相当于指定了估计值函数的一个输入-输出样例。从某种意义上说，意味着状态的估计值进一步接

5、近。因此，用于实现备份的真正更新已经不重要了：估计值对应的表格项只是简单地向靠拢了一小步。我们可以使用任意复杂且成熟的函数逼近方法实现备份。这些函数逼近方法的常规输入，即是它们试图逼近的函数所期望的输入-输出样例。把每次备份简单地看作训练样例，就能使用基于函数逼近的值预测方法。这样，我们把函数逼近方法产生的近似函数，解释为估计的值函数。以上述方式把每次备份当成常规训练样本，就能使用现存的诸多函数逼近方法进展值预测。从原理上讲，可以使用任何基于样例的监视学习方法，包括人工神经网络、决策树以与各种类型的多元回归。但是并非所有的函数逼近方法都适合在强化学习中使用，大多数高级神经网络和统计学方法都假定

6、存在静态的用于多传递的训练集。在强化学习中，能够实现在线学习非常重要，此时它与环境或者环境模型交互。要做到这一点，要求学习方法能够从增量获得的数据中进展有效学习。此外，强化学习通常要求函数逼近方法能够处理非固定目标函数即不断改变的目标函数。例如在GPI控制方法中，我们希望在改变时也能学习到。如果训练样本的目标值是由自举方法计算的如DP和TD方法，即使策略维持不变，这些目标值也是非固定的。如果一种学习方法处理不好非固定问题，就不太适合用于强化学习。如何测定函数逼近的性能呢，大多数监视学习寻求最小化输入分布上的均误方差MSE, mean-squared error。在值预测问题中，输入是状态，目标

7、函数是准确的值函数，因此，使用参数向量的近似函数的均方误差是：8.1其中是表示不同状态的误差权重的分布。状态数量要比分量个数多得多，通常不可能把所有状态的误差都降为0，因此这个分布十分重要。因此，函数逼近器的灵活性是一个难得的资源，要想得到某些状态好的逼近，必须以其他状态差的逼近为代价。误差权重分布指定了如何在不同状态之间做平衡。通常是抽样得到的训练样本中状态的分布，因此该分布上的状态都已经做了备份。如果希望状态在特定分布下的误差最小，比拟有效的做法是采用一样分布的样本来训练函数逼近器。例如，要想误差均匀分布在整个状态集合上，有效的做法是，使用在整个状态集合上均匀分布的备份来训练近似函数逼近器

8、，类似于一些DP方法中的穷举扫描。今后，假定状态做了备份的分布与误差权重分布是一致的。分布用来描述：agent根据策略选择动作与环境交互时，遇到某些状态的频繁程度，我们想要逼近的就是该策略的值函数。我们把这种分布称为在-策略分布on-policy distribution，局部理由是，这是采用在-策略控制方法的备份分布。最小化在-策略分布的误差，就是把函数逼近的重点放在那些在该策略下实际出现的状态上，忽略那些没有出现的状态。在蒙特卡罗或者TD方法中，使用在-策略分布也是得到训练样本的最简单方法。这些方法使用策略从样本经历中生成状态值备份。因为要对遇到的每个状态进展备份，获得的训练样本的分布很自

9、然与在-策略分布一致。在-策略分布比我们后面讨论的其他分布的收敛效果更好。现在还不清楚是否应该最小化MSE。值预测有不同的潜在目标，这里最终希望通过值预测来改良策略，要做到这一点，值预测的最优目标未必是最小化MSE。由于不清楚值预测更有效的替代目标是什么，我们还是把注意力放在MSE上。MSE的理想目标是找到全局最优解global optimum，即对所有可能的，存在一个参数向量使得。要达到这个目标，有时简单的线性函数逼近器就够用了，复杂的函数逼近器如人工神经网络和决策树却不太可行，反而会收敛到局部最优解local optimum，即只在邻域的所有中，存在一个参数向量使得。收敛到局部最优解虽然让

10、人不够安心，但是就非线性函数逼近器来说，这已经是典型的最好情况了。在许多用到强化学习的实际问题中，收敛到最优解甚至真正的收敛，根本不会发生。尽管如此，通过一些方法还是可以获得接近最优解的MSE。其他一些逼近方法实际上可能是发散的，其MSE在极限上趋于无穷。为了把基于值预测的各种不同强化学习方法和各种不同的函数逼近方法结合到一起，本节描述了一个框架，该框架把前者的状态值备份作为后者的训练样本。另外本节还概述了MSE用于度量函数逼近的性能。上述各种方法涉与的面实在太广，其中许多方法很少有人做可靠的评价或建议，因此本书只关注其中一小局部，没有面面俱到。本章后面将关注基于梯度原理的函数逼近方法，特别是

11、线性梯度-下降方法。局部原因是我们认为梯度方法揭示了关键理论要点，比拟有前景，另外的原因是该方法比拟简单，而本书的容量有限。如果本书有更多章节来讨论函数逼近，我们至少会把基于存储的方法和决策树方法包括进来。现在详细讨论一种用于值预测的学习方法，即基于梯度-下降的函数逼近方法。梯度-下降方法是所有函数逼近方法最广泛使用的，尤其适合于强化学习。在梯度-下降方法中，参数向量是由固定个数的实数值组成的列向量表示转置，所有是的平滑可微函数。这里假定在每个时间步都观察到一个新样本。在与环境的交互中，这些状态可能是连续的，但这里假定状态是离散的。即使样本给出的是每个状态的真实值，学习的困难仍然存在，这是因为

12、函数逼近所需的资源有限，解决方法也就有限。特别是，通常不存在一个使得所有状态甚至所有样本的值都正确。此外，我们还必须将其泛化到样本中没有出现的其他状态。假定出现在样本中的状态都有一样的分布，我们试图在这些样本上最小化8.1式所示的MSE。这种情况下，好的对策就是在观察到的样本上最小化误差。梯度-下降方法在获取每个样本之后稍微调整参数向量，调整方向是能最大程度减少样本误差的方向： 8.2其中是正的步长参数，对任意函数，表示偏导数向量：这个导数向量就是关于的梯度gradient。这种方法称为梯度下降gradient descent，因为每次调整的步长，都与样本误差平方的负梯度有比例关系。这个方向是

13、误差下降最快的方向。现在还不清楚为什么在梯度方向上只移动一小步，不能在这个方向上以各种方式移动并完全消除样本的误差吗？许多情况下可以这样做，但通常并不可取。要记住的是，我们并不是寻求所有状态误差都为零的值函数，只是寻求能平衡不同状态之间误差的近似函数。如果每一步都完全更正每个样本的回报值，就不可能达到状态之间的误差平衡。实际上，梯度方法在收敛过程中假定步长参数是随着时间步递减的。如果步长参数以2.8式标准的随机逼近条件递减，如此8.2式梯度方法能确保收敛到局部最优。现在讨论这种情况：第次训练样本的目标输出不是真实的，而是真实值的某种逼近。例如，可能是的一个受噪声污染版本，或者可能是上节提到的某

14、个备份值。这种情况下，由于未知导致无法准确执行8.2式更新update，但是可以用替代作为的近似值。这就产生了用于状态值预测的通用梯度-下降方法： 8.3如果是的无偏估计unbiased estimate，即在每个时间步，且以2.8式标准随机逼近条件递减步长参数，就能确保收敛到局部最优。译注：估计量的数学期望等于被估计参数，称为无偏估计。如：设A=g(X1,X2,.,Xn)是未知参数A的一个估计，假设满足E(A)= A，如此称A为A的无偏估计量，假设E(A)A如此为有偏估计量。无偏估计是系统误差为零的估计。例如，假定样本中的状态是使用策略与环境交互或者模拟交互产生的。令表示在每个状态之后得到的

15、回报值。在蒙特卡罗备份中，一个状态的真实值是在该状态之后得到的回报值的期望，所以蒙特卡罗目标值是的无偏估计。这种情况下8.3式通用梯度-下降方法能收敛到的局部最优。因此，使用蒙特卡罗状态值预测的梯度-下降版本，能确保找到局部最优解。类似地，也可以把-步TD回报的平均值当作。例如，在TD()的梯度-下降形式中使用-回报，即把作为的近似，这导致了向前观点的更新：不幸的是，当时，不是的无偏估计，因此梯度-下降方法在这种情况下不能收敛到局部最优。在DP中把当作时，情况也一样。尽管如此，这些自举方法还是相当有效的，并且在一些重要的特殊场合还能获得其他性能保证，相关内容将在本章后面讨论。上面重点讨论了几种备份方法与8.3式通用梯度-下降之间的关系。尽管8.4式的增量局部不是梯度，但是把8.4式也看成是8.3式的梯度-下降方法的观点非常有用，只不过是用自举方法的近似值替代了想要的期望输出。 8.4式提供了梯度-下降TD()的向前观点，这里提供梯度-下降TD()向后观点：其中是通用TD误差，

展开阅读全文

8_泛化与函数逼近

最新文档