Generalized Advantage Estimation
约 432 个字 预计阅读时间 2 分钟
用 GPT 生成
在强化学习(RL)中,GAE 指的是 广义优势估计(Generalized Advantage Estimation),它是一种用于计算策略梯度方法中的 优势函数(Advantage Function) 的技巧,能够 在偏差(bias)和方差(variance)之间取得平衡,从而提高训练稳定性和收敛速度。
GAE 的背景¶
在策略优化方法(如 A2C、PPO、TRPO)中,优势函数用于衡量某个动作相对于策略的平均回报是否更优。常见的优势估计方法包括:
- Monte Carlo 估计(高方差,低偏差)
- 时间差分(TD)估计(低方差,高偏差)
GAE 通过引入时间差分误差(TD error)的指数加权和,结合 TD 学习和 Monte Carlo 采样,平衡了二者的优缺点。
GAE 公式¶
GAE 的核心是基于TD 误差(δ) 的递归计算:
\[ \delta_{t}=r_{t} + \gamma V(s_{t+1}) - V(s_{t}) \]
然后使用指数衰减因子 \(\lambda\) 计算 GAE:
\[ \hat{A}_{t}^{\mathrm{GAE}}=\sum_{l=0}^{\infty} (\gamma \lambda)^{l}\delta_{t+l} \]
其中:
- \(\gamma\) 是折扣因子(通常 0.99)
- \(\gamma\) 是 GAE 平滑因子(通常 0.95)
GAE 结合了 TD(0)(当 \(\lambda=0\))和 Monte Carlo(当 \(\lambda=1\))的方法,在 \(\lambda\in(0,1)\) 之间可以调节偏差-方差权衡。
GAE 的优点¶
- 减少方差,提高稳定性:相比单纯的 Monte Carlo 方法,GAE 具有更低的方差,使得策略梯度方法训练更稳定。
- 加速收敛:能够更快地学习到更优的策略。
- 广泛应用:GAE 是 PPO、TRPO 等强化学习算法的重要组成部分。
总结:GAE 是一种改进的优势估计方法,它使用 TD 误差的加权和来降低方差,提高策略优化方法(如 PPO)的稳定性和效率。