强化学习从基础到进阶-案例与实践[6]:演员-评论员算法(advantage actor-critic,A2C),异步A2C、与生成对抗网络的联系等详解 在REINFORCE算法中,每次需要根据一个策略采集一条完整的轨迹,并计算这条轨迹上的回报。这种采样方式的方差比较大,学习效率也比较低。我们可以借鉴时序差分学习的思想,使用动态规划方法来提高采样效率,即从状态 sss 开始的总回报可以通过当前动作的即时奖励 r(s,a,s′)r(s,a,s')r(s,a,s′) 和下一个状态 s′s's′ 的值函数来近似估计。 演员-评论员算法是一种结合策略梯度和时序差分学习的强化学习方法,其中,演员是指策略...