《强化学习》近似值函数方法
强化学习和监督学习
表格方法的局限
RL中的函数近似
监督学习-MC
MC—TD
基于值函数的RL损失函数
近似方法的一些困难
Deep Q-Network
经验回放
目标网络
奖励裁剪
DQN的一些问题和解决
Q值自相关问题
Q值过度估计
优先经验回放
相关推荐
查看17道真题和解析
查看23道真题和解析