《强化学习》基于策略的方法
基于策略RL和基于值函数RL
直觉
不同种类的策略
策略梯度形式
LOG技巧
REINFORCE
with baseline
Actor-Critic
Advantage Actor Critic
policy based 和 Value based
A3C
结合监督学习和强化学习
相关推荐
rush$0522:转正名单没进,大概率本来就没打算留你