Policy gradient
Optimizing the average reward object
policy gradient theorem:
对于同一个状态,各个动作的梯度,然后对各个状态累加。
Gaussian policies for continuous actions
课程的所有算法
Optimizing the average reward object
policy gradient theorem:
对于同一个状态,各个动作的梯度,然后对各个状态累加。
Gaussian policies for continuous actions
课程的所有算法
相关推荐